CN116579348A - 基于不确定语义融合的虚假新闻检测方法及系统 - Google Patents

基于不确定语义融合的虚假新闻检测方法及系统 Download PDF

Info

Publication number
CN116579348A
CN116579348A CN202310339698.9A CN202310339698A CN116579348A CN 116579348 A CN116579348 A CN 116579348A CN 202310339698 A CN202310339698 A CN 202310339698A CN 116579348 A CN116579348 A CN 116579348A
Authority
CN
China
Prior art keywords
representation
mode
sentence
modal
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310339698.9A
Other languages
English (en)
Inventor
周薇
卫玲蔚
胡斗
虎嵩林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Publication of CN116579348A publication Critical patent/CN116579348A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于不确定语义融合的虚假新闻检测方法及系统,涉及数据挖掘技术领域,通过获取社交网络中新闻的多模态数据;基于不确定性的模态编码模块从各模态数据中提取特定模态的高阶语义特征;通过变分注意融合模块建模模态间的不确定性,融合多模态特征;基于融合后的多模态特征,利用假新闻分类器得到目标新闻的类别标签。本发明能够从新闻的不同模态信息中提取更多鲁棒的高阶特征,并进一步有效整合更为可靠的多模态特征,可有效提升多模态假新闻检测的准确率。

Description

基于不确定语义融合的虚假新闻检测方法及系统
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于不确定语义融合的虚假新闻检测方法及系统。
背景技术
近年来,虚假新闻已从传统的纯文本形式演化为多模态形式呈现,与纯文本的虚假信息相比,带有视觉信息的虚假新闻更容易博人眼球,具有更快的传播速度,为网络生态带来了巨大的危害和负面影响,严重影响了社会安定和人们日常生活。因此,如何自动化检测多模态虚假新闻是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
多模态信息为识别虚假信息提供了很多互补性的线索,多模态内容理解的两大关键是对多模态特征的提取和融合。首先,在多模态特征提取方面,大多数多模态虚假新闻检测方法借助于预训练模型获取高阶语义特征,但是多模态数据尤其是社交媒体中的多模态数据往往是低质量的、包含很多噪音,造成了图片/文本模态内的语义不确定性。传统的编码器通过点向量难以表征带有固有不确定性的噪声数据,因此,如何鲁棒地提取特定模态的表示,对更好地理解多模态内容具有决定作用。
其次,虚假新闻发布者可能对任何模态数据进行伪装,导致样本的不同模态间伪装分布存在差异,造成了模态间的不确定性。而在多模态特征融合方面,现有的注意力融合方式基于数据特征,学习一种与模态无关的权重以融合多模态特征,忽略了上述差异的影响。因此,如何合理地建模模态间的不确定性对于有效融合多模态特征至关重要。
发明内容
本发明的目的是针对以下两个主要技术问题:一是如何建模不同模态数据固有的数据不确定性,提取更鲁棒的模态特征;二是如何考虑模态伪装分布差异问题,更有效地融合多模态特征;提供一种同时建模模态内和模态间不确定性的虚假新闻检测方法及系统,以提高虚假新闻检测任务的性能。
为实现上述目的,本发明提供的技术方案如下:
一种基于不确定语义融合的虚假新闻检测方法,包括以下步骤:
1)获取社交网络中新闻的多模态数据,包括文本和/或图片;
2)针对所述多模态数据,构建基于不确定性的模态编码模块,该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取模态数据的分布式语义表示;
3)针对步骤2)得到的不同模态的分布式语义表示,构建变分注意融合模块,该变分注意融合模块通过采样方式得到跨模态注意向量,再通过加权计算不同模态的特征表示并进行融合;
4)针对步骤3)得到的融合后的多模态特征表示,利用虚假新闻分类器进行处理,得到目标新闻的类别标签。
优选地,步骤1)中对文本和/或图片进行预处理,包括:对文本进行分词处理,生成token字符索引,保留最大序列长度;对图片转换为预设尺寸。
优选地,步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下:
xt=BERT({[CLS],w1,...,wn})
其中,xt表示句子的表达式,[CLS]表示插入句子开头的特殊字符,wi表示输入文本序列的第i个单词,n为文本长度,BERT表示预训练语言模型。
优选地,步骤2)中基于激活函数和预训练语言模型的可训练参数,将句子表示映射到预定义维度。
优选地,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下:
其中,p表示重构后的句子表示,zt表示重构的分布式表示,st为映射后的句子表示,为高斯分布,μt为高斯分布的均值,σt为高斯分布的方差,I为单位阵。
优选地,其中/>和/>表示参数独立的多层感知机,θ1和θ2为对应的模型参数。
优选地,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构后,采用重参数化使模型梯度能被计算,重构后的分布式表示的表达式如下:
优选地,步骤3)中跨模态注意向量的计算式如下:
其中,为模态k对应的注意向量,ak为正则化后的模态k对应的注意向量,zk为模态k的分布式语义表示,/>为模态k对应的均值;/>为模态k对应的方差,描述了模态k的相对置信度;k′为从集合{v,t}中取值的模态,qθ为模态间注意权重的后验分布,t表示文本模态,v表示图片模态。
优选地,步骤3)中通过加权计算不同模态的特征表示并进行融合的计算式如下:
其中,Wh为可训练的参数。
一种基于不确定语义融合的虚假新闻检测系统,包括:
数据采集与预处理模块,用于从社交媒体平台获取新闻的多模态数据,包括文本和/或图片;
模态编码模块,用于针对多模态数据,通过预训练语言模型提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取多模态数据的分布式语义表示;
变分注意融合模块,用于针对不同模态下的分布式语义表示,通过采样方式得到跨模态注意向量,通过加权计算不同模态的特征表示并进行融合;
虚假新闻分类模块,用于利用虚假新闻分类器对融合的多模态特征表示进行处理,预测目标新闻的类别标签。
本发明的技术方案具有以下优点:
本发明在多模态特征提取方面,通过特征正则的方式建模特定模态内固有的不确定性,能够从带有噪声的多模态内容中鲁棒地提取更丰富的特定模态表示,有利于更好地理解特定模态语义信息;本发明在多模态特征融合方面,学习了一种与模态伪装分布相关的注意权重估计不同模态的贡献,用以有效融合多模态特征,使得模型能够从更可靠的模态中融合有效信息。本发明通过同时建模模态内和模态间不确定性,能够更有效地理解、融合多模态内容,有效提高多模态虚假新闻检测性能,在公开数据集的实验表明,对于微博和Twitter平台,本发明分别能够有效提升4.8%和10.2%检测准确率。
附图说明
图1为本发明实施例的基于不确定语义融合的虚假新闻检测方法的流程图;
图2为本发明实施例的基于不确定语义融合的虚假新闻检测系统的结构图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
图1是本发明实施例提供的一种虚假新闻检测方法的流程图,具体包括以下步骤:
步骤A:获取社交网络中新闻的多模态数据。对于多模态数据的每条样本i,其包括文本内容和图片内容。对文本和图片进行预处理,包括:对于文本内容,进行分词处理(英文一般以WordPiece为单位,中文一般以字为单位),生成token字符索引,保留最大序列长度;对于图片内容,将图片转换为预定义大小3×224×224,以便喂入预训练编码器;
步骤B:根据步骤A的多模态数据,构建基于不确定性的模态编码模块,利用该模态编码模块对多模态数据中的每种模态的数据进行处理。以文本模态为例,输入样本的文本序列Xt,建模文本模态内固有的不确定性,获取文本模态的分布式语义表示。
具体处理步骤包括:
步骤B1:通过预训练语言模型提取句子表示其中Dt为模型输出的隐变量维度大小,具体如下:
xt=BERT({[CLS],w1,...,wn})
其中,[CLS]表示插入句子开头的特殊字符,wi表示输入文本序列的第i个单词,n为文本长度,BERT表示预训练语言模型。
步骤B2:将该句子表示映射到Dh维度,计算方式如下:
其中,和/>为可训练的参数,σ表示激活函数。
步骤B3:将映射后的句子表示用潜在的高斯分布进行重构,以建模模态内的不确定性。参数化的高斯分布定义如下:
其中,p表示重构后的句子表示,为高斯分布,μt为高斯分布的均值,σt为高斯分布的方差。即/>其中,/>和/>表示参数独立的多层感知机,θ1和θ2为对应的模型参数,I为单位阵。
在实施过程中,由于采样过程不可微,采用重参数化使得模型梯度可计算。故重构后的分布式表示zt的计算方式如下:
步骤C:根据步骤B得到的不同模态的高阶语义特征即分布式语义表示,构建变分注意融合模块,建模模态间的不确定性,融合多模态特征;
具体处理步骤包括:
步骤C1:为建模模态间的不确定性,改进传统的注意力机制,通过采样方式得到跨模态注意向量。给定不同模态的分布式表示,跨模态注意向量的计算方式如下:
其中,为模态k对应的注意向量,ak为正则化后的模态k对应的注意向量,zk为模态k的分布式语义表示,/>为模态k对应的均值;/>为模态k对应的方差,描述了模态k的相对置信度;k′为从集合{v,t}中取值的模态,qθ为模态间注意权重的后验分布,t表示文本模态,v表示图片模态。
步骤C2:通过加权计算不同模态的特征表示得到融合后的多模态表示。具体如下:
其中,Wh为可训练的参数。
步骤D:根据步骤C得到的融合后的多模态特征h,利用假新闻分类器得到目标新闻的类别标签。
如图2所示,本发明实施例还提供一种虚假新闻检测系统,具体包括:
数据采集与预处理模块,用于社交媒体平台的新闻数据采集,获取新闻的多模态数据(如文本、图片等)并进行数据预处理;该预处理包括:对于文本内容,进行分词处理(英文一般以WordPiece为单位,中文一般以字为单位),生成token字符索引,保留最大序列长度;对于图片内容,将图片转换为预定义大小3×224×224,以便喂入预训练编码器;
基于不确定性的模态编码模块,用于编码预处理后的不同模态数据,通过建模模态内固有的不确定性,即通过预训练语言模型提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,生成特定模态下的分布式语义表示;
变分注意融合模块,用于根据上述得到的特定模态下的分布式语义表示,通过采样方式得到跨模态注意向量,通过加权计算不同模态的特征表示,并融合生成新闻的多模态特征表示;
虚假新闻分类模块,用于根据上述多模态特征表示,利用虚假新闻分类器,预测该样本的类别标签。
实验测试:
使用公开的来自微博和Twitter两个知名社交网络平台的多模态虚假新闻基准数据集进行实验测试,对比了该领域经典的基于单模态的检测方法(BERT、VGG-19)和基于多模态的检测方法(SAFE、att-RNN、MVAE、EANN、BDANN),采用准确率作为评估指标,两个数据集的实验结果如下表所示,在微博和Twitter平台的基准数据集上,本发明能够分别提升4.8%和10.2%的准确率。
表1
方法 微博 Twitter
BERT 0.804 0.706
VGG-19 0.633 0.596
SAFE 0.763 0.766
att-RNN 0.772 0.664
MVAE 0.824 0.745
EANN 0.794 0.648
BDANN 0.814 0.821
本发明方法 0.862 0.923
提升百分比 +4.8% +10.2%
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种基于不确定语义融合的虚假新闻检测方法,其特征在于,包括以下步骤:
1)获取社交网络中新闻的多模态数据,包括文本和/或图片;
2)针对所述多模态数据,构建基于不确定性的模态编码模块,该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取模态数据的分布式语义表示;
3)针对步骤2)得到的不同模态的分布式语义表示,构建变分注意融合模块,该变分注意融合模块通过采样方式得到跨模态注意向量,再通过加权计算不同模态的特征表示并进行融合;
4)针对步骤3)得到的融合后的多模态特征表示,利用虚假新闻分类器进行处理,得到目标新闻的类别标签。
2.如权利要求1所述的方法,其特征在于,步骤1)中,对文本和/或图片进行预处理,包括:对文本进行分词处理,生成token字符索引,保留最大序列长度;对图片转换为预设尺寸。
3.如权利要求1所述的方法,其特征在于,步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下:
xt=BERT({[CLS],w1,…,wn})
其中,xt表示句子的表达式,[CLS]表示插入句子开头的特殊字符,wi表示输入文本序列的第i个单词,n为文本长度,BERT表示预训练语言模型。
4.如权利要求1所述的方法,其特征在于,步骤2)中基于激活函数和预训练语言模型的可训练参数,将句子表示映射到预定义维度。
5.如权利要求1所述的方法,其特征在于,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下:
其中,p表示重构后的句子表示,zt表示重构的分布式表示,st为映射后的句子表示,为高斯分布,μt为高斯分布的均值,σt为高斯分布的方差,I为单位阵。
6.如权利要求5所述的方法,其特征在于,其中/>和/>表示参数独立的多层感知机,θ1和θ2为对应的模型参数。
7.如权利要求5所述的方法,其特征在于,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构后,采用重参数化使模型梯度能被计算,重构后的分布式表示的表达式如下:
8.如权利要求5所述的方法,其特征在于,步骤3)中跨模态注意向量的计算式如下:
其中,为模态k对应的注意向量,ak为正则化后的模态k对应的注意向量,zk为模态k的分布式语义表示,/>为模态k对应的均值;/>为模态k对应的方差,描述了模态k的相对置信度;k′为从集合{v,t}中取值的模态,qθ为模态间注意权重的后验分布,t表示文本模态,v表示图片模态。
9.如权利要求5所述的方法,其特征在于,步骤3)中通过加权计算不同模态的特征表示并进行融合的计算式如下:
其中,Wh为可训练的参数。
10.一种基于不确定语义融合的虚假新闻检测系统,其特征在于,包括:
数据采集与预处理模块,用于从社交媒体平台获取新闻的多模态数据,包括文本和/或图片;
模态编码模块,用于针对多模态数据,通过预训练语言模型提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取多模态数据的分布式语义表示;
变分注意融合模块,用于针对不同模态下的分布式语义表示,通过采样方式得到跨模态注意向量,通过加权计算不同模态的特征表示并进行融合;
虚假新闻分类模块,用于利用虚假新闻分类器对融合的多模态特征表示进行处理,预测目标新闻的类别标签。
CN202310339698.9A 2022-12-14 2023-03-31 基于不确定语义融合的虚假新闻检测方法及系统 Pending CN116579348A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022116093833 2022-12-14
CN202211609383 2022-12-14

Publications (1)

Publication Number Publication Date
CN116579348A true CN116579348A (zh) 2023-08-11

Family

ID=87538472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310339698.9A Pending CN116579348A (zh) 2022-12-14 2023-03-31 基于不确定语义融合的虚假新闻检测方法及系统

Country Status (1)

Country Link
CN (1) CN116579348A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113281A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113281A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质
CN117113281B (zh) * 2023-10-20 2024-01-26 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110826337B (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
Vijayaraju Image retrieval using image captioning
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination