CN115309860B - 基于伪孪生网络的虚假新闻检测方法 - Google Patents
基于伪孪生网络的虚假新闻检测方法 Download PDFInfo
- Publication number
- CN115309860B CN115309860B CN202210838961.4A CN202210838961A CN115309860B CN 115309860 B CN115309860 B CN 115309860B CN 202210838961 A CN202210838961 A CN 202210838961A CN 115309860 B CN115309860 B CN 115309860B
- Authority
- CN
- China
- Prior art keywords
- news
- data
- features
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000002352 blister Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 125000001153 fluoro group Chemical group F* 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于虚假新闻检测技术领域,具体涉及一种基于伪孪生网络的虚假新闻检测方法,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;3)根据匹配网络的输出,进而预测新闻内容的真实性。本发明利用不同模态数据的匹配程度来检测虚假新闻,克服了以往的方法只能检测特定领域虚假新闻的弊端,使得多模态虚假新闻检测模型的领域适用性更强。
Description
技术领域
本发明属于虚假新闻检测技术领域,具体涉及一种基于伪孪生网络的虚假新闻检测方法。
背景技术
社交媒体的发展使得人们获取信息越来越方便,社交平台鼓励用户积极地参与讨论新闻事件和社会热点话题,为用户提供了分享、评论、点赞等丰富的社交功能,这带来了巨大的潜在政治利益和经济利益,但是也促使了虚假新闻的传播。在一定程度上,虚假新闻往往比真实新闻在社交网络上传播得更快、更远、更广泛。
为了减缓虚假新闻对社会造成的负面影响,一些早期的研究者利用机器学习技术实现了虚假新闻的自动检测,他们将人工设计好的新闻特征作为机器学习模型的输入,以此来检测虚假新闻,但这样的方法往往具有一定的局限性:根据某一领域新闻设计的特征可能无法迁移到其他领域新闻,因为不同领域新闻的写作风格、内容、词汇等分布往往是不同的。新闻内容是动态变化的,一些早期人工设计的特征可能并不适用于之后出现的新闻,且虚假新闻制造者极容易利用人工设计的特征来逃避模型的检测。
由于深度神经网络在捕获数据复杂特征方面具有明显优势,现在很多研究者都使用深度学习技术对虚假新闻进行检测。然而,大多数深度学习方法。尽管在特定领域的数据集上有良好的效果,但是并不能在跨领域数据中有效识别出虚假新闻,原因如下:1)供研究者使用的数据集新闻领域过于单一,如FakeNewsNet数据集仅包含政治和娱乐新闻,而现实中的新闻包含多个领域;2)特定领域新闻的语言风格与传播模式存在明显差异,现有的模型并不能适应这种差异。因此,如何利用现有领域的新闻数据检测其他跨领域新闻是一个重要而具有挑战性的问题。
有鉴于此,有必要提供一种新的虚假新闻检测方法。
发明内容
本发明的目的在于克服现有技术中存在的至少一个上述问题,提供一种基于伪孪生网络的虚假新闻检测方法,利用不同模态数据的匹配程度来检测虚假新闻,克服了以往的方法只能检测特定领域虚假新闻的弊端,使得多模态虚假新闻检测模型的领域适用性更强。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
本发明提供一种基于伪孪生网络的虚假新闻检测方法,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性。
进一步地,如上所述的虚假新闻检测方法,将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻(yi=0)或是虚假新闻(yi=1)的概率。
进一步地,如上所述的虚假新闻检测方法,特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的: t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
由于双向长短时记忆网(bi-directional long short-termmemory,BiLSTM) 在获取文本特征方面有着极其出色的表现,所以使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是权重矩阵;xt,ht是在t时间的输入状态和隐状态;σ是sigmoid函数,表示按元素乘积;
最终的文本特征向量T,表示为t时刻隐状态的平均值:
其中,m是微博文本的长度。
进一步地,如上所述的虚假新闻检测方法,m=75。
进一步地,如上所述的虚假新闻检测方法,特征提取器中的图像特征表示:研究表明,虚假新闻的图像与真实新闻的图像在语义层面上具有不同的特征,这表明新闻的图像特征在虚假新闻的检测中发挥着重要作用,一方面,新闻的图像特征本身会带有一些跟新闻真实性相关的信息,例如,虚假新闻的图像往往更具有视觉冲击力;另一方面,在匹配网络中利用文本特征与图像特征的语义匹配程度进一步衡量了新闻的真实性,因此,在FNPS模型的多模态特征提取器中使用一个预训练的 ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为448×448并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
其中,Nr代表区域的数量。
进一步地,如上所述的虚假新闻检测方法,匹配网络的目标是从数据中学习两个映射函数和这两个映射函数能够将输入的特征映射到一个新的目标空间,使目标空间中特征之间的欧氏距离与原空间中特征之间的“语义距离”相近,将其表示为:
这个映射函数可以用来映射以前未见过的新样本(例如,训练期间未见过的领域新闻);如果在目标空间中特征之间的欧式距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
其中,ε为超参数;
在模型训练过程中,通过最小化对比损失(contrastive loss)来优化匹配网络,对比损失可以有效处理孪生网络中成对的数据关系,它的表达式如下:
其中,n表示数据量,yi为新闻的标签;di指代S(Ti,Pi)。
进一步地,如上所述的虚假新闻检测方法,设定的阈值ε=0.65。
进一步地,如上所述的虚假新闻检测方法,观察上述损失函数表达式可知,若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
本发明的有益效果是:
本发明专注于由文本及图像组成的虚假新闻内容,受计算机视觉领域任务的启发,将虚假新闻的检测视为多模态语义匹配问题。在现实世界中,绝大部分虚假新闻的文本及其所附图像内容的语义并不匹配,基于此,提出了基于伪孪生网络的虚假新闻检测方法——FNPS,具体地说,首先将虚假新闻的多模态数据从原始空间映射到新的目标空间,其次在目标空间进一步衡量了文本与图像的语义匹配程度,从而整体提高了模型在检测跨领域虚假新闻的效果。实验结果表明,所提出的模型FNPS优于其他的多模态虚假新闻检测模型。
当然,实施本发明的任一产品并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明检测方法的模型框架示意图;
图2为ε对模型性能的影响示意图;
图3为词嵌入维度对模型性能的影响示意图;
图4为匹配维度对模型性能的影响示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明受到了孪生网络思想的启发,在监督学习范式下,孪生网络会最大化不同样本的特征差距,并最小化相同样本的特征差距。在自监督或无监督学习范式下,孪生网络可以最小化原输入和干扰输入 (例如原始图像和加入噪声的图像)间的特征差距。孪生网络可以进行小样本学习(few-shot learning)或单样本学习(one-shot learning),且不容易被错误样本干扰,因此可用于对容错率要求严格的模式识别问题,例如人脸识别、指纹识别、目标追踪等。
狭义的孪生网络由两个结构相同,且权值共享的子网络构成,每个子网络各自接收一个输入,将其映射至目标特征空间。网络的最顶层由一个度量函数构成,它负责计算两个输入特征的距离,例如欧式距离,余弦距离,从而比较两个输入的相似程度。孪生网络的权值共享保证了两个极其相似的输入不会被各自的网络映射到特征空间的不同位置。在本发明中,发明人使用广义的孪生网络,其特点是子网络的结构不同且权值不共享,许多研究者称之为伪孪生网络。
本发明提供一种基于伪孪生网络的虚假新闻检测方法,如图1所示,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性。
本发明中,将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻(yi=0)或是虚假新闻(yi=1)的概率。
本发明中,特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的:t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
由于双向长短时记忆网(bi-directional long short-termmemory,BiLSTM) 在获取文本特征方面有着极其出色的表现,所以使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是权重矩阵;xt,ht是在t时间的输入状态和隐状态;σ是sigmoid函数,表示按元素乘积;
最终的文本特征向量T,表示为t时刻隐状态的平均值:
其中,m是微博文本的长度,m=75。
本发明中,特征提取器中的图像特征表示:研究表明,虚假新闻的图像与真实新闻的图像在语义层面上具有不同的特征,这表明新闻的图像特征在虚假新闻的检测中发挥着重要作用,一方面,新闻的图像特征本身会带有一些跟新闻真实性相关的信息,例如,虚假新闻的图像往往更具有视觉冲击力;另一方面,在匹配网络中利用文本特征与图像特征的语义匹配程度进一步衡量了新闻的真实性,因此,在FNPS模型的多模态特征提取器中使用一个预训练的ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为 448×448并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
其中,Nr代表区域的数量。
进一步地,如上所述的虚假新闻检测方法,匹配网络的目标是从数据中学习两个映射函数和这两个映射函数能够将输入的特征映射到一个新的目标空间,使目标空间中特征之间的欧氏距离与原空间中特征之间的“语义距离”相近,将其表示为:
这个映射函数可以用来映射以前未见过的新样本(例如,训练期间未见过的领域新闻);如果在目标空间中特征之间的距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
其中,ε为超参数,ε=0.65;
在模型训练过程中,通过最小化对比损失(contrastive loss)来优化匹配网络,对比损失可以有效处理孪生网络中成对的数据关系,它的表达式如下:
其中,n表示数据量,yi为新闻的标签。观察上述损失函数表达式可知,若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
本发明通过引入孪生网络架构来检测跨领域新闻。最早的孪生网络被用于美国支票上的签名验证,即验证支票上的签名与银行预留签名是否一致。随着深度学习的发展,孪生网络被用在越来越多的计算机视觉任务上,例如,人脸验证,关键点描述学习,此外,它还被用于单样本字符识别以及一些图像检索任务。然而,到目前为止,孪生网络还未被应用于虚假新闻检测任务。
本发明的具体实施例如下
一、数据集和预处理
考虑到基于多媒体内容的虚假新闻检测研究并不多,目前仅有几个标准的多模态虚假新闻数据集可用。两个使用最广泛的数据集是文献[Boididou C,Papadopoulos S,Dang-Nguyen D, etal.Verifying Multimedia Use at MediaEval 2016[C]//MediaEval2016Workshop.2016]提出的Twitter数据集和文献[]Jin Z,Cao J, Guo H,etal.Multimodal fusion with recurrent neural networks for rumor detection onmicroblogs[C]//Proceedings of the 25th ACM international conference onMultimedia.2017:795-816]中建立的微博数据集。然而,在Twitter数据集中有很多重复的图片,导致有特色的图片数量少于500张,这使得Twitter数据集太小,无法支持所提出的模型的训练。因此,在本实施例中,发明人仅对微博数据集进行了实施例,以评估所提出的模型的有效性。接下来,发明人将提供所使用的数据集的详细信息。
1)WeiBoA:该数据集来自DataFountain网站(datafountain.cn) ,是由北京市经济和信息化局、中国计算机学会大数据专家委员提供的多模态数据集,每条数据均从微博平台(weibo.com)采集,包括微博正文、评论、图像、所属领域等多个字段,标签由人工进行标注,分为三种类别,分别是无需判断,虚假新闻和真实新闻,本实施例仅使用其中的虚假新闻和真实新闻数据,为了更准确的训练和评估模型,发明人手动检查了训练集和测试集,以确保标签的准确性。由于微博口语化严重,发明人对数据进行了清洗,仅保留了微博正文中的汉字部分,去除了表情、符号、等无实际意义的内容。为了确保数据集的质量,发明人还去除了重复和低质量的图像,为了确保每条微博都有图像与之对应,纯文本的微博被删除,对于有多张图像的微博只保留一张图像。处理之后的数据共计17848条。领域分为八个:财经、社会、娱乐、健康、科技、政治、军事、教育,其中后四个领域由于数据量较少,所以发明人将其划分为测试集A,共计1431条,前四个领域的数据划分为训练集(90%)和验证集(10%),共计16417条。
WeiBoB:该数据集首次出现在文献[Jin Z,Cao J,Guo H,et al. Multimodalfusion with recurrent neural networks for rumor detection on microblogs[C]//Proceedings of the 25th ACM international conference on Multimedia.2017:795-81]中用于虚假新闻检测任务。其中,真实新闻来自中国权威新闻来源,如新华社。虚假新闻是从2012年5月到2016年1月抓取的,并由微博的官方辟谣系统进行验证。该系统鼓励普通用户举报可疑的帖子,并由受信任的用户组成的委员会对可疑的帖子进行审查。根据以前的工作,这个系统也作为收集谣言新闻的权威来源。每条数据的内容都是由博文及一张配图构成,发明人使用与WeiBoA数据集相同的方法对该数据集进行预处理。处理后的数据共计5361条,其中虚假新闻4311条,真实新闻1050条,因为数据没有进行领域标注,所以发明人将其作为测试集B。
数据集的详细信息如下表1所示:
表1数据集统计
二、实施例参数设置
对于词嵌入,首先使用Jieba分词器将中文文本分割为词语,然后使用预训练的Glove模型对词语进行嵌入表示,嵌入维度为 32。预训练的BiLSTM模型与ResNet50模型可在线获得。文本特征提取器和图像特征提取器的输出维度都是128。被匹配网络映射至目标空间的匹配维度为32,设置为0.65。在整个训练过程中,数据的批大小设置为64,学习率为0.001,模型使用Relu作为激活函数,为了寻求模型的最佳参数,发明人使用Adam优化器来优化损失函数。其他具体参数在表2中列出:
表2
超参数 | 值 |
ε | 0.65 |
批大小 | 64 |
学习率 | 0.001 |
词嵌入维度 | 32 |
匹配网络匹配维度 | 32 |
ResNet50全连接层大小 | 128 |
LSTM隐藏层大小 | 128 |
激活函数 | ReLu |
优化器 | Adam |
本文使用虚假新闻检测任务中常用的精度(precision)、召回率(recall)、准确率(accurac)、以及F1值(F1-Score)作为主要评估指标。
三、基线模型
为了验证本发明所提出方法的有效性,发明人选取了五种有代表性的方法进行性能比较。其中包括两种单模态模型和三种多模态模型。
1)单模态模型
Txt:BiLSTM是解决许多文本分类问题的最流行方法之一。Txt利用BiLSTM网络来学习文本特征,然后使用带有softmax层的全连接网络来进行预测。
Img:视觉特征是由ResNet50获得的。经过池化层的处理,视觉特征被送入全连接网络进行最终预测,发明人只更新全连接网络的参数。
2)多模态模型
TxtImg:发明人将文本特征和图像特征串联起来作为全连接网络的输入,并预测结果。
EANN:事件对抗神经网络(EANN)是一个多模态的虚假新闻检测模型,它的文本和视觉特征是利用基于CNN的文本特征提取器(TextCNN)和VGG19网络分别获得。另外,在模型中还添加了一个额外的事件分类器来学习与新闻事件无关的共享特征。为了适应发明人的任务,发明人将其改写成学习与新闻领域无关的共享特征。
MVAE:最先进的方法之一,多模态变分自动编码器(MVAE),是一个多模态融合的虚假新闻检测框架。该模型通过利用变分自动编码器从共享的潜在特征中重构文本和视觉特征特征来发现跨模态的相关性。MVAE由编码器、解码器和分类器组成。
四、实施例结果与分析
发明人使用数据集WeiboA的前4领域(财经、社会、娱乐、健康)进行模型的训练,并在WeiboA的后4领域(科技、政治、军事、教育)以及WeiboB(领域未知)进行模型的测试。为避免实施例的偶然性,发明人将每组实施例重复5次并取平均结果。详细的实施例结果在表3中列出:
表3
可以观察到,仅基于文本模态的模型效果并不如仅基于图像模态的模型。直观上,虚假新闻的领域信息主要集中在文本内容中,例如,在财经领域的新闻文本中存在大量经济学专业词汇,这就导致仅使用文本内容检测虚假新闻不能保证模型拥有良好的领域适用性。相反,图像中涉及的领域信息并不明显,例如,在娱乐领域、政治领域及社会领域的新闻图像中都可能包含人物。实施例数据恰好也证明了这一点:在单模态模型中, Img优于Txt,这说明图像特征对于检测跨领域虚假新闻有很大帮助。
所有多模态模型都优于单模态模型,这证实了在检测虚假新闻任务中使用多模态信息的有效性。与其他多模态方法相比,所提出的模型FNPS在大多数评估指标方面都取得了最佳结果,以F1值为衡量指标,在数据集WeiBoA上超出其他方法3个百分点以上,在数据集WeiBoB上超出其他方法6个百分点以上。这一结果表明,在检测与训练数据领域差异性较大的跨领域新闻时,利用新闻不同模态数据间的语义匹配程度是非常有效的策略。 EANN与MVAE则是直接将多模态数据的特征作为分类器的输入,尽管在特征层次考虑到了模态之间的协同作用,然而却忽略了不同模态数据在语义层次的匹配作用。因此,EANN与 MVAE的分类准确率明显低于发明人的模型FNPS。
五、参数灵敏度实施例
实施例过程中部分重要超参数对模型性能的影响在图2至图4中进行展示,所有实施例均在数据集WeiBoA上进行。
如图2所示,ε是一个阈值,在匹配网络中使用,若文本特征与图像特征在目标空间中的欧氏距离大于,则说明两种模态数据的语义在一定程度上是不匹配的,即输入数据很有可能是虚假新闻。如图4所示,经多次实验,发明人将设置为0.65,此时FNPS能达到最好效果。
如图3所示,不少研究者对于词嵌入维度的选择似乎都颇为随意,然而,大量的研究表明,如果词嵌入维度选择得过小或过大都无法保证模型的最优性。如图2所示,在本发明中发明人通过实施例得出,词嵌入维度设置为32时模型表现最优。
如图4所示,匹配网络的匹配维度也是一个影响模型性能的关键超参数,若匹配维度设置得过小,模型只能在有限的维度度量不同模态数据间的语义匹配程度;相反,若匹配维度设置得过大,特征中将包含更多无用的噪音,反而会抑制模型效果。经多次试验,发明人将匹配维度设置为32时,模型的表现更好。
本发明研究了多模态虚假新闻检测问题,提出了一个基于伪孪生网络的虚假新闻检测模型FNPS。它利用新闻内容的主要成分(文本和图像)的语义匹配程度来衡量新闻的真实性。在真实数据集上的实施例结果表明,发明人所提出的模型FNPS优于现有的多模态假新闻检测模型。由于FNPS是一种多模态虚假新闻检测任务的通用方法,因此它可以很容易地扩展到更多模态模型。
以上公开的本发明优选实施例只是利于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.基于伪孪生网络的虚假新闻检测方法,其特征在于,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性;
将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻或是虚假新闻的概率;
特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的:t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方向上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
最终的文本特征向量T,表示为t时刻隐状态的平均值:
其中,m是微博文本的长度;
特征提取器中的图像特征表示:在特征提取器中使用预训练的ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为448×448,并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
其中,Nr代表区域的数量;
如果在目标空间中特征之间的距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
其中,ε为超参数;
在模型训练过程中,通过对比损失函数来优化匹配网络,对比损失函数的表达式如下:
2.根据权利要求1所述的虚假新闻检测方法,其特征在于:m=75。
3.根据权利要求1所述的虚假新闻检测方法,其特征在于:设定的阈值ε=0.65。
4.根据权利要求1所述的虚假新闻检测方法,其特征在于:若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838961.4A CN115309860B (zh) | 2022-07-18 | 2022-07-18 | 基于伪孪生网络的虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838961.4A CN115309860B (zh) | 2022-07-18 | 2022-07-18 | 基于伪孪生网络的虚假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309860A CN115309860A (zh) | 2022-11-08 |
CN115309860B true CN115309860B (zh) | 2023-04-18 |
Family
ID=83856607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210838961.4A Active CN115309860B (zh) | 2022-07-18 | 2022-07-18 | 基于伪孪生网络的虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309860B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809327B (zh) * | 2023-02-08 | 2023-05-05 | 四川大学 | 一种多模融合和话题的实时社交网络谣言检测方法 |
CN116910187B (zh) * | 2023-09-13 | 2024-01-09 | 之江实验室 | 天文信息提取方法、装置、电子装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612679A (zh) * | 2022-02-24 | 2022-06-10 | 郑州大学 | 一种多模态数据融合神经网络的虚假新闻图像检测方法 |
CN114756763A (zh) * | 2022-02-23 | 2022-07-15 | 北方工业大学 | 社交网络虚假新闻检测方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832353B (zh) * | 2017-10-23 | 2020-04-14 | 同济大学 | 一种社交媒体平台虚假信息识别方法 |
US11494446B2 (en) * | 2019-09-23 | 2022-11-08 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
CN111831790B (zh) * | 2020-06-23 | 2023-07-14 | 广东工业大学 | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
CN114386421A (zh) * | 2022-01-13 | 2022-04-22 | 平安科技(深圳)有限公司 | 相似新闻检测方法、装置、计算机设备和存储介质 |
CN114662497A (zh) * | 2022-02-24 | 2022-06-24 | 郑州大学 | 一种基于协同神经网络的虚假新闻检测方法 |
-
2022
- 2022-07-18 CN CN202210838961.4A patent/CN115309860B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756763A (zh) * | 2022-02-23 | 2022-07-15 | 北方工业大学 | 社交网络虚假新闻检测方法及装置 |
CN114612679A (zh) * | 2022-02-24 | 2022-06-10 | 郑州大学 | 一种多模态数据融合神经网络的虚假新闻图像检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115309860A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
Fang et al. | Self multi-head attention-based convolutional neural networks for fake news detection | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Hristakieva et al. | The spread of propaganda by coordinated communities on social media | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN110210358A (zh) | 一种基于双向时序图的视频描述生成方法和装置 | |
Jin et al. | Image credibility analysis with effective domain transferred deep networks | |
Czyżewski et al. | Analysis of results of large‐scale multimodal biometric identity verification experiment | |
Kasnesis et al. | Transformer-based identification of stochastic information cascades in social networks using text and image similarity | |
CN109145704A (zh) | 一种基于人脸属性的人脸画像识别方法 | |
Liu et al. | Text emotion recognition using GRU neural network with attention mechanism and emoticon emotions | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN110347825A (zh) | 一种短英文影评分类方法及装置 | |
Sheeba et al. | A fuzzy logic based on sentiment classification | |
Unal et al. | Visual persuasion in covid-19 social media content: A multi-modal characterization | |
Lumini et al. | Image orientation detection by ensembles of Stochastic CNNs | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
Alshareef et al. | A study of gender bias in face presentation attack and its mitigation | |
CN115758218A (zh) | 一种基于长短时特征和决策融合的三模态情感分析方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Ogunsuyi Opeyemi et al. | K-nearest neighbors bayesian approach to false news detection from text on social media | |
CN114662596A (zh) | 一种虚假信息检测模型训练方法及虚假信息检测方法 | |
Li et al. | Smoking behavior recognition based on a two-level attention fine-grained model and EfficientDet network | |
CN112035670A (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
CN111767402A (zh) | 一种基于对抗学习的限定域事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |