CN115309860A - 基于伪孪生网络的虚假新闻检测方法 - Google Patents

基于伪孪生网络的虚假新闻检测方法 Download PDF

Info

Publication number
CN115309860A
CN115309860A CN202210838961.4A CN202210838961A CN115309860A CN 115309860 A CN115309860 A CN 115309860A CN 202210838961 A CN202210838961 A CN 202210838961A CN 115309860 A CN115309860 A CN 115309860A
Authority
CN
China
Prior art keywords
news
features
data
image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210838961.4A
Other languages
English (en)
Other versions
CN115309860B (zh
Inventor
刘勇
姜凯育
玄萍
黎玲利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Wisdom Dragon Machinery Design Co ltd
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202210838961.4A priority Critical patent/CN115309860B/zh
Publication of CN115309860A publication Critical patent/CN115309860A/zh
Application granted granted Critical
Publication of CN115309860B publication Critical patent/CN115309860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于虚假新闻检测技术领域,具体涉及一种基于伪孪生网络的虚假新闻检测方法,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;3)根据匹配网络的输出,进而预测新闻内容的真实性。本发明利用不同模态数据的匹配程度来检测虚假新闻,克服了以往的方法只能检测特定领域虚假新闻的弊端,使得多模态虚假新闻检测模型的领域适用性更强。

Description

基于伪孪生网络的虚假新闻检测方法
技术领域
本发明属于虚假新闻检测技术领域,具体涉及一种基于伪孪生网络的虚假新闻检测方法。
背景技术
社交媒体的发展使得人们获取信息越来越方便,社交平台鼓励用户积极地参与讨论新闻事件和社会热点话题,为用户提供了分享、评论、点赞等丰富的社交功能,这带来了巨大的潜在政治利益和经济利益,但是也促使了虚假新闻的传播。在一定程度上,虚假新闻往往比真实新闻在社交网络上传播得更快、更远、更广泛。
为了减缓虚假新闻对社会造成的负面影响,一些早期的研究者利用机器学习技术实现了虚假新闻的自动检测,他们将人工设计好的新闻特征作为机器学习模型的输入,以此来检测虚假新闻,但这样的方法往往具有一定的局限性:根据某一领域新闻设计的特征可能无法迁移到其他领域新闻,因为不同领域新闻的写作风格、内容、词汇等分布往往是不同的。新闻内容是动态变化的,一些早期人工设计的特征可能并不适用于之后出现的新闻,且虚假新闻制造者极容易利用人工设计的特征来逃避模型的检测。
由于深度神经网络在捕获数据复杂特征方面具有明显优势,现在很多研究者都使用深度学习技术对虚假新闻进行检测。然而,大多数深度学习方法。尽管在特定领域的数据集上有良好的效果,但是并不能在跨领域数据中有效识别出虚假新闻,原因如下:1)供研究者使用的数据集新闻领域过于单一,如FakeNewsNet数据集仅包含政治和娱乐新闻,而现实中的新闻包含多个领域;2)特定领域新闻的语言风格与传播模式存在明显差异,现有的模型并不能适应这种差异。因此,如何利用现有领域的新闻数据检测其他跨领域新闻是一个重要而具有挑战性的问题。
有鉴于此,有必要提供一种新的虚假新闻检测方法。
发明内容
本发明的目的在于克服现有技术中存在的至少一个上述问题,提供一种基于伪孪生网络的虚假新闻检测方法,利用不同模态数据的匹配程度来检测虚假新闻,克服了以往的方法只能检测特定领域虚假新闻的弊端,使得多模态虚假新闻检测模型的领域适用性更强。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
本发明提供一种基于伪孪生网络的虚假新闻检测方法,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性。
进一步地,如上所述的虚假新闻检测方法,将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻(yi=0)或是虚假新闻(yi=1)的概率。
进一步地,如上所述的虚假新闻检测方法,特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的: t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
由于双向长短时记忆网(bi-directional long short-termmemory,BiLSTM) 在获取文本特征方面有着极其出色的表现,所以使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
Figure RE-GDA0003860055930000031
Figure RE-GDA0003860055930000032
Figure RE-GDA0003860055930000033
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是权重矩阵;xt,ht是在t时间的输入状态和隐状态;σ是sigmoid函数,
Figure RE-GDA0003860055930000034
表示按元素乘积;
最终的文本特征向量T,表示为t时刻隐状态的平均值:
Figure RE-GDA0003860055930000035
其中,m是微博文本的长度。
进一步地,如上所述的虚假新闻检测方法,m=75。
进一步地,如上所述的虚假新闻检测方法,特征提取器中的图像特征表示:研究表明,虚假新闻的图像与真实新闻的图像在语义层面上具有不同的特征,这表明新闻的图像特征在虚假新闻的检测中发挥着重要作用,一方面,新闻的图像特征本身会带有一些跟新闻真实性相关的信息,例如,虚假新闻的图像往往更具有视觉冲击力;另一方面,在匹配网络中利用文本特征与图像特征的语义匹配程度进一步衡量了新闻的真实性,因此,在FNPS模型的多模态特征提取器中使用一个预训练的 ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为448×448并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
Figure RE-GDA0003860055930000041
其中,Nr代表区域的数量。
进一步地,如上所述的虚假新闻检测方法,匹配网络的目标是从数据中学习两个映射函数
Figure RE-GDA0003860055930000042
Figure RE-GDA0003860055930000043
这两个映射函数能够将输入的特征映射到一个新的目标空间,使目标空间中特征之间的欧氏距离与原空间中特征之间的“语义距离”相近,将其表示为:
Figure RE-GDA0003860055930000044
这个映射函数可以用来映射以前未见过的新样本(例如,训练期间未见过的领域新闻);如果在目标空间中特征之间的欧式距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
Figure RE-GDA0003860055930000045
其中,ε为超参数;
在模型训练过程中,通过最小化对比损失(contrastive loss)来优化匹配网络,对比损失可以有效处理孪生网络中成对的数据关系,它的表达式如下:
Figure RE-GDA0003860055930000051
其中,n表示数据量,
Figure RE-GDA0003860055930000052
yi为新闻的标签;di指代S(Ti,Pi)。
进一步地,如上所述的虚假新闻检测方法,设定的阈值ε=0.65。
进一步地,如上所述的虚假新闻检测方法,观察上述损失函数表达式可知,若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
本发明的有益效果是:
本发明专注于由文本及图像组成的虚假新闻内容,受计算机视觉领域任务的启发,将虚假新闻的检测视为多模态语义匹配问题。在现实世界中,绝大部分虚假新闻的文本及其所附图像内容的语义并不匹配,基于此,提出了基于伪孪生网络的虚假新闻检测方法——FNPS,具体地说,首先将虚假新闻的多模态数据从原始空间映射到新的目标空间,其次在目标空间进一步衡量了文本与图像的语义匹配程度,从而整体提高了模型在检测跨领域虚假新闻的效果。实验结果表明,所提出的模型FNPS优于其他的多模态虚假新闻检测模型。
当然,实施本发明的任一产品并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明检测方法的模型框架示意图;
图2为ε对模型性能的影响示意图;
图3为词嵌入维度对模型性能的影响示意图;
图4为匹配维度对模型性能的影响示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明受到了孪生网络思想的启发,在监督学习范式下,孪生网络会最大化不同样本的特征差距,并最小化相同样本的特征差距。在自监督或无监督学习范式下,孪生网络可以最小化原输入和干扰输入 (例如原始图像和加入噪声的图像)间的特征差距。孪生网络可以进行小样本学习(few-shot learning)或单样本学习(one-shot learning),且不容易被错误样本干扰,因此可用于对容错率要求严格的模式识别问题,例如人脸识别、指纹识别、目标追踪等。
狭义的孪生网络由两个结构相同,且权值共享的子网络构成,每个子网络各自接收一个输入,将其映射至目标特征空间。网络的最顶层由一个度量函数构成,它负责计算两个输入特征的距离,例如欧式距离,余弦距离,从而比较两个输入的相似程度。孪生网络的权值共享保证了两个极其相似的输入不会被各自的网络映射到特征空间的不同位置。在本发明中,发明人使用广义的孪生网络,其特点是子网络的结构不同且权值不共享,许多研究者称之为伪孪生网络。
本发明提供一种基于伪孪生网络的虚假新闻检测方法,如图1所示,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性。
本发明中,将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻(yi=0)或是虚假新闻(yi=1)的概率。
本发明中,特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的:t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
由于双向长短时记忆网(bi-directional long short-termmemory,BiLSTM) 在获取文本特征方面有着极其出色的表现,所以使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
Figure RE-GDA0003860055930000071
Figure RE-GDA0003860055930000072
Figure RE-GDA0003860055930000073
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是权重矩阵;xt,ht是在t时间的输入状态和隐状态;σ是sigmoid函数,
Figure RE-GDA0003860055930000081
表示按元素乘积;
最终的文本特征向量T,表示为t时刻隐状态的平均值:
Figure RE-GDA0003860055930000082
其中,m是微博文本的长度,m=75。
本发明中,特征提取器中的图像特征表示:研究表明,虚假新闻的图像与真实新闻的图像在语义层面上具有不同的特征,这表明新闻的图像特征在虚假新闻的检测中发挥着重要作用,一方面,新闻的图像特征本身会带有一些跟新闻真实性相关的信息,例如,虚假新闻的图像往往更具有视觉冲击力;另一方面,在匹配网络中利用文本特征与图像特征的语义匹配程度进一步衡量了新闻的真实性,因此,在FNPS模型的多模态特征提取器中使用一个预训练的ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为 448×448并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
Figure RE-GDA0003860055930000083
其中,Nr代表区域的数量。
进一步地,如上所述的虚假新闻检测方法,匹配网络的目标是从数据中学习两个映射函数
Figure RE-GDA0003860055930000084
Figure RE-GDA0003860055930000085
这两个映射函数能够将输入的特征映射到一个新的目标空间,使目标空间中特征之间的欧氏距离与原空间中特征之间的“语义距离”相近,将其表示为:
Figure RE-GDA0003860055930000086
这个映射函数可以用来映射以前未见过的新样本(例如,训练期间未见过的领域新闻);如果在目标空间中特征之间的距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
Figure RE-GDA0003860055930000091
其中,ε为超参数,ε=0.65;
在模型训练过程中,通过最小化对比损失(contrastive loss)来优化匹配网络,对比损失可以有效处理孪生网络中成对的数据关系,它的表达式如下:
Figure RE-GDA0003860055930000092
其中,n表示数据量,
Figure RE-GDA0003860055930000093
yi为新闻的标签。观察上述损失函数表达式可知,若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
本发明通过引入孪生网络架构来检测跨领域新闻。最早的孪生网络被用于美国支票上的签名验证,即验证支票上的签名与银行预留签名是否一致。随着深度学习的发展,孪生网络被用在越来越多的计算机视觉任务上,例如,人脸验证,关键点描述学习,此外,它还被用于单样本字符识别以及一些图像检索任务。然而,到目前为止,孪生网络还未被应用于虚假新闻检测任务。
本发明的具体实施例如下
一、数据集和预处理
考虑到基于多媒体内容的虚假新闻检测研究并不多,目前仅有几个标准的多模态虚假新闻数据集可用。两个使用最广泛的数据集是文献[Boididou C,Papadopoulos S,Dang-Nguyen D, etal.Verifying Multimedia Use at MediaEval 2016[C]//MediaEval2016Workshop.2016]提出的Twitter数据集和文献[]Jin Z,Cao J, Guo H,etal.Multimodal fusion with recurrent neural networks for rumor detection onmicroblogs[C]//Proceedings of the 25th ACM international conference onMultimedia.2017:795-816]中建立的微博数据集。然而,在Twitter数据集中有很多重复的图片,导致有特色的图片数量少于500张,这使得Twitter数据集太小,无法支持所提出的模型的训练。因此,在本实施例中,发明人仅对微博数据集进行了实施例,以评估所提出的模型的有效性。接下来,发明人将提供所使用的数据集的详细信息。
1)WeiBoA:该数据集来自DataFountain网站(datafountain.cn) ,是由北京市经济和信息化局、中国计算机学会大数据专家委员提供的多模态数据集,每条数据均从微博平台(weibo.com)采集,包括微博正文、评论、图像、所属领域等多个字段,标签由人工进行标注,分为三种类别,分别是无需判断,虚假新闻和真实新闻,本实施例仅使用其中的虚假新闻和真实新闻数据,为了更准确的训练和评估模型,发明人手动检查了训练集和测试集,以确保标签的准确性。由于微博口语化严重,发明人对数据进行了清洗,仅保留了微博正文中的汉字部分,去除了表情、符号、等无实际意义的内容。为了确保数据集的质量,发明人还去除了重复和低质量的图像,为了确保每条微博都有图像与之对应,纯文本的微博被删除,对于有多张图像的微博只保留一张图像。处理之后的数据共计17848条。领域分为八个:财经、社会、娱乐、健康、科技、政治、军事、教育,其中后四个领域由于数据量较少,所以发明人将其划分为测试集A,共计1431条,前四个领域的数据划分为训练集(90%)和验证集(10%),共计16417条。
WeiBoB:该数据集首次出现在文献[Jin Z,Cao J,Guo H,et al. Multimodalfusion with recurrent neural networks for rumor detection on microblogs[C]//Proceedings of the 25th ACM international conference on Multimedia.2017:795-81]中用于虚假新闻检测任务。其中,真实新闻来自中国权威新闻来源,如新华社。虚假新闻是从2012年5月到2016年1月抓取的,并由微博的官方辟谣系统进行验证。该系统鼓励普通用户举报可疑的帖子,并由受信任的用户组成的委员会对可疑的帖子进行审查。根据以前的工作,这个系统也作为收集谣言新闻的权威来源。每条数据的内容都是由博文及一张配图构成,发明人使用与WeiBoA数据集相同的方法对该数据集进行预处理。处理后的数据共计5361条,其中虚假新闻4311条,真实新闻1050条,因为数据没有进行领域标注,所以发明人将其作为测试集B。
数据集的详细信息如下表1所示:
表1数据集统计
Figure RE-GDA0003860055930000111
二、实施例参数设置
对于词嵌入,首先使用Jieba分词器将中文文本分割为词语,然后使用预训练的Glove模型对词语进行嵌入表示,嵌入维度为 32。预训练的BiLSTM模型与ResNet50模型可在线获得。文本特征提取器和图像特征提取器的输出维度都是128。被匹配网络映射至目标空间的匹配维度为32,设置为0.65。在整个训练过程中,数据的批大小设置为64,学习率为0.001,模型使用Relu作为激活函数,为了寻求模型的最佳参数,发明人使用Adam优化器来优化损失函数。其他具体参数在表2中列出:
表2
超参数
ε 0.65
批大小 64
学习率 0.001
词嵌入维度 32
匹配网络匹配维度 32
ResNet50全连接层大小 128
LSTM隐藏层大小 128
激活函数 ReLu
优化器 Adam
本文使用虚假新闻检测任务中常用的精度(precision)、召回率(recall)、准确率(accurac)、以及F1值(F1-Score)作为主要评估指标。
三、基线模型
为了验证本发明所提出方法的有效性,发明人选取了五种有代表性的方法进行性能比较。其中包括两种单模态模型和三种多模态模型。
1)单模态模型
Txt:BiLSTM是解决许多文本分类问题的最流行方法之一。Txt利用BiLSTM网络来学习文本特征,然后使用带有softmax层的全连接网络来进行预测。
Img:视觉特征是由ResNet50获得的。经过池化层的处理,视觉特征被送入全连接网络进行最终预测,发明人只更新全连接网络的参数。
2)多模态模型
TxtImg:发明人将文本特征和图像特征串联起来作为全连接网络的输入,并预测结果。
EANN:事件对抗神经网络(EANN)是一个多模态的虚假新闻检测模型,它的文本和视觉特征是利用基于CNN的文本特征提取器(TextCNN)和VGG19网络分别获得。另外,在模型中还添加了一个额外的事件分类器来学习与新闻事件无关的共享特征。为了适应发明人的任务,发明人将其改写成学习与新闻领域无关的共享特征。
MVAE:最先进的方法之一,多模态变分自动编码器(MVAE),是一个多模态融合的虚假新闻检测框架。该模型通过利用变分自动编码器从共享的潜在特征中重构文本和视觉特征特征来发现跨模态的相关性。MVAE由编码器、解码器和分类器组成。
四、实施例结果与分析
发明人使用数据集WeiboA的前4领域(财经、社会、娱乐、健康)进行模型的训练,并在WeiboA的后4领域(科技、政治、军事、教育)以及WeiboB(领域未知)进行模型的测试。为避免实施例的偶然性,发明人将每组实施例重复5次并取平均结果。详细的实施例结果在表3中列出:
表3
Figure RE-GDA0003860055930000131
可以观察到,仅基于文本模态的模型效果并不如仅基于图像模态的模型。直观上,虚假新闻的领域信息主要集中在文本内容中,例如,在财经领域的新闻文本中存在大量经济学专业词汇,这就导致仅使用文本内容检测虚假新闻不能保证模型拥有良好的领域适用性。相反,图像中涉及的领域信息并不明显,例如,在娱乐领域、政治领域及社会领域的新闻图像中都可能包含人物。实施例数据恰好也证明了这一点:在单模态模型中, Img优于Txt,这说明图像特征对于检测跨领域虚假新闻有很大帮助。
所有多模态模型都优于单模态模型,这证实了在检测虚假新闻任务中使用多模态信息的有效性。与其他多模态方法相比,所提出的模型FNPS在大多数评估指标方面都取得了最佳结果,以F1值为衡量指标,在数据集WeiBoA上超出其他方法3个百分点以上,在数据集WeiBoB上超出其他方法6个百分点以上。这一结果表明,在检测与训练数据领域差异性较大的跨领域新闻时,利用新闻不同模态数据间的语义匹配程度是非常有效的策略。 EANN与MVAE则是直接将多模态数据的特征作为分类器的输入,尽管在特征层次考虑到了模态之间的协同作用,然而却忽略了不同模态数据在语义层次的匹配作用。因此,EANN与 MVAE的分类准确率明显低于发明人的模型FNPS。
五、参数灵敏度实施例
实施例过程中部分重要超参数对模型性能的影响在图2至图4中进行展示,所有实施例均在数据集WeiBoA上进行。
如图2所示,ε是一个阈值,在匹配网络中使用,若文本特征与图像特征在目标空间中的欧氏距离大于,则说明两种模态数据的语义在一定程度上是不匹配的,即输入数据很有可能是虚假新闻。如图4所示,经多次实验,发明人将设置为0.65,此时FNPS能达到最好效果。
如图3所示,不少研究者对于词嵌入维度的选择似乎都颇为随意,然而,大量的研究表明,如果词嵌入维度选择得过小或过大都无法保证模型的最优性。如图2所示,在本发明中发明人通过实施例得出,词嵌入维度设置为32时模型表现最优。
如图4所示,匹配网络的匹配维度也是一个影响模型性能的关键超参数,若匹配维度设置得过小,模型只能在有限的维度度量不同模态数据间的语义匹配程度;相反,若匹配维度设置得过大,特征中将包含更多无用的噪音,反而会抑制模型效果。经多次试验,发明人将匹配维度设置为32时,模型的表现更好。
本发明研究了多模态虚假新闻检测问题,提出了一个基于伪孪生网络的虚假新闻检测模型FNPS。它利用新闻内容的主要成分(文本和图像)的语义匹配程度来衡量新闻的真实性。在真实数据集上的实施例结果表明,发明人所提出的模型FNPS优于现有的多模态假新闻检测模型。由于FNPS是一种多模态虚假新闻检测任务的通用方法,因此它可以很容易地扩展到更多模态模型。
以上公开的本发明优选实施例只是利于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.基于伪孪生网络的虚假新闻检测方法,其特征在于,该方法的模型主要包括特征提取器和匹配网络,该方法具体步骤如下:
1)对于输入的新闻数据,分别将文本数据和图像数据输入对应的特征提取器,获取文本和图像两个层次的特征;
2)将学习到的文本和图像特征作为匹配网络的输入,匹配网络把它们映射到一个新的目标空间中,使用一个匹配度量函数进一步衡量两个特征在语义上的匹配程度;
3)根据匹配网络的输出,进而预测新闻内容的真实性。
2.根据权利要求1所述的虚假新闻检测方法,其特征在于:将同一篇新闻中两种模态的数据作为匹配网络的两个输入,对于第i条新闻数据xi,其文本特征和图像特征分别用Ti和Pi来表示;用X={x1,x2,x3...xn}代表一个新闻集合,其中n是新闻的数量,每一条新闻数据xi由文本内容ti和图像内容pi构成,yi表示xi对应的新闻真实性标签,匹配网络根据新闻数据xi的文本内容ti和图像内容pi分析出xi是真实新闻或是虚假新闻的概率。
3.根据权利要求2所述的虚假新闻检测方法,其特征在于,特征提取器中的文本特征表示:每条新闻数据的文本内容ti是由m个词语构成的:t1={W1,W2,W3...Wm},每个词语wi∈W使用词嵌入向量表示,每个词嵌入向量是由一个在大型语料库数据集上进行无监督预训练的深度神经网络获得,使用Glove获取词语的词嵌入表示;
使用BiLSTM来获取文本特征表示;BiLSTM在是LSTM的基础上结合了输入序列在前向和后向两个方上的信息;对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息;在第t时间BiLSTM执行的操作表达式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
Figure RE-FDA0003860055920000021
Figure RE-FDA0003860055920000022
Figure RE-FDA0003860055920000023
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是权重矩阵;xt,ht是在t时间的输入状态和隐状态;σ是sigmoid函数,
Figure RE-FDA0003860055920000024
表示按元素乘积;
最终的文本特征向量T,表示为t时刻隐状态的平均值:
Figure RE-FDA0003860055920000025
其中,m是微博文本的长度。
4.根据权利要求3所述的虚假新闻检测方法,其特征在于:m=75。
5.根据权利要求1所述的虚假新闻检测方法,其特征在于,特征提取器中的图像特征表示:在特征提取器中使用预训练的ResNet50来获取图像的特征;将预训练模型全连接层的最后一层替换,然后将输入图像Pi的大小调整为448×448并划分为14×14个区域;对于每一个区域Ij=(j=1,2,...,196),都通过ResNet50模型来获取区域的特征向量Vj=ResNet(Ij);
将区域的特征向量进行平均得到图像的特征向量P:
Figure RE-FDA0003860055920000026
其中,Nr代表区域的数量。
6.根据权利要求1所述的虚假新闻检测方法,其特征在于,匹配网络:匹配网络的目标是从数据中学习两个映射函数
Figure RE-FDA0003860055920000027
Figure RE-FDA0003860055920000028
这两个映射函数能够将输入的特征映射到一个新的目标空间,使目标空间中特征之间的欧氏距离与原空间中特征之间的“语义距离”相近,将其表示为:
Figure RE-FDA0003860055920000029
如果在目标空间中特征之间的距离小于设定的阈值ε,说明xi的文本内容与图像内容在语义上是高度匹配的,即说明xi的真实性较高,反之亦然;上述过程用公式表示为:
Figure RE-FDA0003860055920000031
其中,ε为超参数;
在模型训练过程中,通过最小化对比损失来优化匹配网络,对比损失函数的表达式如下:
Figure RE-FDA0003860055920000032
其中,n表示数据量,
Figure RE-FDA0003860055920000033
yi为新闻的标签。
7.根据权利要求6所述的虚假新闻检测方法,其特征在于:设定的阈值ε=0.65。
8.根据权利要求6所述的虚假新闻检测方法,其特征在于:若yi=0,di越大,则损失越大,即原本是真实新闻的样本,其映射后的文本特征与图像特征在特征空间中的欧氏距离较大,说明模型效果不好;同理,若yi=1,di越大,则损失越小,说明模型效果越好。
CN202210838961.4A 2022-07-18 2022-07-18 基于伪孪生网络的虚假新闻检测方法 Active CN115309860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210838961.4A CN115309860B (zh) 2022-07-18 2022-07-18 基于伪孪生网络的虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210838961.4A CN115309860B (zh) 2022-07-18 2022-07-18 基于伪孪生网络的虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN115309860A true CN115309860A (zh) 2022-11-08
CN115309860B CN115309860B (zh) 2023-04-18

Family

ID=83856607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210838961.4A Active CN115309860B (zh) 2022-07-18 2022-07-18 基于伪孪生网络的虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN115309860B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN116910187A (zh) * 2023-09-13 2023-10-20 之江实验室 天文信息提取方法、装置、电子装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质
CN114612679A (zh) * 2022-02-24 2022-06-10 郑州大学 一种多模态数据融合神经网络的虚假新闻图像检测方法
CN114662497A (zh) * 2022-02-24 2022-06-24 郑州大学 一种基于协同神经网络的虚假新闻检测方法
CN114756763A (zh) * 2022-02-23 2022-07-15 北方工业大学 社交网络虚假新闻检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质
CN114756763A (zh) * 2022-02-23 2022-07-15 北方工业大学 社交网络虚假新闻检测方法及装置
CN114612679A (zh) * 2022-02-24 2022-06-10 郑州大学 一种多模态数据融合神经网络的虚假新闻图像检测方法
CN114662497A (zh) * 2022-02-24 2022-06-24 郑州大学 一种基于协同神经网络的虚假新闻检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANITHA GOVINDARAJU 等: "Classifying Fake and Real Neurally Generated News" *
王蕊阳: "基于孪生神经网络的虚假新闻检测" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115809327B (zh) * 2023-02-08 2023-05-05 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN116910187A (zh) * 2023-09-13 2023-10-20 之江实验室 天文信息提取方法、装置、电子装置和存储介质
CN116910187B (zh) * 2023-09-13 2024-01-09 之江实验室 天文信息提取方法、装置、电子装置和存储介质

Also Published As

Publication number Publication date
CN115309860B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN115309860B (zh) 基于伪孪生网络的虚假新闻检测方法
Probierz et al. Rapid detection of fake news based on machine learning methods
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN104573669A (zh) 图像物体检测方法
CN110210358A (zh) 一种基于双向时序图的视频描述生成方法和装置
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
Xiang et al. Spam detection in reviews using LSTM-based multi-entity temporal features
CN109409433A (zh) 一种社交网络用户的人格识别系统和方法
Jin et al. Image credibility analysis with effective domain transferred deep networks
CN118296150B (zh) 一种基于多对抗网络改进的评论情感识别方法
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Kasnesis et al. Transformer-based identification of stochastic information cascades in social networks using text and image similarity
Alshareef et al. A study of gender bias in face presentation attack and its mitigation
Liu et al. Text emotion recognition using GRU neural network with attention mechanism and emoticon emotions
Unal et al. Visual persuasion in covid-19 social media content: A multi-modal characterization
CN117828029A (zh) 一种基于情感-风格去偏的多领域虚假新闻检测方法
Sheeba et al. A fuzzy logic based on sentiment classification
Bilbao-Jayo et al. Improving political discourse analysis on twitter with context analysis
Lumini et al. Image orientation detection by ensembles of Stochastic CNNs
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN113806545B (zh) 基于标签描述生成的评论文本情感分类方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
Ogunsuyi Opeyemi et al. K-nearest neighbors bayesian approach to false news detection from text on social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240722

Address after: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee after: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Country or region after: China

Address before: School of Computer Science and Technology, Heilongjiang University, Nangang District, Harbin City, Heilongjiang Province, 150000

Patentee before: Heilongjiang University

Country or region before: China

TR01 Transfer of patent right