CN115130613A - 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 - Google Patents
虚假新闻识别模型构建方法、虚假新闻识别方法与装置 Download PDFInfo
- Publication number
- CN115130613A CN115130613A CN202210883458.0A CN202210883458A CN115130613A CN 115130613 A CN115130613 A CN 115130613A CN 202210883458 A CN202210883458 A CN 202210883458A CN 115130613 A CN115130613 A CN 115130613A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- false
- picture
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 99
- 238000012360 testing method Methods 0.000 claims description 53
- 238000012795 verification Methods 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000011176 pooling Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 240000006694 Stellaria media Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种虚假新闻识别模型构建方法、虚假新闻识别方法与装置。其中,虚假新闻识别模型构建方法包括:获取新闻数据集,提取新闻数据集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将所有新闻对应的该多模态特征输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对初始虚假新闻识别模型进行联合训练,得到最终的虚假新闻识别模型。本发明通过将同一条新闻对应的图片特征信息和文本特征信息联合作为模型的输入来构建虚假新闻识别模型,并通过对交叉熵损失与对比学习损失的联合训练,提升了对虚假新闻检识别的准确度。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种虚假新闻识别模型构建方法、虚假新闻识别方法与装置。
背景技术
近年来,作为即时信息传播渠道的在线网站越来越多,各自媒体平台也越来越多。随之而来的是各种虚假新闻的肆意传播。而越来越多的新闻发布者同时使用文本和图片进行新闻发布,并且新闻信息中图片信息包含的比重越来越大。
研究者尝试利用新闻文章中的图片生成文本描述,然后将文本描述与新闻文本共同作为识别虚假新闻的目标对象来构建虚假新闻识别模型,然而,这种构建的虚假新闻识别模型识别的精确度不够高。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,提供一种识别精度高的虚假新闻识别模型构建方法、虚假新闻识别方法与装置。
一种虚假新闻识别模型的构建方法,包括:
获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取所述第一训练集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用所述第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
进一步地,如上所述的虚假新闻识别模型的构建方法,在获取新闻数据集后,还包括:
根据所述新闻配图网址下载每条新闻对应的所有新闻配图,并将下载的所有新闻配图采用对应的新闻编号进行标记,以标记的所有新闻配图做为图片特征信息提取的目标对象。
对新闻正文内容进行特殊字符的删除、标点和格式的统一,以格式统一后的新闻正文内容作为文本特征信息提取的目标对象之一。
进一步地,如上所述的虚假新闻识别模型的构建方法,在提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息之前,还包括:对第一训练集中的新闻数据集进行扩增,以扩大第一训练集中样本的数量。
进一步地,如上所述的虚假新闻识别模型的构建方法,所述对第一训练集中的新闻数据集进行扩增包括:
对文本特征进行扩增、和对图片特征进行扩增;
所述对文本特征信息进行扩增包括:将每条新闻对应的新闻正文内容和新闻标题分别进行回译,得到回译文本;将所述回译文本和原新闻文本合并,共同构成所述第一训练集的文本特征;
所述对图片特征信息的进行扩增包括:将新闻配图按照对应的新闻编号进行左右翻转,将翻转后的新闻配图和原新闻配图合并,共同构成所述第一训练集的图片特征。
进一步地,如上所述的虚假新闻识别模型的构建方法,所述提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息包括:
使用BERT模型对所述文本特征进行特征提取,得到所述文本特征信息;
使用ResNet-50模型对所述图片特征进行特征提取,得到所述图片特征信息。
进一步地,如上所述的虚假新闻识别模型的构建方法,所述将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征包括:
采用多头自注意机制,将所述文本特征信息与图片特征信息联合起来进行训练,最终得到多模态特征x;
x=Concat(head1,…,headR)Wo
一种虚假新闻识别方法包括:
获取待识别新闻;
将所述待识别新闻输入如上任一所述的虚假新闻识别模型,获得待识别新闻的识别结果。
一种虚假新闻识别模型的构建装置,包括:
获取单元,用于获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分单元,用于划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取单元,用于提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
所述提取单元,还用于提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
所述提取单元,还用于提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
训练单元,用于将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对所述调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
一种虚假新闻识别装置,包括:
获取单元,用于获取待识别新闻;
识别单元,用于将所述待识别新闻输入如上任一所述的虚假新闻识别模型,获得待识别新闻的识别结果。
一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上任一项所述虚假新闻识别模型的构建方法,或者实现如上所述的虚假新闻识别方法。
本发明提供的虚假新闻识别模型的构建方法,通过将同一条新闻对应的图片特征信息和文本特征信息联合起来得到多模态特征,并以多模态特征作为模型的输入来构建虚假新闻识别模型,使得构建的模型提升了对虚假新闻检识别的准确度。通过对交叉熵损失与对比学习损失的联合训练,也进一步提升了对虚假新闻检识别的准确度。
附图说明
图1是本发明提供的虚假新闻识别模型的构建方法流程示意图;
图2是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明提供的一种虚假新闻识别模型的构建方法,图1是本发明提供的虚假新闻识别模型的构建方法流程示意图,如图1所示,该方法包括以下步骤:
步骤101:获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签。
具体地,新闻数据集是包含新闻信息和标签的英文数据集,包括:新闻编号、新闻网址、出版媒体、出版时间、新闻作者、新闻标题、新闻配图网址、新闻正文内容、政治倾向、出版国家、新闻标签。其中新闻标签指的是该新闻的可信度,即经新闻发布者确认的每条新闻的真假情况。本发明根据模型所要使用到的数据,对数据集进行数据筛选。在本发明实施例中,所需要的新闻数据集包括:新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签这五项属性的数据,删除其他新闻数据。
本发明提供的虚假新闻识别模型的构建方法,通过从原始的新闻数据集中筛选出新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签这五项属性的数据作为本发明的新闻数据集,在保证构建的虚假新闻识别模型具有一定的识别精度的基础上,提高了构建虚假新闻识别模型的效率。
另外,在获取新闻数据集后,需要对新闻数据集进行预处理。预处理的方式包括:新闻配图的下载以及对新闻正文内容的格式统一化。
其中,针对新闻配图的下载:由于新闻数据集没有直接包含每条新闻对应的新闻配图,所以要按照每条新闻对应的“新闻配图网址”下载对应的所有新闻配图。同时,为了保证新闻配图与新闻文本数据的相互对应,每张下载的新闻配图需要以对应新闻的“新闻编号”命名,以方便进行后续处理。若由于网址记载有误或者网址已经注销等问题导致某条新闻的配图无法下载,则删除该条新闻对应的数据,从而使每条新闻都能够完全保证都有对应的文本数据和对图片数据。
针对“新闻正文内容”的格式统一化:由于新闻数据集内的“新闻正文内容”中存在含有特殊字符、标点滥用、格式不统一等格式问题,这些格式问题不利于数据处理,所以要对“新闻正文内容”进行特殊字符的删除、标点和格式的统一。
经过上述预处理操作,便获得了一个文本数据和图片数据一一对应的新闻数据集,且该数据集内的文本数据格式统一,方便处理。
本发明提供的虚假新闻识别模型的构建方法,通过对新闻配图的下载以及对新闻正文内容的格式统一化处理,提高了构建虚假新闻识别模型的精度和效率。
步骤102:划分所述新闻数据集为第一训练集、第一验证集、第一测试集。
具体地,为了让模型效果具有很好的泛化能力,需要划分数据集。理论上训练集和测试集应该是完全相互独立的,训练集和测试集作为两个独立的单元,不应该有任何信息的交融。所以应该先划分数据集,然后分别对训练集和测试集进行数据处理。下面以《Recovery》数据集为例,说明数据集划分的过程和方法。
假设本发明提供的新闻数据集共包括包含1859条新闻数据,其中1297条真新闻,562条假新闻,真新闻和假新闻的比例大概为2.3:1。把真新闻全部提取出来,定为A数据集;把假新闻全部提取出来定为B数据集。随机抽取A数据集内80%的新闻和B数据集内80%的新闻混合成为第一训练集。剩下A数据集内20%的新闻和B数据集内20%的新闻混合成为第一测试集。在第一训练集中,以上述同样的方式抽取20%的数据作为第一验证集。最后得到第一训练集、第一验证集、第一测试集的比例约在64%:16%:20%。第一训练集、第一验证集、第一测试集内部真新闻和假新闻的比例大概都为2.3:1,保证了与全新闻数据集的一致性,更好地提高了模型的泛化能力。
本发明提供的虚假新闻识别模型的构建方法,通过将数据集划分为第一训练集、第一验证集、第一测试集,并使第一训练集、第一验证集、第一测试集的比例在64%:16%:20%,同时使第一训练集、第一验证集、第一测试集内部真新闻和假新闻的比例为2.3:1,从而保证了提高了虚假新闻识别模型的泛化能力。
步骤103:提取所述第一训练集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集。
具体地,在提取文本特征信息和图片特征信息之前,首先需要对训练集中的新闻数据进行扩增,以扩大第一训练集中样本的数量。
具体地,如果在划分数据集前对数据做了扩增,那么就会把测试集里的信息带入了训练集,虽然最终的效果(对测试集的预测正确率)可能会有所提升,但其实模型本身并没有达到很好的效果,不能对新的数据拥有较好的效果。
本发明提供的虚假新闻识别模型的构建方法,通过在提取文本特征信息和图片特征信息之前,对训练集中的新闻数据进行扩增,从而扩大了第一训练集中样本的数量,进而提高了虚假新闻识别模型的识别精度。
扩增的方式包括:对文本特征进行扩增、和对图片特征进行扩增。
其中,对文本特征进行扩增包括:新闻正文内容和新闻标题的扩增。首先,对训练集中的新闻正文内容和摘要进行回译,即先把英文文本翻译成其他语种的文本,再翻译回英文。回译操作可以在保证语义不变的基础上,一定程度地改变原文的词语使用和语法结构。对一篇新闻报道来说,回译只影响它的文本构造,而不影响它的可信度标签。举例详细来说:对于新华社发布的新闻,美国两家媒体都要进行引用报导。两家美国媒体对新华社的中文报导的翻译不同(即词语使用和语法结构不同),但是意思相近(即可信度标签相同)。对文本的回译编号设置为原编号乘以10000(0号新闻的回译直接设置为100000000号新闻)。把回译文本和原新闻文本合并,共同构成第一训练集的文本特征。
对图片特征信息的进行扩增包括:把新闻配图按照编号顺序进行左右翻转,翻转后图片的编号为原新闻配图编号乘以10000(0号新闻配图的翻转直接设置为100000000号图片)。翻转后的新闻配图与原新闻配图存放于同一地址下,共同构成第一训练集的图片特征。经过以上数据扩增,保证了文本和图片对应的一致性。
本发明提供的虚假新闻识别模型的构建方法,通过回译训练集中的新闻正文内容和摘要进行了扩增,进一步提高了虚假新闻识别模型的识别精度。通过将翻转后的新闻配图与原新闻配图存放于同一地址下共同作为第一训练集的图片特征,进一步提高了虚假新闻识别模型的识别精度。
下面对如何提取所述第一训练集中每条新闻对应的文本特征信息和图片特征信息进行详细的说明:
使用预先训练好的BERT模型对所述文本特征进行特征提取,得到所述文本特征信息;使用预先训练好的ResNet-50模型对所述图片特征进行特征提取,得到所述图片特征信息。
BERT模型是一个语言表征模型,被广泛应用于文本特征的提取工作。BERT模型是指该BERT模型已经用数据训练好,可以直接使用该模型进行特征提取。在使用BERT模型进行特征提取时,各需要训练的参数不再变化,只需要添加一个额外的输出层进行微调,就可以在各种各样的下游任务中取得良好的表现。以《Recovery数据集》中的新闻文本和回译文本为例,使用BERT模型提取所有文本的特征。把自新闻文章的单词序列定义为w={w1,w2,…,wn},其中n是序列的长度。使用预先训练好的BERT模型将文本编码嵌入序列其中ew∈Rn×d,d是单词嵌入的维度。
ResNet-50模型是一个残差网络模型。该模型在网络中增加了直连通道,允许原始输入信息直接传到后面的层中,所以可以同时提取到图片的浅层特征和深层特征,因此选取该模型可以更全面充分地提取图片的特征。同时,ResNet-50模型参数少,具有很好的推广性,使用ResNet-50模型提取图片特征可以节省训练算力和时间。以《Recovery数据集》中的图片和翻转图片为例,使用ResNet-50模型提取所有图片的特征。由于新闻配图的大小不一,先把所有图片都按照640×640的分辨率重采样,然后把重采样的图片用ResNet-50模型编码为向量其中dI为图片的尺寸。为了提取更多的信息特征,首先把ei通过两个全连接层从dI维映射到d维,然后将其通过Transformer层,以捕捉图片整体内容之间细微的相互作用。最终的图片表示如下:
其中,W1,W2,b1,b2是投影过程中训练的可学习参数,ei为图片通过ResNet-50模型的编码向量。
下面对如何对每条新闻对应的文本特征信息和图片特征信息进行联合操作的实现过程进行详细的说明:
具体地,本发明将本文本特征信息和图片特征信息进行联合操作,为网络训练做准备。其中,文本特征信息表示为ew,图片特征信息表示为将所述文本特征信息和图片特征信息连接为:e∈Rl×d,其中l=m+n,为文本的编码长度、图片的编码长度、特殊的[SEP]和[CLS]标记字符的总和。在联合操作的过程中,本发明采用一种多头自注意机制,将单词与图片联系起来进行训练。最终表示为:
x=Concat(head1,…,headR)Wo (2)
步骤104:提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集。
步骤105:提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集。
以上针对第一验证集和第一测试集中对文本特征信息和图片特征信息的提取以及联合采用的方法与对第一训练集的方法相同,本发明在此不再赘述。
步骤106:将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用所述第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
具体地,所述交叉熵损失定义为:其中,为预测的分类标签,y是真正的分类标签,C表示数据库中类别的总数。在潜在的多模态表征空间中,相似的真新闻的表征应该彼此接近,而假新闻的表征应该与真新闻的表征相互分离。具体来说,把一篇新闻表示为x={h,o,I},其中h是标题,o是摘要文本,I是文章中的图片。选择k个正样例满足以下几个条件:
①与目标文章具有相同的可信度标签;
②在满足条件①的新闻子集数据中,选择标题和摘要联合表征位于前k个与x最相似的文章,计算x与所选表征在BERT编码之间的余弦相似度。
③在标签与目标文章相反的新闻子集数据中,以同样的方式选择前k个相似的负样例。
所述对比损失定义为:
把最终损失函数定义为交叉熵损失和对比损失之和:
其中,α用来控制每个损失项贡献的权重
本发明构建的虚假新闻识别模型的分类器包括输入层、两层全连接层、最大池化层、平均池化层、dropout层、输出层。
输入层为新闻的多模态表示x。两层全连接层的作用是使多模态表示从高维x映射到低维xa,最大池化层和平均池化层的作用是以不同的方式对特征进行下采样,最大池化层采用最大池化的方式把低维特征表示xa采样为xb,平均池化层把采样得到的特征表示xb用平均池化的方式再采样为xc。两次采样让采样后的特征更具有泛化性。然后使用概率p=0.5的dropout层防止过拟合,dropout层把xc以0.5的概率随机丢弃,获得特征xd。
输出层是一个sigmoid层,作用是把通过dropout层的特征xd进行二分类,生成预测标签,完成二分类的任务目标。
本发明提供的虚假新闻识别模型的构建方法,通过将同一条新闻对应的图片特征信息和文本特征信息联合起来得到多模态特征,并以多模态特征作为模型的输入来构建虚假新闻识别模型,使得构建的模型提升了对虚假新闻检识别的准确度。通过对交叉熵损失与对比学习损失的联合训练,也进一步提升了对虚假新闻检识别的准确度。
本发明提供的虚假新闻识别模型的构建方法,通过使用BERT模型对所述文本特征进行特征提取,使用ResNet-50模型对所述图片特征进行特征提取,从而能够充分挖掘到新闻内含的多模态特征,进而进一步提高对虚假新闻检识别的准确度。
本发明提供的虚假新闻识别模型的构建方法,通过在原新闻数据集的基础上,通过回译进行新闻文本扩增和对图片进行翻转扩增,使得模型能够更多地学习到新闻特征的普遍特征表示,更充分地挖掘新闻的多模态特征,进而进一步提高对虚假新闻检识别的准确度。
本发明提供的虚假新闻识别模型的构建方法,通过将新闻数据集进行扩增和特征的提取的方式融合来获取训练集,并运用交叉熵损失与对比学习损失联合训练,提升了虚假新闻检测任务准确度的方法。
下面对本发明提供的虚假新闻识别模型的构建装置进行描述,下文描述的虚假新闻识别模型的构建装置与上文描述的虚假新闻识别模型的构建方法可相互对应参照。
该装置包括:
获取单元,用于获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分单元,用于划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取单元,用于提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
所述提取单元,还用于提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
所述提取单元,还用于提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
训练单元,用于将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对所述调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
本发明还提供一种虚假新闻识别装置,该装置包括:
获取单元,用于获取待识别新闻;
识别单元,用于将所述待识别新闻输入如上所述的虚假新闻识别模型,获得待识别新闻的识别结果。
图2示例了一种电子设备的实体结构示意图,如图2所示,该电子设备可以包括:处理器(processor)210、通信接口(CommunicationsInterface)220、存储器(memory)230和通信总线240,其中,处理器210,通信接口220,存储器230通过通信总线240完成相互间的通信。处理器210可以调用存储器230中的逻辑指令,以执行虚假新闻识别模型的构建方法或者执行虚假新闻识别方法。
其中,虚假新闻识别模型的构建方法,包括:
获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取所述第一训练集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用所述第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型
虚假新闻识别方法包括:
获取待识别新闻;
将所述待识别新闻输入所述的虚假新闻识别模型,获得待识别新闻的识别结果。
此外,上述的存储器230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种虚假新闻识别模型的构建方法,其特征在于,包括:
获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取所述第一训练集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用所述第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
2.根据权利要求1所述的虚假新闻识别模型的构建方法,其特征在于,在获取新闻数据集后,还包括:
根据所述新闻配图网址下载每条新闻对应的所有新闻配图,并将下载的所有新闻配图采用对应的新闻编号进行标记,以标记的所有新闻配图做为图片特征信息提取的目标对象。
对新闻正文内容进行特殊字符的删除、标点和格式的统一,以格式统一后的新闻正文内容作为文本特征信息提取的目标对象之一。
3.根据权利要求2所述的虚假新闻识别模型的构建方法,其特征在于,在提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息之前,还包括:对第一训练集中的新闻数据集进行扩增,以扩大第一训练集中样本的数量。
4.根据权利要求3所述的虚假新闻识别模型的构建方法,其特征在于,所述对第一训练集中的新闻数据集进行扩增包括:
对文本特征进行扩增、和对图片特征进行扩增;
所述对文本特征信息进行扩增包括:将每条新闻对应的新闻正文内容和新闻标题分别进行回译,得到回译文本;将所述回译文本和原新闻文本合并,共同构成所述第一训练集的文本特征;
所述对图片特征信息的进行扩增包括:将新闻配图按照对应的新闻编号进行左右翻转,将翻转后的新闻配图和原新闻配图合并,共同构成所述第一训练集的图片特征。
5.根据权利要求4所述的虚假新闻识别模型的构建方法,其特征在于,所述提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息包括:
使用BERT模型对所述文本特征进行特征提取,得到所述文本特征信息;
使用ResNet-50模型对所述图片特征进行特征提取,得到所述图片特征信息。
7.一种虚假新闻识别方法,其特征在于,包括:
获取待识别新闻;
将所述待识别新闻输入权利要求1-6任一所述的虚假新闻识别模型,获得待识别新闻的识别结果。
8.一种虚假新闻识别模型的构建装置,其特征在于,包括:
获取单元,用于获取新闻数据集;所述新闻数据集包括:每条新闻对应的新闻编号、新闻标题、新闻配图网址、新闻正文内容、新闻标签;
划分单元,用于划分所述新闻数据集为第一训练集、第一验证集、第一测试集;
提取单元,用于提取所述第一训练集中的每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将训练集中所有条新闻对应的多模态特征作为第二训练集;
所述提取单元,还用于提取所述第一验证集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一验证集中所有条新闻对应的多模态特征作为第二验证集;
所述提取单元,还用于提取所述第一测试集中每条新闻对应的文本特征信息和图片特征信息,并将每条新闻对应的文本特征信息和图片特征信息进行联合操作,得到每条新闻对应的多模态特征,将第一测试集中所有条新闻对应的多模态特征作为第二测试集;
训练单元,用于将所述第二训练集输入初始虚假新闻识别模型中,并利用交叉熵损失和对比损失对所述初始虚假新闻识别模型进行联合训练,利用第二验证集对联合训练后的初始虚假新闻识别模型进行调整,利用所述第二测试集对所述调整后的初始虚假新闻识别模型进行测试,得到最终的虚假新闻识别模型。
9.一种虚假新闻识别装置,其特征在于,包括:
获取单元,用于获取待识别新闻;
识别单元,用于将所述待识别新闻输入权利要求1-6任一所述的虚假新闻识别模型,获得待识别新闻的识别结果。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述虚假新闻识别模型的构建方法,或者实现如权利要求7所述的虚假新闻识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210883458.0A CN115130613B (zh) | 2022-07-26 | 2022-07-26 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210883458.0A CN115130613B (zh) | 2022-07-26 | 2022-07-26 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115130613A true CN115130613A (zh) | 2022-09-30 |
CN115130613B CN115130613B (zh) | 2024-03-15 |
Family
ID=83385750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210883458.0A Active CN115130613B (zh) | 2022-07-26 | 2022-07-26 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115130613B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340887A (zh) * | 2023-05-29 | 2023-06-27 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116579337A (zh) * | 2023-07-07 | 2023-08-11 | 南开大学 | 一种融合证据可信度的虚假新闻检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831790A (zh) * | 2020-06-23 | 2020-10-27 | 广东工业大学 | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 |
US20200342314A1 (en) * | 2019-04-26 | 2020-10-29 | Harbin Institute Of Technology (shenzhen) | Method and System for Detecting Fake News Based on Multi-Task Learning Model |
CN112183670A (zh) * | 2020-11-05 | 2021-01-05 | 南开大学 | 一种基于知识蒸馏的少样本虚假新闻检测方法 |
KR20210029005A (ko) * | 2019-09-05 | 2021-03-15 | 군산대학교산학협력단 | 딥러닝 기반의 가짜 뉴스를 탐지하는 방법 및 이를 수행하는 장치 |
CN113469214A (zh) * | 2021-05-20 | 2021-10-01 | 中国科学院自动化研究所 | 虚假新闻检测方法、装置、电子设备和存储介质 |
CN114511038A (zh) * | 2022-02-22 | 2022-05-17 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、电子设备及可读存储介质 |
WO2022121181A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
-
2022
- 2022-07-26 CN CN202210883458.0A patent/CN115130613B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200342314A1 (en) * | 2019-04-26 | 2020-10-29 | Harbin Institute Of Technology (shenzhen) | Method and System for Detecting Fake News Based on Multi-Task Learning Model |
KR20210029005A (ko) * | 2019-09-05 | 2021-03-15 | 군산대학교산학협력단 | 딥러닝 기반의 가짜 뉴스를 탐지하는 방법 및 이를 수행하는 장치 |
CN111831790A (zh) * | 2020-06-23 | 2020-10-27 | 广东工业大学 | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 |
CN112183670A (zh) * | 2020-11-05 | 2021-01-05 | 南开大学 | 一种基于知识蒸馏的少样本虚假新闻检测方法 |
WO2022121181A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN113469214A (zh) * | 2021-05-20 | 2021-10-01 | 中国科学院自动化研究所 | 虚假新闻检测方法、装置、电子设备和存储介质 |
CN114511038A (zh) * | 2022-02-22 | 2022-05-17 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
徐传凯;杜艳;苏韵捷;: "基于多模态的虚假新闻识别", 中国新通信, no. 15, 5 August 2020 (2020-08-05) * |
楼靓;: "社交网络虚假新闻识别方法", 浙江交通职业技术学院学报, no. 02, 20 June 2020 (2020-06-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340887A (zh) * | 2023-05-29 | 2023-06-27 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116340887B (zh) * | 2023-05-29 | 2023-09-01 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116579337A (zh) * | 2023-07-07 | 2023-08-11 | 南开大学 | 一种融合证据可信度的虚假新闻检测方法 |
CN116579337B (zh) * | 2023-07-07 | 2023-10-10 | 南开大学 | 一种融合证据可信度的虚假新闻检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115130613B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
KR102266529B1 (ko) | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
US11886815B2 (en) | Self-supervised document representation learning | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN109522557A (zh) | 文本关系抽取模型的训练方法、装置及可读存储介质 | |
CN114298121B (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN110968697B (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
Kotani et al. | Generating handwriting via decoupled style descriptors | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Shekar et al. | Optical character recognition and neural machine translation using deep learning techniques | |
Wu et al. | English vocabulary online teaching based on machine learning recognition and target visual detection | |
Inunganbi et al. | Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray | |
CN111814028B (zh) | 一种信息搜索方法及装置 | |
CN117216709A (zh) | 基于clip引导的多尺度多模态虚假信息检测方法、装置、电子设备及存储介质 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
WO2023016163A1 (zh) | 文字识别模型的训练方法、识别文字的方法和装置 | |
Vishwanath et al. | Deep reader: Information extraction from document images via relation extraction and natural language | |
Jiang et al. | Text recognition in natural scenes based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |