CN110188194B - 一种基于多任务学习模型的假新闻检测方法及系统 - Google Patents
一种基于多任务学习模型的假新闻检测方法及系统 Download PDFInfo
- Publication number
- CN110188194B CN110188194B CN201910354263.5A CN201910354263A CN110188194B CN 110188194 B CN110188194 B CN 110188194B CN 201910354263 A CN201910354263 A CN 201910354263A CN 110188194 B CN110188194 B CN 110188194B
- Authority
- CN
- China
- Prior art keywords
- news
- layer
- features
- context
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 62
- 238000013527 convolutional neural network Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 241000288105 Grus Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多任务学习模型的假新闻检测方法及系统。在一个实施例中:采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。本发明实施例的教导,能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。
Description
技术领域
本发明涉及新闻检测技术领域,尤其涉及一种基于多任务学习模型的假新闻检测方法及系统。
背景技术
社交媒体对新闻传播是一把双刃剑。一方面,它成本低廉,容易获取,而且通过快速的传播,它允许用户消费和分享新闻。另一方面,它可以产生有害的假新闻,即一些有意含有错误信息的低质量新闻。假新闻的快速传播对社会和个人有着巨大的潜在危害。举个例子,在2016年美国总统大选中,最受欢迎的假新闻在Facebook上的传播范围要比主流媒体的新闻还要大。
因此,社交媒体中的假新闻检测引起了研究者和政治家们的注意。但是社交媒体的假新闻检测有着独特的特性而且呈现出新的挑战。
首先,假新闻的内容是被有意制造用来误导读者,这使得我们很难根据其新闻的内容来判断是否是假新闻。因此,我们需要类似用户在社交媒体上的活跃度等辅助信息来将假新闻从真新闻中区分出来。
第二,用户基于假新闻的社交活动产生了大量不完整、非结构化和充满噪声的数据,这使得利用这些数据变得非常困难。
在对现有技术的研究过程中,本发明的发明人发现,现有的假新闻检测方法主要集中在从新闻文本内容中提取词汇特征来对其真实性进行预判,当新闻文本内容较短时,其准确性难以令人满意。
为了全面并准确地检测假新闻,许多事实核查机构和社交媒体平台投入了大量的人力物力,推动了假新闻检测检测的相关算法改进和技术发展,但也没有能够很好地解决上述问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于多任务学习模型的假新闻检测方法及系统,能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。
为解决上述问题,本发明实施例提供一种基于多任务学习模型的假新闻检测方法,包括:
采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
优选地,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
优选地,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
优选地,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
本发明实施例还提供一种基于多任务学习模型的假新闻检测系统,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
优选地,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,用于根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
优选地,所述嵌入层,具体用于将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
优选地,所述表示层,具体用于使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
实施本发明实施例,具有如下有益效果:
在本发明一个实施例的教导中,通过采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题,上述方案能够同时检测出新闻的真实性以及新闻的所属主题,且提高了假新闻检测和主题分类的准确性。
附图说明
图1是本发明一个实施例提供的一种基于多任务学习模型的假新闻检测方法的流程示意图;
图2是本发明一个实施例提供的不同主题和不同作者的新闻的可信度分布示意图;
图3是本发明一个实施例提供的多任务学习模型(FDML模型)的示意图;
图4是本发明一个实施例提供的用于提取文本特征的Text-CNN模型的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1。
一种基于多任务学习模型的假新闻检测方法,包括:
S101、采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
如图2所示,图2为不同主题和不同作者的新闻的可信度分布示意图,由图2可以看出,某些特定主题的新闻,被归类为假新闻的概率较高;同样的,某些作者也可能会被归类为有很高的意图发表假新闻。
对于新闻真实性与新闻主题之间的存在着某些不可忽略的关系,本实施例采用多任务学习模型(Integrated Multi-Task Model,即用于假新闻检测的多任务学习模型(fake news detection multi-task learning(FDML)),对待检测新闻的真实性检测和主题分类进行联合训练,以提高假新闻检测的准确性。
需要强调的是,本实施例在FDML模型中,假新闻检测任务和新闻主题分类任务是以统一的方式,进行同步训练学习的。
在一优选实施例中,为了便于后续技术方案的描述,先定义FDML模型中一些术语,具体如下:
1)新闻。
设D={d1,d2,...,d|D|}集合为包含|D|新闻,对于每一条新闻d={x,c},x表示新闻的文本内容,c表示与新闻的文本内容对应的上下文信息。
2)新闻标签。
每一条新闻都与之相关标签y={ym=1,ym=2},其中ym=1表示新闻的主题标签,ym=2表示相应的新闻的真实性标签。为了便于后面的描述,我们将索引标记出来,即m=1表示主题分类任务,m=2表示假新闻检测任务。在FDML模型中,假新闻检测任务与主题分类任务是同时进行的联合训练。
3)主题分类。
4)假新闻检测。
5)多任务假新闻检测。
请参阅图3。
所述多任务学习模型包括嵌入层、表示层和多任务层。
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层。
具体的,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征。
所述表示层可以对假新闻检测任务和主题分类任务同时执行训练学习。
对于新闻的文本特征向量,FDML模型首先使用GRU层作为特征提取器,对文本内容进行编码,获得更高阶的表示。同时对GRU层的输出进一步应用最大池化和CNN模型以捕捉高阶特征。最后,FDML模型将提取的文本特征分别表示为后续的假新闻检测器和主题分类器的输入。
同时,所述表示层使用另一个CNN模型和上下文特征向量层来捕捉新闻的上下文信息的特征表示。最后,FDML模型将提取的上下文信息的特征表示分别表示为后续的假新闻检测器和主题分类器的输入。
最后将所提取出来的文本特征和上下文特征,根据其表示形式组合成完整特征,并输入多任务层进行下一步处理。
需要强调的是,在表示层的应用的两个CNN模型,一个适用于对新闻的文本内容进行文本特征提取,另一个适用于对新闻上下文信息进行上下文特征提取,两者是不同的设计。
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
可以理解的是,对于多任务层,由于对待检测新闻的真实性检测和主题分类进行联合训练,即两个任务是同时执行的,所以输出主题标签和真实性标签是相互影响的。
请参阅图4。
在一优选实施例中,一条新闻由文本内容和上下文信息两部分组成。文本内容,指新闻文本,例如:“Virginia governor Ralph Northam defies calls to resign overracist photo”,即标题、摘要、简报或声明等文本。上下文信息,是指新闻的元数据,例如,由“Jonathan Martin”于“Feb.2,2019”在“New York Times”上发表,即作者、时间、地点或期刊等元数据。
文本内容可以看作是一个列表,因此,现有的词汇嵌入方法,如word2vec、fastText、GloVe均可直接使用。将每个词汇表示为一个低维向量,因为它可以有效地编码语义信息。考虑包含T个词汇{x1,x2,...,xT},词汇嵌入的目的是生成一个固定长度的向量,由变长序列x表示并通过一些深度神经网络进行训练,如RNN或CNN。
与文本内容不同,语境内容是范畴性的,在退出时无法在语义上匹配上下文信息。因此,对于上下文信息,嵌入模型必须在学习过程中接受训练。此外,由于每个类别不同,如作者、出版商、时间,以及领域和词汇分布,需要按类别分开如{c1,c2,...,cN},对嵌入特征向量进行训练,如图3所示。
在一优选实施例中,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
当新闻的文本内容很短的时候,对其真实性的检测难度变得很大,对于这个问题,传统的假新闻检测手段并不能给出一个较为满意的解决方案。
为了解决这个问题,本实施例在文本内容上附加了上下文信息,以协助完成假新闻的侦查任务。因为上下文信息对主题分类也很有用,所以它也用于主题分类。
在FDML模型中,将所提取出来的文本特征和上下文特征组合成完整特征输入到假新闻检测器和主题分类器。
传统的RNN在无法有效的捕获长期依赖,因此,本实施例使用GRU作为文本特征提取器。对于每一个时间步长t,计算GRU的过程描述如下:
x′t=Ex′t
rt=σ(Wrx′t+Urht-1)
zt=σ(Wzx′t+Uzht-1)
h′t=tanh(Whx′t+Uh(ht-1·rt))
ht=(1-zt)·ht-1+zt·h′t;
其中,x′t表示词汇xt的词汇嵌入向量,E为词汇嵌入矩阵,rt为重置门,zt为更新门,并且(W,U)是GRU中的参数。
如图3所示,在GRU层计算得到对文本内容(主题信息)进行有效编码的隐状态表示{h1,h2,...,hT},使用多个卷积核对GRU的隐状态进行特征提取。卷积运算采用卷积核w∈Rpk,其中k为隐状态的参数,使用多个卷积核对GRU的隐状态进行特征提取。
给定长度为r的一个隐藏状态区域hi:i+p-1,则,ui=f(w·hi:i+p-1+b),其中b是偏置项,f是非线性函数。根据每个区域的GRU隐状态,我们可以得到特征映射
u=[u1,u2,...,uT-r+1]。
如图4所示,展示了Text-CNN具有2/3/4滤波区域,每个滤波区域配置2个滤波器。
为了捕获上下文信息之间的依赖关系,本实施例使用另一个CNN执行类似的操作。但输入是上下文信息的嵌入向量,而不是GRU层的隐状态{h1,h2,...,hT}。
考虑到作者的信用历史代表了作者的可信度,并且已经作为载体呈现,它没有参与在上述计算过程中,而是与上下文信息进行串联运算,组成上下文信息的最终表示形式用于假新闻检测。在形式上,
其中Ch为信用记录。
对于主题分类任务,本实施例只需连接N个嵌入向量表示上下文信息。在形式上,
在一优选实施例中,得到完整特征,即实现了全连接层用于融合文本特征和上下文特征。多任务层的执行描述如下:
损失函数为假新闻检测与主题分类的线性组合:
其中,Θ代表模型参数,λ是权衡模型参数的正则化系数。
基于上述任一实施例的教导,根据以下现象:
1)新闻设计的某些话题被归类为假新闻的概率很高;
2)一些作者有很高的意图发布假新闻。
FDML模型有效地融合了文本内容和上下文信息,并利用了新闻主题、作者的可信度分布与新闻的真实性之间的相关性,进行多任务学习,提高了假新闻检测的准确性。
本发明实施例还提供一种基于多任务学习模型的假新闻检测系统,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题。
如图2所示,图2为不同主题和不同作者的新闻的可信度分布示意图,由图2可以看出,某些特定主题的新闻,被归类为假新闻的概率较高;同样的,某些作者也可能会被归类为有很高的意图发表假新闻。
对于新闻真实性与新闻主题之间的存在着某些不可忽略的关系,本实施例采用多任务学习模型(Integrated Multi-Task Model,即用于假新闻检测的多任务学习模型(fake news detection multi-task learning(FDML)),对待检测新闻的真实性检测和主题分类进行联合训练,以提高假新闻检测的准确性。
需要强调的是,本实施例在FDML模型中,假新闻检测任务和新闻主题分类任务是以统一的方式,进行同步训练学习的。
请参阅图3。
所述多任务学习模型包括嵌入层、表示层和多任务层。
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层。
具体的,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点等信息嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征。
所述表示层可以对假新闻检测任务和主题分类任务同时执行训练学习。
对于新闻的文本特征向量,FDML模型首先使用GRU层作为特征提取器,对文本内容进行编码,获得更高阶的表示。同时对GRU层的输出进一步应用最大池化和CNN模型以捕捉高阶特征。最后,FDML模型将提取的文本特征分别表示为后续的假新闻检测器和主题分类器的输入。
同时,所述表示层使用另一个CNN模型和上下文特征向量层来捕捉新闻的上下文信息的特征表示。最后,FDML模型将提取的上下文信息的特征表示分别表示为后续的假新闻检测器和主题分类器的输入。
最后将所提取出来的文本特征和上下文特征,根据其表示形式组合成完整特征,并输入多任务层进行下一步处理。
需要强调的是,在表示层的应用的两个CNN模型,一个适用于对新闻的文本内容进行文本特征提取,另一个适用于对新闻上下文信息进行上下文特征提取,两者是不同的设计。
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
可以理解的是,对于多任务层,由于对待检测新闻的真实性检测和主题分类进行联合训练,即两个任务是同时执行的,所以输出主题标签和真实性标签是相互影响的。
请参阅图4。
在一优选实施例中,一条新闻由文本内容和上下文信息两部分组成。文本内容,指新闻文本,例如:“Virginia governor Ralph Northam defies calls to resign overracist photo”,即标题、摘要、简报或声明等文本。上下文信息,是指新闻的元数据,例如,由“Jonathan Martin”于“Feb.2,2019”在“New York Times”上发表,即作者、时间、地点或期刊等元数据。
文本内容可以看作是一个列表,因此,现有的词汇嵌入方法,如word2vec、fastText、GloVe均可直接使用。将每个词汇表示为一个低维向量,因为它可以有效地编码语义信息。考虑包含T个词汇{x1,x2,...,xT},词汇嵌入的目的是生成一个固定长度的向量,由变长序列x表示并通过一些深度神经网络进行训练,如RNN或CNN。
与文本内容不同,语境内容是范畴性的,在退出时无法在语义上匹配上下文信息。因此,对于上下文信息,嵌入模型必须在学习过程中接受训练。此外,由于每个类别不同,如作者、出版商、时间,以及领域和词汇分布,需要按类别分开如{c1,c2,...,cN},对嵌入特征向量进行训练,如图3所示。
在一优选实施例中,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
当新闻的文本内容很短的时候,对其真实性的检测难度变得很大,对于这个问题,传统的假新闻检测手段并不能给出一个较为满意的解决方案。
为了解决这个问题,本实施例在文本内容上附加了上下文信息,以协助完成假新闻的侦查任务。因为上下文信息对主题分类也很有用,所以它也用于主题分类。
在FDML模型中,将所提取出来的文本特征和上下文特征组合成完整特征输入到假新闻检测器和主题分类器。
传统的RNN在无法有效的捕获长期依赖,因此,本实施例使用GRU作为文本特征提取器。对于每一个时间步长t,计算GRU的过程描述如下:
x′t=Ex′t
rt=σ(Wrx′t+Urht-1)
zt=σ(Wzx′t+Uzht-1)
h′t=tanh(Whx′t+Uh(ht-1·rt))
ht=(1-zt)·ht-1+zt·h′t;
其中,x′t表示词汇xt的词汇嵌入向量,E为词汇嵌入矩阵,rt为重置门,zt为更新门,并且(W,U)是GRU中的参数。
如图3所示,在GRU层计算得到对文本内容(主题信息)进行有效编码的隐状态表示{h1,h2,...,hT},使用多个卷积核对GRU的隐状态进行特征提取。卷积运算采用卷积核w∈Rpk,其中k为隐状态的参数,使用多个卷积核对GRU的隐状态进行特征提取。
给定长度为r的一个隐藏状态区域hi:i+p-1,则,ui=f(w·hi:i+p-1+b),其中b是偏置项,f是非线性函数。根据每个区域的GRU隐状态,我们可以得到特征映射
u=[u1,u2,...,uT-r+1]。
如图4所示,展示了Text-CNN具有2/3/4滤波区域,每个滤波区域配置2个滤波器。
为了捕获上下文信息之间的依赖关系,本实施例使用另一个CNN执行类似的操作。但输入是上下文信息的嵌入向量,而不是GRU层的隐状态{h1,h2,...,hT}。
考虑到作者的信用历史代表了作者的可信度,并且已经作为载体呈现,它没有参与在上述计算过程中,而是与上下文信息进行串联运算,组成上下文信息的最终表示形式用于假新闻检测。在形式上,
其中Ch为信用记录。
对于主题分类任务,本实施例只需连接N个嵌入向量表示上下文信息。在形式上,
在一优选实施例中,得到完整特征,即实现了全连接层用于融合文本特征和上下文特征。多任务层的执行描述如下:
损失函数为假新闻检测与主题分类的线性组合:
其中,Θ代表模型参数,λ是权衡模型参数的正则化系数。
基于上述任一实施例的教导,根据以下现象:
1)新闻设计的某些话题被归类为假新闻的概率很高;
2)一些作者有很高的意图发布假新闻。
FDML模型有效地融合了文本内容和上下文信息,并利用了新闻主题、作者的可信度分布与新闻的真实性之间的相关性,进行多任务学习,提高了假新闻检测的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.一种基于多任务学习模型的假新闻检测方法,其特征在于,包括:
采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题;其中,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;所述文本内容指新闻文本,所述上下文信息是指新闻的元数据;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
2.如权利要求1所述的假新闻检测方法,其特征在于,所述嵌入层,将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
3.如权利要求2所述的假新闻检测方法,其特征在于,所述表示层,使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
4.一种基于多任务学习模型的假新闻检测系统,其特征在于,包括:
检测单元,用于采用多任务学习模型,对待检测新闻的真实性检测和主题分类这两个任务进行联合训练,并同时返回所述待检测新闻的真实性以及所述待检测新闻的所属主题;其中,所述多任务学习模型包括嵌入层、表示层和多任务层;
所述嵌入层,将所述待检测新闻的文本内容和上下文信息作为原始数据嵌入到一个低维空间,以此获得文本内容和上下文信息的数学向量表示,并输入所述表示层;所述文本内容指新闻文本,所述上下文信息是指新闻的元数据;
所述表示层,对文本嵌入词向量使用GRU(Gated Recurrent Unit,门控循环单元)层和CNN(Convolutional Neural Network,卷积神经网络)模型进行文本特征提取,对上下文嵌入向量使用另一个CNN模型和上下文特征向量层进行上下文特征提取,并将所提取出来的文本特征和上下文特征组合成完整特征;
所述多任务层,用于根据所述完整特征,对待检测新闻的真实性检测和主题分类进行联合训练,以同时完成真实性检测任务和主题分类任务,并输出真实性标签和主题标签。
5.如权利要求4所述的假新闻检测系统,其特征在于,所述嵌入层,具体用于将所述待检测新闻的陈述中的每个词汇嵌入到低维空间,每个词汇获得一个固定长度的词向量,将所述待检测新闻的作者姓名、作者所属政党、地点嵌入到一个低维空间以此得到一个固定长度的低维向量,即数学输入的表示。
6.如权利要求5所述的假新闻检测系统,其特征在于,所述表示层,具体用于使用GRU层作为特征提取器对文本特征进行特征提取,通过对GRU层的输出进行最大池化得到一组文本特征的表示,同时使用CNN来捕捉GRU层输出的特征,以此获得另一组文本特征;拼接来自所述嵌入层获得的上下文特征向量,以此获得一组上下文特征的表示,同时使用CNN来捕捉所述上下文信息之间的关联关系,以此得到另一组上下文特征的表示;将所提取出来的文本特征和上下文特征进行组合以得到待检测新闻的完整特征的表示。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354263.5A CN110188194B (zh) | 2019-04-26 | 2019-04-26 | 一种基于多任务学习模型的假新闻检测方法及系统 |
US16/749,160 US11494648B2 (en) | 2019-04-26 | 2020-01-22 | Method and system for detecting fake news based on multi-task learning model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354263.5A CN110188194B (zh) | 2019-04-26 | 2019-04-26 | 一种基于多任务学习模型的假新闻检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188194A CN110188194A (zh) | 2019-08-30 |
CN110188194B true CN110188194B (zh) | 2020-12-01 |
Family
ID=67715279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354263.5A Active CN110188194B (zh) | 2019-04-26 | 2019-04-26 | 一种基于多任务学习模型的假新闻检测方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11494648B2 (zh) |
CN (1) | CN110188194B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765108A (zh) * | 2019-10-24 | 2020-02-07 | 西北工业大学 | 一种基于群智数据融合的假消息早期检测方法 |
CN111046664A (zh) * | 2019-11-26 | 2020-04-21 | 哈尔滨工业大学(深圳) | 基于多粒度的图卷积神经网络的假新闻检测方法及系统 |
CN111160040B (zh) * | 2019-12-26 | 2022-02-01 | 西安交通大学 | 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 |
CN111177554B (zh) * | 2019-12-27 | 2022-12-09 | 西安交通大学 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111680120B (zh) * | 2020-04-30 | 2022-06-03 | 中国科学院信息工程研究所 | 新闻类别检测方法及系统 |
CN111581980B (zh) * | 2020-05-06 | 2022-08-16 | 西安交通大学 | 基于决策树与共同注意力协作的假新闻检测系统及方法 |
CN111611981A (zh) * | 2020-06-28 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 信息识别方法和装置及信息识别神经网络训练方法和装置 |
US20220036011A1 (en) * | 2020-07-30 | 2022-02-03 | InfoAuthN AI Inc. | Systems and Methods for Explainable Fake News Detection |
CN112035759A (zh) * | 2020-09-02 | 2020-12-04 | 胡煜昊 | 英文新闻媒体报道的假新闻检测方法 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
CN112183670B (zh) * | 2020-11-05 | 2022-08-09 | 南开大学 | 一种基于知识蒸馏的少样本虚假新闻检测方法 |
CN112329444B (zh) * | 2020-11-10 | 2022-09-02 | 南开大学 | 融合文本和传播结构的早期谣言检测方法 |
CN112527959B (zh) * | 2020-12-11 | 2023-05-30 | 重庆邮电大学 | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 |
CN113158646B (zh) * | 2021-01-12 | 2023-10-27 | 北京工商大学 | 一种基于区块链的自动合成新闻的检测方法及系统 |
CN112966069B (zh) * | 2021-01-13 | 2023-05-19 | 西安交通大学 | 一种基于普遍认知与个体认知的虚假新闻检测系统及方法 |
CN113076754A (zh) * | 2021-03-23 | 2021-07-06 | 山东师范大学 | 一种基于知识集成的虚假评论检测方法及系统 |
CN113434684B (zh) * | 2021-07-01 | 2022-03-08 | 北京中科研究院 | 自监督学习的谣言检测方法、系统、设备及存储介质 |
CN113609292B (zh) * | 2021-08-09 | 2023-10-13 | 上海交通大学 | 基于图结构的已知虚假新闻智能检测方法 |
CN113849599B (zh) * | 2021-09-03 | 2023-01-24 | 北京中科睿鉴科技有限公司 | 基于模式信息和事实信息的联合虚假新闻检测方法 |
CN113869431B (zh) * | 2021-09-30 | 2024-05-07 | 平安科技(深圳)有限公司 | 虚假信息检测方法、系统、计算机设备及可读存储介质 |
CN114912026B (zh) * | 2022-05-30 | 2023-11-07 | 贵州梦动科技有限公司 | 一种网络舆情监测分析处理方法、设备及计算机存储介质 |
CN115130613B (zh) * | 2022-07-26 | 2024-03-15 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
CN116028627B (zh) * | 2023-02-13 | 2023-06-13 | 特斯联科技集团有限公司 | 新闻分类方法及装置、电子设备、计算机可读存储介质 |
CN117034905B (zh) * | 2023-08-07 | 2024-05-14 | 重庆邮电大学 | 一种基于大数据的互联网假新闻识别方法 |
CN117574261B (zh) * | 2023-10-19 | 2024-06-21 | 重庆理工大学 | 一种多领域虚假新闻读者认知检测方法 |
CN117669530A (zh) * | 2024-02-02 | 2024-03-08 | 中国传媒大学 | 基于提示学习的虚假信息检测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10747837B2 (en) * | 2013-03-11 | 2020-08-18 | Creopoint, Inc. | Containing disinformation spread using customizable intelligence channels |
CN108830630B (zh) * | 2018-04-09 | 2020-04-10 | 平安科技(深圳)有限公司 | 一种虚假消息的识别方法及其设备 |
-
2019
- 2019-04-26 CN CN201910354263.5A patent/CN110188194B/zh active Active
-
2020
- 2020-01-22 US US16/749,160 patent/US11494648B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN110188194A (zh) | 2019-08-30 |
US20200342314A1 (en) | 2020-10-29 |
US11494648B2 (en) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及系统 | |
CN111126069B (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
Bu et al. | A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
Smitha et al. | Meme classification using textual and visual features | |
Islam et al. | Deep learning for multi-labeled cyberbully detection: Enhancing online safety | |
Asian et al. | Sentiment analysis for the Brazilian anesthesiologist using multi-layer perceptron classifier and random forest methods | |
Suhas Bharadwaj et al. | A novel multimodal hybrid classifier based cyberbullying detection for social media platform | |
Trisal et al. | K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks | |
Patel et al. | Fake news detection using machine learning and natural language processing | |
CN114048319B (zh) | 基于注意力机制的幽默文本分类方法、装置、设备、介质 | |
Wieczorek et al. | Semantic Image-Based Profiling of Users' Interests with Neural Networks | |
CN111488452A (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
Pijani et al. | Inferring attributes with picture metadata embeddings | |
CN116756306A (zh) | 对象分类方法、装置、计算机设备及计算机可读存储介质 | |
Killi et al. | Deep Fake Image Classification Using VGG-19 Model. | |
Narmadha et al. | Recognizing eminent players from the Indian Premier League using CNN model | |
Neela et al. | An Ensemble Learning Frame Work for Robust Fake News Detection | |
Dang et al. | Using Deep Learning for Obscene Language Detection in Vietnamese Social Media | |
Holkar et al. | Audio and Video Toxic Comments Detection and Classification | |
Singh et al. | Facial Emotion Detection Using CNN-Based Neural Network | |
Han | [Retracted] Emotion Analysis of Literary Works Based on Attentional Mechanisms and the Fusion of Two‐Channel Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |