CN113177110A - 一种虚假新闻检测方法、装置、计算机设备和存储介质 - Google Patents

一种虚假新闻检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113177110A
CN113177110A CN202110592713.1A CN202110592713A CN113177110A CN 113177110 A CN113177110 A CN 113177110A CN 202110592713 A CN202110592713 A CN 202110592713A CN 113177110 A CN113177110 A CN 113177110A
Authority
CN
China
Prior art keywords
information
attention
news content
news
auxiliary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110592713.1A
Other languages
English (en)
Other versions
CN113177110B (zh
Inventor
胡艳丽
童谭骞
谭立君
左浩
李川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110592713.1A priority Critical patent/CN113177110B/zh
Publication of CN113177110A publication Critical patent/CN113177110A/zh
Application granted granted Critical
Publication of CN113177110B publication Critical patent/CN113177110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种虚假新闻检测方法、装置、计算机设备和存储介质。所述方法包括:将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过注意力机制得到隐状态加权和信息;将隐状态加权和信息输入到基于注意力加权的CNN网络,得到新闻内容特征加权和信息;将辅助信息低维矢量输入到基于注意力加权的CNN网络,得到辅助信息特征加权和信息;将新闻内容特征加权和信息和辅助信息特征加权和信息融合后输入到全连接层,得到新闻的预测虚假度。本发明的模型结合了双向GRU和CNN,通过将文本和元数据相结合来提取全局和局部特征,同时多部分部署注意机制,突出关键特征,提高了虚假新闻辨别能力。

Description

一种虚假新闻检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种虚假新闻检测方法、装置、计算机设备和存储介质。
背景技术
现有技术中虚假新闻检测的模型主要有两类,基于内容的建模和基于社交网络的模型。基于内容的建模包括面向知识库、面向内容风格;基于社交网络的模型分为基于立场和基于传播行为的两种。多分类的真假新闻检测极具挑战性:由于新闻的文本信息通常很少,内容非常有限,仅仅基于新闻内容来对新闻真假性进行检测的方法准确率较低,数据利用率低,难以满足需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高虚假新闻辨别能力的虚假新闻检测方法、装置、计算机设备和存储介质。
一种虚假新闻检测方法,所述方法包括:
获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息;
获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息;
将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵,将所述融合特征矩阵输入到所述全连接层进行检测,通过激活函数得到所述新闻内容的预测虚假度;
根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
在其中一个实施例中,还包括:通过词嵌入生成部分的GloVe算法或word2vec算法,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。
在其中一个实施例中,还包括:将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络;
通过双向GRU网络获得所述新闻内容低维矢量序列的前字特征和后字特征;所述前字特征由前向GRU计算得到,所述后字特征由后项GRU计算得到;
所述前字特征为:
Figure BDA0003089818380000021
其中,ht-1表示t-1时刻的隐状态;vt表示t时刻时间步骤;
Figure BDA0003089818380000022
表示所述前字特征;fGUR表示如下GRU门控处理函数:
Figure BDA0003089818380000023
zt=σ(Wz[ht-1,xt])
Figure BDA0003089818380000024
rt=σ(Wr[ht-1,xt])
相应的,
Figure BDA0003089818380000025
表示GRU针对前字
Figure BDA0003089818380000026
进行处理;
所述后字特征为:
Figure BDA0003089818380000031
其中,
Figure BDA0003089818380000032
表示所述后字特征;
Figure BDA0003089818380000033
表示GRU针对后字
Figure BDA0003089818380000034
进行处理;
将所述前字特征和所述后字特征并串联,得到当前时刻的隐状态为:
Figure BDA0003089818380000035
其中,ht表示当前t时刻的隐状态;
根据所有时间步骤的所述隐状态,得到全局信息矩阵;
通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息。
在其中一个实施例中,还包括:通过机器学习算法得到所述全局信息矩阵中每个隐状态的权重为:
Figure BDA0003089818380000036
其中,ut表示注意力得分,通过神经网络训练得到,计算公式为ut=tanh(Wtht+bt),Wt表示隐状态ht对应的权重,bt表示偏置项;
计算所述隐状态和所述隐状态的权重的加权和,得到隐状态注意力向量为:
Figure BDA0003089818380000037
其中,
Figure BDA0003089818380000038
为所述隐状态注意力向量,L表示所述新闻内容的总字数;
将所述隐状态注意力向量作为所述隐状态加权和信息。
在其中一个实施例中,还包括:将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图;所述新闻内容特征映射图中的项为:
yi=ReLU(Wm·Xi:i+m-1+bm)
其中,yi表示所述新闻内容特征映射图中的项;Xi:i+m-1表示所述隐状态加权和信息对应的矩阵X第i行到第i+m-1行的子矩阵,m表示所述子矩阵的行数;Wm表示与Xi:i+m-1对应的权重矩阵,bm表示偏置项;ReLU表示ReLU激活函数;
通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容注意力向量为:
Figure BDA0003089818380000041
其中,
Figure BDA0003089818380000042
为所述新闻内容注意力向量,αi′表示yi对应的权重,且∑αi′=1;
将所述新闻内容注意力向量作为新闻内容特征加权和信息。
在其中一个实施例中,还包括:获取辅助信息;
将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量对应的矩阵V;
将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波,得到辅助信息特征映射图;所述辅助信息特征映射图中的项为:
zj=ReLU(Wn·Xj:j+n-1+bn)
其中,zj表示所述辅助信息特征映射图中的项;Xj:j+n-1表示所述隐状态加权和信息对应的矩阵V第j行到第j+n-1行的子矩阵,n表示所述子矩阵的行数;Wn表示与Xj:j+n-1对应的权重矩阵,bn表示偏置项;
通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息注意力向量为:
Figure BDA0003089818380000043
其中,
Figure BDA0003089818380000044
为所述辅助信息注意力向量,αj″表示zj对应的权重,且∑αj″=1;
将所述辅助信息注意力向量作为辅助信息特征加权和信息。
在其中一个实施例中,还包括:将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵为:
Figure BDA0003089818380000045
其中,U表示所述融合特征矩阵;Y表示所述新闻内容特征加权和信息;Z表示所述辅助信息特征加权和信息;
将所述融合特征矩阵输入到所述全连接层进行检测,利用全连通层得到特征序列为:
rk=ReLU(WkUk+bk)
其中,rk表示所述特征序列;Wk为softmax权值矩阵,bk表示偏置项;
根据所述特征序列通过softmax函数得到所述新闻内容的预测虚假度为:
ck=softmax(rk)
其中,ck表示所述预测虚假度。
一种虚假新闻检测装置,所述装置包括:
新闻内容获取模块,用于获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
新闻内容低维矢量获取模块,用于通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
隐状态加权和信息获取模块,用于将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
新闻内容特征映射图获取模块,用于将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波,得到新闻内容特征映射图;
辅助信息特征映射图获取模块,用于获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波,得到辅助信息特征映射图;
预测虚假度获取模块,用于通过注意力机制计算所述新闻内容特征映射图和所述辅助信息低维矢量特征映射图中每个项的权重,得到注意加权特征图,将所述注意加权特征图输入到所述全连接层,通过激活函数得到所述新闻内容的预测虚假度;
训练和使用模块,用于根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息;
获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息;
将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵,将所述融合特征矩阵输入到所述全连接层进行检测,通过激活函数得到所述新闻内容的预测虚假度;
根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息;
获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息;
将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵,将所述融合特征矩阵输入到所述全连接层进行检测,通过激活函数得到所述新闻内容的预测虚假度;
根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
上述虚假新闻检测方法、装置、计算机设备和存储介质,通过词嵌入生成算法,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息;将隐状态加权和信息输入到基于注意力加权的CNN网络,得到新闻内容特征加权和信息;将辅助信息低维矢量输入到基于注意力加权的CNN网络,得到辅助信息特征加权和信息;将新闻内容特征加权和信息和辅助信息特征加权和信息融合得到融合特征矩阵,将融合特征矩阵输入到全连接层进行检测,通过激活函数得到新闻内容的预测虚假度。本发明的模型结合了双向GRU和CNN,通过将新闻文本和新闻元数据相结合来提取全局和局部特征,同时多部分部署注意机制,突出关键特征,提高了虚假新闻辨别能力。
附图说明
图1为一个实施例中虚假新闻检测方法的应用场景图;
图2为一个实施例中虚假新闻检测模型的示意图;
图3为一个实施例中虚假新闻检测装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的虚假新闻检测方法,可以应用于如下应用环境中。其中,终端执行一种虚假新闻检测方法,所述方法基于层次自注意深度学习的架构,通过词嵌入生成算法,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息;将隐状态加权和信息输入到基于注意力加权的CNN网络,得到新闻内容特征加权和信息;将辅助信息低维矢量输入到基于注意力加权的CNN网络,得到辅助信息特征加权和信息;将新闻内容特征加权和信息和辅助信息特征加权和信息融合得到融合特征矩阵,将融合特征矩阵输入到全连接层进行检测,通过激活函数得到新闻内容的预测虚假度。其中,终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑。
在一个实施例中,如图1所示,提供了一种虚假新闻检测方法,包括以下步骤:
步骤102,获取新闻内容,将新闻内容输入到虚假新闻检测模型中,如图2所示,虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层。
步骤104,通过词嵌入生成部分,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。
为了使用标准机器学习算法对文本中的词进行分析,需要通过词嵌入(WordEmbedding)算法将文本中的词转换成数字向量,以数字形式将文本信息输入模型。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中。
步骤106,将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息。
为了获取新闻语句的全局模式,本发明利用双向GRU网络对文本序列进行分析,获得句子之间的内部结构特征,然后动态加权这些特征,并带有注意机制来突出关键特征。双向GRU网络由前向GRU网络和后向GRU网络组成。GRU有独立的门来控制序列中的信息流,使得它适合于捕获文本中的长距离和短距离依赖。
双向GRU网络将新闻内容的嵌入转换为反映整个内容的全局模式的矩阵。这种方案平等地考虑了所有的来源。然而,并不是所有的向量在假新闻检测中贡献相同。关注决定新闻声明真实性的部分内容很重要。例如,“根据医疗保健法,每个人都将拥有更低的费率、更好的质量和更好的机会”这一说法是错误的,因为根据分析,有些人会为医疗保险支付更多的费用。也就是说,每个人都有较低的比率而不是陈述的其他部分决定陈述的真实性。为此,我们应用注意机制来计算每个项相对于相应语句的总体表示的重要性。具体地,在时间步长t时,通过融合全局信息,为每个隐状态ht学习一个权重αt,然后得到一个注意力向量作为隐状态的加权和。
步骤108,将隐状态加权和信息输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息。
设计CNN,在双向GRU网络的输出上通过多个滤波器实现不同尺度的特征融合。为了学习互补的特征,采用不同粒度的滤波器实现不同尺度的特征融合。基于特征图,进一步执行注意机制,强调与假新闻检测高度相关的特征。
步骤110,获取辅助信息,将辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将辅助信息低维矢量输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息。
辅助信息指的是新闻的元数据,元数据可以从新闻中提取得到。
步骤112,将新闻内容特征加权和信息和辅助信息特征加权和信息进行融合,得到融合特征矩阵,将融合特征矩阵输入到全连接层进行检测,通过激活函数得到新闻内容的预测虚假度。
本发明对新闻内容和辅助信息进行注意加权特征提取和融合,得到了对虚假检测影响较大的特征。全连接层用于融合新闻内容特征和辅助信息特征进行检测,将融合特征作为输入连接到全连接层,然后通过Softmax激活函数进行多类检测。
步骤114,根据预先构建的损失函数和预测虚假度,对虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
上述虚假新闻检测方法中,通过词嵌入生成算法,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息;将隐状态加权和信息输入到基于注意力加权的CNN网络,得到新闻内容特征加权和信息;将辅助信息低维矢量输入到基于注意力加权的CNN网络,得到辅助信息特征加权和信息;将新闻内容特征加权和信息和辅助信息特征加权和信息进行融合,得到融合特征矩阵,将融合特征矩阵输入到全连接层进行检测,通过激活函数得到新闻内容的预测虚假度。本发明的模型结合了双向GRU和CNN,通过将新闻文本和新闻元数据相结合来提取全局和局部特征,同时多部分部署注意机制,突出关键特征,提高了虚假新闻辨别能力。
在其中一个实施例中,还包括:通过词嵌入生成部分的GloVe算法或word2vec算法,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。
在其中一个实施例中,还包括:将新闻内容低维矢量输入到基于注意力加权的双向GRU网络;通过双向GRU网络获得新闻内容低维矢量序列的前字特征和后字特征;前字特征由前向GRU计算得到,后字特征由后项GRU计算得到;前字特征为:
Figure BDA0003089818380000111
其中,ht-1表示t-1时刻的隐状态;vt表示t时刻时间步骤;
Figure BDA0003089818380000112
表示前字特征;fGUR表示如下GRU门控处理函数:
Figure BDA0003089818380000113
zt=σ(Wz[ht-1,xt])
Figure BDA0003089818380000114
rt=σ(Wr[ht-1,xt])
相应的,
Figure BDA0003089818380000115
表示GRU针对前字
Figure BDA0003089818380000116
进行处理;
所述后字特征为:
Figure BDA0003089818380000117
其中,
Figure BDA0003089818380000118
表示所述后字特征;
Figure BDA0003089818380000119
表示GRU针对后字
Figure BDA00030898183800001110
进行处理;
将前字特征和后字特征并串联,得到当前时刻的隐状态为:
Figure BDA00030898183800001111
其中,ht表示当前t时刻的隐状态;根据所有时间步骤的隐状态,得到全局信息矩阵;通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息。
在其中一个实施例中,还包括:通过机器学习算法得到全局信息矩阵中每个隐状态的权重为:
Figure BDA0003089818380000121
其中,ut表示注意力得分,通过神经网络训练得到,计算公式为ut=tanh(Wtht+bt),Wt表示隐状态ht对应的权重,bt表示偏置项;计算隐状态和隐状态的权重的加权和,得到隐状态注意力向量为:
Figure BDA0003089818380000122
其中,
Figure BDA0003089818380000123
为隐状态注意力向量,L表示所述新闻内容的总字数;将隐状态注意力向量作为隐状态加权和信息。
在其中一个实施例中,还包括:将隐状态加权和信息输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对隐状态加权和信息进行滤波得到新闻内容特征映射图;新闻内容特征映射图中的项为:
yi=ReLU(Wm·Xi:i+m-1+bm)
其中,yi表示新闻内容特征映射图中的项;Xi:i+m-1表示隐状态加权和信息对应的矩阵X第i行到第i+m-1行的子矩阵,m表示子矩阵的行数;Wm表示与Xi:i+m-1对应的权重矩阵,bm表示偏置项;ReLU表示ReLU激活函数;通过注意力机制计算新闻内容特征映射图中每个项的权重,得到新闻内容注意力向量为:
Figure BDA0003089818380000124
其中,
Figure BDA0003089818380000125
为新闻内容注意力向量,αi′表示yi对应的权重,且∑αi′=1;将新闻内容注意力向量作为新闻内容特征加权和信息。
与常用的sigmod函数相比,我们使用Relu激活函数加快了模型训练的收敛速度,更有效地实现梯度下降和反向传播,避免了梯度爆炸和梯度消失的问题。
在其中一个实施例中,还包括:获取辅助信息;将辅助信息预处理后得到的文本序列转换为辅助信息低维矢量对应的矩阵V;将辅助信息低维矢量输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对辅助信息低维矢量进行滤波,得到辅助信息特征映射图;辅助信息特征映射图中的项为:
zj=ReLU(Wn·Xj:j+n-1+bn)
其中,zj表示辅助信息特征映射图中的项;Xj:j+n-1表示隐状态加权和信息对应的矩阵V第j行到第j+n-1行的子矩阵,n表示子矩阵的行数;Wn表示与Xj:j+n-1对应的权重矩阵,bn表示偏置项;通过注意力机制计算辅助信息特征映射图中每个项的权重,得到辅助信息注意力向量为:
Figure BDA0003089818380000131
其中,
Figure BDA0003089818380000132
为辅助信息注意力向量,αj″表示zj对应的权重,且∑αj″=1;将辅助信息注意力向量作为辅助信息特征加权和信息。
在其中一个实施例中,还包括:将新闻内容特征加权和信息和辅助信息特征加权和信息进行融合,得到融合特征矩阵为:
Figure BDA0003089818380000133
其中,U表示融合特征矩阵;Y表示新闻内容特征加权和信息;Z表示辅助信息特征加权和信息;将融合特征矩阵输入到全连接层进行检测,利用全连通层得到特征序列为:
rk=ReLU(WkUk+bk)
其中,rk表示特征序列;Wk为softmax权值矩阵,bk表示偏置项;根据特征序列通过softmax函数得到新闻内容的预测虚假度为:
ck=softmax(rk)
其中,ck表示预测虚假度。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种虚假新闻检测装置,包括:新闻内容获取模块302、新闻内容低维矢量获取模块304、隐状态加权和信息获取模块306、新闻内容特征映射图获取模块308、辅助信息特征映射图获取模块310、预测虚假度获取模块312和训练和使用模块314,其中:
新闻内容获取模块302,用于获取新闻内容,将新闻内容输入到虚假新闻检测模型中,虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
新闻内容低维矢量获取模块304,用于通过词嵌入生成部分,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
隐状态加权和信息获取模块306,用于将新闻内容低维矢量输入到基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息;
新闻内容特征映射图获取模块308,用于将隐状态加权和信息输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对隐状态加权和信息进行滤波,得到新闻内容特征映射图;
辅助信息特征映射图获取模块310,用于获取辅助信息,将辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将辅助信息低维矢量输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对辅助信息低维矢量进行滤波,得到辅助信息特征映射图;
预测虚假度获取模块312,用于通过注意力机制计算新闻内容特征映射图和辅助信息低维矢量特征映射图中每个项的权重,得到注意加权特征图,将注意加权特征图输入到全连接层,通过激活函数得到新闻内容的预测虚假度;
训练和使用模块314,用于根据预先构建的损失函数和预测虚假度,对虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
新闻内容低维矢量获取模块304还用于通过词嵌入生成部分的GloVe算法或word2vec算法,将新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。
隐状态加权和信息获取模块306还用于将新闻内容低维矢量输入到基于注意力加权的双向GRU网络;通过双向GRU网络获得新闻内容低维矢量序列的前字特征和后字特征;前字特征由前向GRU计算得到,后字特征由后项GRU计算得到;前字特征为:
Figure BDA0003089818380000151
其中,ht-1表示t-1时刻的隐状态;vt表示t时刻时间步骤;
Figure BDA0003089818380000152
表示前字特征;fGUR表示如下GRU门控处理函数:
Figure BDA0003089818380000153
zt=σ(Wz[ht-1,xt])
Figure BDA0003089818380000154
rt=σ(Wr[ht-1,xt])
相应的,
Figure BDA0003089818380000155
表示GRU针对前字
Figure BDA0003089818380000156
进行处理;
所述后字特征为:
Figure BDA0003089818380000157
其中,
Figure BDA0003089818380000158
表示所述后字特征;
Figure BDA0003089818380000159
表示GRU针对后字
Figure BDA00030898183800001510
进行处理;
将前字特征和后字特征并串联,得到当前时刻的隐状态为:
Figure BDA00030898183800001511
其中,ht表示当前t时刻的隐状态;
根据所有时间步骤的隐状态,得到全局信息矩阵;通过注意力机制计算全局信息矩阵中每个项的权重,得到隐状态加权和信息。
隐状态加权和信息获取模块306还用于通过机器学习算法得到全局信息矩阵中每个隐状态的权重为:
Figure BDA00030898183800001512
其中,ut表示注意力得分,通过神经网络训练得到,计算公式为ut=tanh(Wtht+bt),Wt表示隐状态ht对应的权重,bt表示偏置项;计算隐状态和隐状态的权重的加权和,得到注意力向量为:
Figure BDA00030898183800001513
其中,
Figure BDA00030898183800001514
为注意力向量,将注意力向量作为隐状态加权和信息,L表示所述新闻内容的总字数。
新闻内容特征映射图获取模块308还用于将隐状态加权和信息输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对隐状态加权和信息进行滤波得到新闻内容特征映射图;新闻内容特征映射图中的项为:
yi=ReLU(Wm·Xi:i+m-1+bm)
其中,yi表示新闻内容特征映射图中的项;Xi:i+m-1表示隐状态加权和信息对应的矩阵X第i行到第i+m-1行的子矩阵,m表示子矩阵的行数;Wm表示与Xi:i+m-1对应的权重矩阵,bm表示偏置项;ReLU表示ReLU激活函数;
通过注意力机制计算新闻内容特征映射图中每个项的权重,得到新闻内容注意力向量为:
Figure BDA0003089818380000161
其中,
Figure BDA0003089818380000162
为新闻内容注意力向量,αi′表示yi对应的权重,且∑αi′=1;
将新闻内容注意力向量作为新闻内容特征加权和信息。
辅助信息特征映射图获取模块310还用于获取辅助信息;
将辅助信息预处理后得到的文本序列转换为辅助信息低维矢量对应的矩阵V;
将辅助信息低维矢量输入到基于注意力加权的CNN网络,通过CNN网络中不同粒度的滤波器对辅助信息低维矢量进行滤波,得到辅助信息特征映射图;辅助信息特征映射图中的项为:
zj=ReLU(Wn·Xj:j+n-1+bn)
其中,zj表示辅助信息特征映射图中的项;Xj:j+n-1表示隐状态加权和信息对应的矩阵V第j行到第j+n-1行的子矩阵,n表示子矩阵的行数;Wn表示与Xj:j+n-1对应的权重矩阵,bn表示偏置项;
通过注意力机制计算辅助信息特征映射图中每个项的权重,得到辅助信息注意力向量为:
Figure BDA0003089818380000163
其中,
Figure BDA0003089818380000164
为辅助信息注意力向量,αj″表示zj对应的权重,且∑αj″=1;
将辅助信息注意力向量作为辅助信息特征加权和信息。
预测虚假度获取模块312还用于将新闻内容特征加权和信息和辅助信息特征加权和信息进行融合,得到融合特征矩阵为:
Figure BDA0003089818380000171
其中,U表示融合特征矩阵;Y表示新闻内容特征加权和信息;Z表示辅助信息特征加权和信息;
将融合特征矩阵输入到全连接层进行检测,利用全连通层得到特征序列为:
rk=ReLU(WkUk+bk)
其中,rk表示特征序列;Wk为softmax权值矩阵,bk表示偏置项;
根据特征序列通过softmax函数得到新闻内容的预测虚假度为:
ck=softmax(rk)
其中,ck表示预测虚假度。
关于虚假新闻检测装置的具体限定可以参见上文中对于虚假新闻检测方法的限定,在此不再赘述。上述虚假新闻检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚假新闻检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种虚假新闻检测方法,其特征在于,所述方法包括:
获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息;
获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息;
将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵,将所述融合特征矩阵输入到所述全连接层进行检测,通过激活函数得到所述新闻内容的预测虚假度;
根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
2.根据权利要求1所述的方法,其特征在于,所述通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量包括:
通过词嵌入生成部分的GloVe算法或word2vec算法,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。
3.根据权利要求1所述的方法,其特征在于,将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息包括:
将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络;
通过双向GRU网络获得所述新闻内容低维矢量序列的前字特征和后字特征;所述前字特征由前向GRU计算得到,所述后字特征由后项GRU计算得到;
所述前字特征为:
Figure FDA0003089818370000021
其中,ht-1表示t-1时刻的隐状态;vt表示t时刻时间步骤;
Figure FDA0003089818370000022
表示所述前字特征;
Figure FDA0003089818370000023
表示GRU针对前字
Figure FDA0003089818370000024
进行处理;
所述后字特征为:
Figure FDA0003089818370000025
其中,
Figure FDA0003089818370000026
表示所述后字特征;
Figure FDA0003089818370000027
表示GRU针对后字
Figure FDA0003089818370000028
进行处理;
将所述前字特征和所述后字特征并串联,得到当前时刻的隐状态为:
Figure FDA0003089818370000029
其中,ht表示当前t时刻的隐状态;
根据所有时间步骤的所述隐状态,得到全局信息矩阵;
通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息。
4.根据权利要求3所述的方法,其特征在于,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息包括:
通过机器学习算法得到所述全局信息矩阵中每个隐状态的权重为:
Figure FDA00030898183700000210
其中,ut表示注意力得分,通过神经网络训练得到,计算公式为ut=tanh(Wtht+bt),Wt表示隐状态ht对应的权重,bt表示偏置项;
计算所述隐状态和所述隐状态的权重的加权和,得到隐状态注意力向量为:
Figure FDA0003089818370000031
其中,
Figure FDA0003089818370000032
为所述隐状态注意力向量,L表示所述新闻内容的总字数;
将所述隐状态注意力向量作为所述隐状态加权和信息。
5.根据权利要求4所述的方法,其特征在于,将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图,通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容特征加权和信息包括:
将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图;所述新闻内容特征映射图中的项为:
yi=ReLU(Wm·Xi:i+m-1+bm)
其中,yi表示所述新闻内容特征映射图中的项;Xi:i+m-1表示所述隐状态加权和信息对应的矩阵X第i行到第i+m-1行的子矩阵,m表示所述子矩阵的行数;Wm表示与Xi:i+m-1对应的权重矩阵,bm表示偏置项;ReLU表示ReLU激活函数;
通过注意力机制计算所述新闻内容特征映射图中每个项的权重,得到新闻内容注意力向量为:
Figure FDA0003089818370000033
其中,
Figure FDA0003089818370000034
为所述新闻内容注意力向量,α′i表示yi对应的权重,且∑α′i=1;
将所述新闻内容注意力向量作为新闻内容特征加权和信息。
6.根据权利要求5所述的方法,其特征在于,获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图,通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息特征加权和信息包括:
获取辅助信息;
将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量对应的矩阵V;
将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波,得到辅助信息特征映射图;所述辅助信息特征映射图中的项为:
zj=ReLU(Wn·Xj:j+n-1+bn)
其中,zj表示所述辅助信息特征映射图中的项;Xj:j+n-1表示所述隐状态加权和信息对应的矩阵V第j行到第j+n-1行的子矩阵,n表示所述子矩阵的行数;Wn表示与Xj:j+n-1对应的权重矩阵,bn表示偏置项;
通过注意力机制计算所述辅助信息特征映射图中每个项的权重,得到辅助信息注意力向量为:
Figure FDA0003089818370000041
其中,
Figure FDA0003089818370000042
为所述辅助信息注意力向量,α″j表示zj对应的权重,且∑α″j=1;
将所述辅助信息注意力向量作为辅助信息特征加权和信息。
7.根据权利要求1所述的方法,其特征在于,将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵,将所述融合特征矩阵输入到所述全连接层进行检测,通过激活函数得到所述新闻内容的预测虚假度,还包括:
将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合,得到融合特征矩阵为:
Figure FDA0003089818370000043
其中,U表示所述融合特征矩阵;Y表示所述新闻内容特征加权和信息;Z表示所述辅助信息特征加权和信息;
将所述融合特征矩阵输入到所述全连接层进行检测,利用全连通层得到特征序列为:
rk=ReLU(WkUk+bk)
其中,rk表示所述特征序列;Wk为softmax权值矩阵,bk表示偏置项;
根据所述特征序列通过softmax函数得到所述新闻内容的预测虚假度为:
ck=softmax(rk)
其中,ck表示所述预测虚假度。
8.一种虚假新闻检测装置,其特征在于,所述装置包括:
新闻内容获取模块,用于获取新闻内容,将所述新闻内容输入到虚假新闻检测模型中,所述虚假新闻检测模型包括:词嵌入生成部分、基于注意力加权的双向GRU网络、基于注意力加权的CNN网络,以及全连接层;
新闻内容低维矢量获取模块,用于通过词嵌入生成部分,将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量;
隐状态加权和信息获取模块,用于将所述新闻内容低维矢量输入到所述基于注意力加权的双向GRU网络,通过双向GRU网络得到全局信息矩阵,通过注意力机制计算所述全局信息矩阵中每个项的权重,得到隐状态加权和信息;
新闻内容特征映射图获取模块,用于将所述隐状态加权和信息输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波,得到新闻内容特征映射图;
辅助信息特征映射图获取模块,用于获取辅助信息,将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量,将所述辅助信息低维矢量输入到所述基于注意力加权的CNN网络,通过所述CNN网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波,得到辅助信息特征映射图;
预测虚假度获取模块,用于通过注意力机制计算所述新闻内容特征映射图和所述辅助信息低维矢量特征映射图中每个项的权重,得到注意加权特征图,将所述注意加权特征图输入到所述全连接层,通过激活函数得到所述新闻内容的预测虚假度;
训练和使用模块,用于根据预先构建的损失函数和所述预测虚假度,对所述虚假新闻检测模型进行训练,得到训练好的虚假新闻检测模型,通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110592713.1A 2021-05-28 2021-05-28 一种虚假新闻检测方法、装置、计算机设备和存储介质 Active CN113177110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110592713.1A CN113177110B (zh) 2021-05-28 2021-05-28 一种虚假新闻检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110592713.1A CN113177110B (zh) 2021-05-28 2021-05-28 一种虚假新闻检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113177110A true CN113177110A (zh) 2021-07-27
CN113177110B CN113177110B (zh) 2022-09-16

Family

ID=76927213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592713.1A Active CN113177110B (zh) 2021-05-28 2021-05-28 一种虚假新闻检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113177110B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574261A (zh) * 2023-10-19 2024-02-20 重庆理工大学 一种多领域虚假新闻读者认知检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
KR20200071821A (ko) * 2018-11-30 2020-06-22 고려대학교 산학협력단 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN112241456A (zh) * 2020-12-18 2021-01-19 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法
CN112527959A (zh) * 2020-12-11 2021-03-19 重庆邮电大学 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071821A (ko) * 2018-11-30 2020-06-22 고려대학교 산학협력단 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN112527959A (zh) * 2020-12-11 2021-03-19 重庆邮电大学 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN112241456A (zh) * 2020-12-18 2021-01-19 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱烨等: "最近邻注意力和卷积神经网络的文本分类模型", 《小型微型计算机系统》 *
楼靓: "社交网络虚假新闻识别方法", 《浙江交通职业技术学院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574261A (zh) * 2023-10-19 2024-02-20 重庆理工大学 一种多领域虚假新闻读者认知检测方法

Also Published As

Publication number Publication date
CN113177110B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN110598779B (zh) 摘要描述生成方法、装置、计算机设备和存储介质
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
Li et al. Discourse parsing with attention-based hierarchical neural networks
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN106068520A (zh) 个性化的机器学习模型
WO2020205049A1 (en) N-ary relation prediction over text spans
Zhang et al. Deep autoencoding topic model with scalable hybrid Bayesian inference
CN111180086B (zh) 数据匹配方法、装置、计算机设备和存储介质
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN110472049A (zh) 疾病筛查文本分类方法、计算机设备和可读存储介质
CN110457471A (zh) 基于A-BiLSTM神经网络的文本分类方法和装置
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113177110B (zh) 一种虚假新闻检测方法、装置、计算机设备和存储介质
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
Attia et al. Efficient deep learning models based on tension techniques for sign language recognition
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置
CN115827877A (zh) 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
Bajaber et al. Evaluation of Deep Learning Models for Person Authentication Based on Touch Gesture.
CN115689981A (zh) 基于信息融合的肺部图像检测方法、装置及存储介质
CN111476035B (zh) 中文开放关系预测方法、装置、计算机设备和存储介质
CN114913448A (zh) 视频理解方法、装置、设备、存储介质和计算机程序产品
Boddu et al. Novel heuristic recurrent neural network framework to handle automatic telugu text categorization from handwritten text image
Chandrasekar et al. A dexterous feature selection artificial immune system algorithm for keystroke dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant