CN111061843B - 一种知识图谱引导的假新闻检测方法 - Google Patents
一种知识图谱引导的假新闻检测方法 Download PDFInfo
- Publication number
- CN111061843B CN111061843B CN201911369712.XA CN201911369712A CN111061843B CN 111061843 B CN111061843 B CN 111061843B CN 201911369712 A CN201911369712 A CN 201911369712A CN 111061843 B CN111061843 B CN 111061843B
- Authority
- CN
- China
- Prior art keywords
- news
- text
- word
- entity
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种知识图谱引导的假新闻检测方法,包括:步骤1、基于假新闻检测数据集,构建知识图谱作为假新闻检测的背景知识,并预训练知识图谱嵌入模型;步骤2、抽取待检测新闻文本中的实体,并连接到知识图谱;步骤3、基于新闻文本与实体,获取新闻文本的词级别增强表示,并基于注意力机制提取新闻文本词级别特征;步骤4、获取新闻文本字级别表示,基于注意力机制抽取新闻文本字级别特征;步骤5、基于实体注意力模型,抽取新闻文本中的实体特征;步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征,对待检测新闻文本进行真实性检测。本发明引入知识图谱来引导深度学习模型进行假新闻检测,提高了模型识别准确率与泛化性能。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种知识图谱引导的假新闻检测方法。
背景技术
假新闻是一种有意且确实是虚假的新闻,可能会误导读者。近年来,随着互联网技术和社交网络的发展,互联网已经成为人们获取新闻信息的主要来源,随之产生的假新闻也成为近年来最热门的社会政治话题之一,并且在“美国大选”和“脱欧”之后受到特别关注。假新闻具有成本低、易于获取和快速传播的特点,容易误导公众舆论扰、乱社会秩序以及破坏社交媒体的信誉。因此需要研究假新闻检测,建立一个科学合理、行之有效、高效准确的假新闻检测发放,来对互联网中的假新闻进行有效的检测,达到快速准确识别假新闻的作用。这对于维护社会稳定和谐、提高社交媒体的信誉、心造科学安全的互联网环境具有十分积极的意义。
对于传统的假新闻检测模型,一部分研究从文本本身提取包括文本风格、情感特征等各种特征,并训练分类器来对新闻文本进行分类;一部分研究利用事实检测来进行假新闻的检测,主要是检测新闻内容与事实信息的冲突来判定新闻内容的真实性;一部分研究把假新闻检测任务当作普通的文本分类任务,使用深度学习模型对新闻文本本身抽取特征并进行分类。
发明人在研究假新闻检测的时候发现,现有方法都局限于从新闻文本本身抽取特征,而缺乏外部先验知识的引入。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种知识图谱引导的假新闻检测方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种知识图谱引导的假新闻检测方法,该方法包括以下步骤:
步骤1、基于假新闻检测数据集,构建知识图谱作为假新闻检测的背景知识,并预训练知识图谱嵌入模型;
步骤2、抽取待检测新闻文本中的实体,并连接到知识图谱;
步骤3、基于新闻文本与实体,获取新闻文本的词级别增强表示,并基于注意力机制提取新闻文本词级别特征;
步骤4、获取新闻文本字级别表示,并基于注意力机制抽取新闻文本字级别特征;
步骤5、基于实体注意力模型,抽取新闻文本中的实体特征;
步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征,对待检测新闻文本进行真实性检测。
进一步地,本发明的步骤1的具体方法为:
步骤1.1、获取假新闻检测任务的数据集,利用命名体识别模型与实体链接模型抽取数据集中的实体,并将实体链接到开源知识图谱中,将抽取出的实体作为种子节点,利用广度优先遍历算法在开源知识谱图中获取一个子图谱作为假新闻检测模型的先验知识;知识图谱记为G={(s,p,o)},其中(s,p,o)为三元组,s和o为实体,p为实体之间的关系;
步骤1.2、预训练图谱嵌入模型;利用步骤1.1中构建的知识图谱,使用TransE模型来预训练知识图谱嵌入模型,预训练的知识图谱嵌入模型记为Mkge。
进一步地,本发明的步骤1.2中预训练知识图谱嵌入模型的具体方法为:
对于每一个三元组(s,p,o),将嵌入结果表示为(h,r,t),嵌入模型对每一个三元组嵌入结果设计一个得分函数:
模型的损失函数如下:
其中,(h,r,t)∈S表示正样本三元组集合,(h′,r,t′)∈S′表示负样本三元组集合。
进一步地,本发明的步骤2的具体方法为:
步骤2.1、使用预训练的命名体识别模型与实体链接模型抽取出待检测新闻文本中的实体,并链接到知识图谱;实体集合记为E={e1,e2,...,em}。
进一步地,本发明的步骤3的具体方法为:
步骤3.1、对新闻文本进行分词,新闻文本词序列表示为:
W={w1,w2,...,wn}
并利用词嵌入模型获取文本词向量矩阵:
其中,表示第i个词的词向量,/>是向量拼接操作;
步骤3.2、获取词序列的位置信息,并计算词序列的位置编码;
位置编码计算方式如下:
其中,pos表示词在句子中的位置信息,dw表示词向量的维度,i表示词向量的位置信息。第i个词Wi对应的位置编码记为对应词序列的位置编码矩阵记为:
步骤3.3、拼接词序列的词向量与位置编码,词Wi的表示更新为:
获取词序列的位置信息,并计算词序列的位置编码。
步骤3.4,使用自注意力模型计算词级别的表示结果,计算公式如下:
其中,WQ、WK、WV为参数矩阵,dk为归一化参数;
步骤3.5、融合词级别表示结果与实体表示结果,获取文本基于知识图谱的增强表示。利用预训练的图谱嵌入模型获取文本实体向量矩阵融合与/>获取增强表示,对于被识别为实体的词,其增强表示计算公式为对于非实体的词,增强表示计算公式如下新闻文本基于知识图谱的词级别的增强表示记为
步骤3.6、使用双向长短期记忆模型(BiLSTM),对新闻文本的词级别表示结果进行编码。长短期记忆模型(LSTM)模型可以更好的捕捉到较长距离的依赖关系。LSTM在每个时刻拥有一个隐藏状态作为输出,输入为上一时刻的隐藏状态以及当前时刻的词。向前LSTM公式表示为:
BiLSTM由向前LSTM与向后LSTM组成,输出的隐藏状态分别表示为拼接两个输出作为BiLSTM的输出/>
步骤3.7、计算每个词的注意力权重;文本中每个词对于假新闻判别任务的重要程度并不相同,注意力权重越大,表明其越重要;首先使用一个线性变化:在线性变化的基础上,每个单词的注意力权重计算如下:
步骤3.8、对编码结果进行注意力加权求和,计算新闻文本的词级别特征:
进一步地,本发明的步骤4的具体方法为:
步骤4.1、获取新闻文本字级别的表示;新闻文本的字序列记为C={c1,c2,...,cl},利用预训练的字嵌入模型,获取新闻文本的字向量矩阵:
步骤4.2、与计算新闻文本的词级别特征相同,利用BiLSTM与注意力机制计算新闻文本的字级别特征;字级别的BiLSTM编码结果表示为注意力权重表示为/>新闻文本字级别的特征表示为/>
进一步地,本发明的步骤5的具体方法为:
步骤5.1、计算新闻文本实体注意力权重,对于新闻文本的实体表示矩阵首先计算两两实体之间的注意力影响值/>aij表示实体j对实体i的注意力影响值,Wa和ba是模型的参数,σ是一个sigmoid激活函数;
步骤5.2、计算每个实体的注意力权重,实体i的注意力权重利用实体注意力权重加权实体向量矩阵,新的实体向量矩阵表示为:/>
步骤5.3、使用文本卷积神经网络提取新闻文本的实体特征,
进一步地,本发明的步骤5中卷积神经网络的具体方法为:
步骤5.3、使用不同大小的卷积核对实体向量矩阵进行卷积,卷积操作的定义如下:
其中,是一个卷积操作的结果,Wc是卷积核参数矩阵,bc卷积偏差值,h是卷积核的窗口大小,tanh是激活函数;对于每一个卷积核,实体向量矩阵的卷积结果表示为:
步骤5.4、对于卷积结果使用最大池化提取特征图,最大池化操作如下:
步骤5.5、使用三个卷积核,窗口h大小分别设置为2、3、4,提取出三个卷积核对应的特征向量,拼接特征向量作为新闻文本的实体向量
进一步地,本发明的步骤6的具体方法为:
步骤6.1、融合新闻文本的词级别特征fw、字级别特征fc、实体特征fe,待检测新闻文本的特征表示为
步骤6.2、对于问文本特征f,利用全链接层与softmax判别新闻文本真实性。
进一步地,本发明的步骤6.2中判别新闻文本真实性的具体方法为:
步骤6.2.1、对于文本特征f,使用全链接层计算新闻文本的分类概率,全链接层表示为:
P=[pf,pt]=σ(fWf+b)
其中,Wf、b为参数矩阵与偏置变量,σ为激活函数;P是一个二维向量,pf,pt分别表示新闻文本为假的概率与为真的概率;
步骤6.2.2、对于新闻文本的分类概率P=[pf,pt],使用softmax进行归一化;其公式为:
P′=[p′f,p′t]
步骤6.2.3、根据归一化的分类概率P′=[p′f,p′t],输出新闻文本的分类结果。
本发明产生的有益效果是:本发明的知识图谱引导的假新闻检测方法,该方法通过引入知识图谱作为先验知识,并结合深度学习模型来引导模型进行假新闻的检测。模型通过对文本进行命名体识别来引入知识图谱三元组作为先验的额外知识,在一般的文本表示上结合实体表示进行文本增强表示,并基于注意力机制与序列模型提取文本词级别增强表示的特征,同时设计实体注意力模型结合文本卷积模型提取实体级别特征,使用两种特征结合字级别的特征,融合三种特征来判断新闻的真实性
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明中实施流程图。
图2是本发明中知识图谱构建流程图
图3是本发明中文本词级别特征抽取流程图。
图4是本发明中文本字级别特征抽取流程图。
图5是本发明中文本实体特征抽取流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明针对现有假新闻检测方法不能引入额外先验知识的缺点,通过引入知识图谱作为先验知识,结合深度学习模型,使用知识图谱引导深度学习模型检测假新闻。
如图1所示,本发明实施例的知识图谱引导的假新闻检测方法,包括如下步骤:
首先,获取假新闻检测任务的数据集,利用命名体识别模型与实体链接模型抽取数据集中的实体,并将实体链接到开源知识图谱中,将抽取出的实体作为种子节点,利用广度优先遍历算法在开源知识谱图中获取一个子图谱作为假新闻检测模型的先验知识,并利用知识图谱预训练一个知识图谱嵌入模型。其流程图如图2所示。
抽取待检测文本中的实体,利用预训练的预训练的命名体识别模型与实体链接模型,抽取出待检测新闻文本中的实体,实体集合记为E。
对新闻文本进行词嵌入与实体嵌入,并融合两种嵌入作为新闻文本增强表示,然后利用注意力机制与双向长短期记忆模型,提取新闻文本词级别特征,其流程如图3所示。利用预训练的嵌入模型,获取新闻文本的词嵌入结果与实体嵌入结果/>使用字注意力模型获取词表示特征图融合/>与/>获获得文本基于知识图谱的增强表示
利用双向长短期记忆模型对增强表示结果进行编码,获得每个词对应编码结果使用注意力机制计算每个词的注意力权重/>对编码结果进行加权求和,获得文本增强表示的词级别的特征/>
对新闻文本进行字嵌入,然后利用注意力机制与双向长短期记忆模型,提取新闻文本字级别特征。其流程如图4所示,利用预训练的字嵌入模型,获取文本的字向量矩阵使用双向长短期记忆模型对字向量矩阵编码,表示为/>使用注意力模型计算注意力权重,表示为/>加权求和获得文本字级别特征/>
利用预训练知识图谱嵌入模型,对待检测文本中提取的实体进行向量表示,使用实体注意力模型与文本卷积神经网络提取文本实体特征,其流程如图5所示。首先抽取文本中的实体,并利用预训练的知识图谱嵌入模型获取文本实体向量矩阵
设计实体注意力模型计算实体的注意力权重
更新每个实体的表示向量最后利用文本卷积神经网络提取文本实体特征/>
融合新闻文本的词级别特征fw、字级别特征fc、实体特征fe,获取知识图谱引导的新闻文本特征利用全链接层与softmax判别新闻文本真实性。
判别新闻文本真实性的具体方法为:
对于文本特征f,使用全链接层计算新闻文本的分类概率,全链接层表示为:
P=[pf,pt]=σ(fWf+b)
其中,Wf、b为参数矩阵与偏置变量,σ为激活函数;P是一个二维向量,pf,pt分别表示新闻文本为假的概率与为真的概率;
对于新闻文本的分类概率P=[pf,pt],使用softmax进行归一化;其公式为:
P′=[p′f,p′t]
根据归一化的分类概率P′=[p′f,p′t],输出新闻文本的分类结果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种知识图谱引导的假新闻检测方法,其特征在于,该方法包括以下步骤:
步骤1、基于假新闻检测数据集,构建知识图谱作为假新闻检测的背景知识,并预训练知识图谱嵌入模型;
步骤2、抽取待检测新闻文本中的实体,并连接到知识图谱;
步骤3、基于新闻文本与实体,获取新闻文本的词级别增强表示,并基于注意力机制提取新闻文本词级别特征;
步骤4、获取新闻文本字级别表示,并基于注意力机制抽取新闻文本字级别特征;
步骤5、基于实体注意力模型,抽取新闻文本中的实体特征;
步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征,对待检测新闻文本进行真实性检测;
步骤3的具体方法为:
步骤3.1、对新闻文本进行分词,新闻文本词序列表示为:
W={w1,w2,...,wn}
并利用词嵌入模型获取文本词向量矩阵:
其中,表示第i个词的词向量,/>是向量拼接操作;
步骤3.2、获取词序列的位置信息,并计算词序列的位置编码;对应词序列的位置编码矩阵记为: 表示第i个词的位置向量;
步骤3.3、拼接词序列的词向量与位置编码,词wi的表示更新为:
步骤3.4,使用自注意力模型计算词级别的表示结果,计算公式如下:
其中,WQ、WK、WV为参数矩阵,dk为归一化参数;
步骤3.5、融合词级别表示结果与实体表示结果,获取文本基于知识图谱的增强表示;利用预训练的图谱嵌入模型获取文本实体向量矩阵融合/>与获取增强表示,对于被识别为实体的词,其增强表示计算公式为对于非实体的词,增强表示计算公式如下新闻文本基于知识图谱的词级别的增强表示记为
步骤3.6、使用双向长短期记忆模型BiLSTM,对新闻文本的词级别表示结果进行编码;长短期记忆模型LSTM能捕捉长距离的依赖关系;LSTM在每个时刻拥有一个隐藏状态作为输出,输入为上一时刻的隐藏状态以及当前时刻的词;向前LSTM每一个状态的输出表示为BiLSTM由向前LSTM与向后LSTM组成,输出的隐藏状态分别表示为/>拼接两个输出作为BiLSTM的输出/>
步骤3.7、计算每个词的注意力权重;文本中每个词对于假新闻判别任务的重要程度并不相同,注意力权重越大,表明其越重要;首先使用一个线性变化:在线性变化的基础上,每个单词的注意力权重计算如下:
步骤3.8、对编码结果进行注意力加权求和,计算新闻文本的词级别特征:
2.根据权利要求1所述的知识图谱引导的假新闻检测方法,其特征在于,步骤1的具体方法为:
步骤1.1、获取假新闻检测任务的数据集,利用命名体识别模型与实体链接模型抽取数据集中的实体,并将实体链接到开源知识图谱中,将抽取出的实体作为种子节点,利用广度优先遍历算法在开源知识谱图中获取一个子图谱作为假新闻检测模型的先验知识;知识图谱记为G={(s,p,o)},其中(s,p,o)为三元组,s和o为实体,p为实体之间的关系;
步骤1.2、预训练图谱嵌入模型;利用步骤1.1中构建的知识图谱,使用TransE模型来预训练知识图谱嵌入模型,预训练的知识图谱嵌入模型记为Mkge。
3.根据权利要求2所述的知识图谱引导的假新闻检测方法,其特征在于,步骤1.2中预训练知识图谱嵌入模型的具体方法为:
对于每一个三元组(s,p,o),将嵌入结果表示为(h,r,t),嵌入模型对每一个三元组嵌入结果设计一个得分函数:
模型的损失函数如下:
其中,(h,r,t)∈S表示正样本三元组集合,(h′,r,t′)∈S′表示负样本三元组集合。
4.根据权利要求1所述的知识图谱引导的假新闻检测方法,其特征在于,步骤2的具体方法为:
步骤2.1、使用预训练的命名体识别模型与实体链接模型抽取出待检测新闻文本中的实体,并链接到知识图谱;实体集合记为E={e1,e2,...,em}。
5.根据权利要求1所述的知识图谱引导的假新闻检测方法,其特征在于,步骤4的具体方法为:
步骤4.1、获取新闻文本字级别的表示;新闻文本的字序列记为C={c1,c2,...cl},利用预训练的字嵌入模型,获取新闻文本的字向量矩阵:
步骤4.2、与计算新闻文本的词级别特征相同,利用BiLSTM与注意力机制计算新闻文本的字级别特征;字级别的BiLSTM编码结果表示为注意力权重表示为/>新闻文本字级别的特征表示为/>
6.根据权利要求5所述的知识图谱引导的假新闻检测方法,其特征在于,步骤5的具体方法为:
步骤5.1、计算新闻文本实体注意力权重,对于新闻文本的实体表示矩阵首先计算两两实体之间的注意力影响值/>aij表示实体j对实体i的注意力影响值,Wc和ba是模型的参数,σ是一个sigmoid激活函数;
步骤5.2、计算每个实体的注意力权重,实体i的注意力权重利用实体注意力权重加权实体向量矩阵,新的实体向量矩阵表示为:
步骤5.3、使用文本卷积神经网络提取新闻文本的实体特征,
7.根据权利要求6所述的知识图谱引导的假新闻检测方法,其特征在于,步骤5中卷积神经网络的具体方法为:
步骤5.3、使用不同大小的卷积核对实体向量矩阵进行卷积,卷积操作的定义如下:
其中,是一个卷积操作的结果,Wc是卷积核参数矩阵,bc卷积偏差值,h是卷积核的窗口大小,tanh是激活函数;对于每一个卷积核,实体向量矩阵的卷积结果表示为:
步骤5.4、对于卷积结果使用最大池化提取特征图,最大池化操作如下:
步骤5.5、使用三个卷积核,窗口h大小分别设置为2、3、4,提取出三个卷积核对应的特征向量,拼接特征向量作为新闻文本的实体向量
8.根据权利要求1所述的知识图谱引导的假新闻检测方法,其特征在于,步骤6的具体方法为:
步骤6.1、融合新闻文本的词级别特征fw、字级别特征fc、实体特征fe,待检测新闻文本的特征表示为
步骤6.2、对于问文本特征f,利用全链接层与softmax判别新闻文本真实性。
9.根据权利要求8所述的知识图谱引导的假新闻检测方法,其特征在于,步骤6.2中判别新闻文本真实性的具体方法为:
步骤6.2.1、对于文本特征f,使用全链接层计算新闻文本的分类概率,全链接层表示为:
P=[pf,pt]=σ(fWf+b)
其中,Wf、b为参数矩阵与偏置变量,σ为激活函数;P是一个二维向量,pf,pt分别表示新闻文本为假的概率与为真的概率;
步骤6.2.2、对于新闻文本的分类概率P=[pf,pt],使用softmax进行归一化;其公式为:
P′=[p′f,p′t]
步骤6.2.3、根据归一化的分类概率P′=[p′f,p′t],输出新闻文本的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369712.XA CN111061843B (zh) | 2019-12-26 | 2019-12-26 | 一种知识图谱引导的假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369712.XA CN111061843B (zh) | 2019-12-26 | 2019-12-26 | 一种知识图谱引导的假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061843A CN111061843A (zh) | 2020-04-24 |
CN111061843B true CN111061843B (zh) | 2023-08-25 |
Family
ID=70302946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911369712.XA Active CN111061843B (zh) | 2019-12-26 | 2019-12-26 | 一种知识图谱引导的假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061843B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581980B (zh) * | 2020-05-06 | 2022-08-16 | 西安交通大学 | 基于决策树与共同注意力协作的假新闻检测系统及方法 |
CN111666373A (zh) * | 2020-05-07 | 2020-09-15 | 华东师范大学 | 一种基于Transformer的中文新闻分类方法 |
CN113723605A (zh) * | 2020-05-26 | 2021-11-30 | 株式会社理光 | 实体链接方法、装置及可读存储介质 |
CN117010446A (zh) * | 2020-08-21 | 2023-11-07 | 三峡大学 | 采用自注意力生成器和BiLSTM判别器的谣言检测方法 |
CN112100515B (zh) * | 2020-09-04 | 2023-07-07 | 西北工业大学 | 一种用于社交媒体中假消息的检测方法 |
CN112597298A (zh) * | 2020-10-14 | 2021-04-02 | 上海勃池信息技术有限公司 | 融合知识图谱的深度学习文本分类方法 |
CN112182227A (zh) * | 2020-10-22 | 2021-01-05 | 福州大学 | 基于transD知识图嵌入的文本情感分类系统及方法 |
CN112328859B (zh) * | 2020-11-05 | 2022-09-20 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN112347268B (zh) * | 2020-11-06 | 2024-03-19 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112528040B (zh) * | 2020-12-16 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于知识图谱的引导教唆语料的检测方法及其相关设备 |
CN112241456B (zh) * | 2020-12-18 | 2021-04-27 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN112800239B (zh) * | 2021-01-22 | 2024-04-12 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN113157913A (zh) * | 2021-01-30 | 2021-07-23 | 暨南大学 | 一种基于社会新闻数据集的伦理行为判别方法 |
CN113963357B (zh) * | 2021-12-16 | 2022-03-11 | 北京大学 | 基于知识图谱的敏感文本检测方法及系统 |
CN114328765B (zh) * | 2022-03-04 | 2022-05-31 | 四川大学 | 新闻传播预测方法及装置 |
CN114840771B (zh) * | 2022-03-04 | 2023-04-28 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN115936737B (zh) * | 2023-03-10 | 2023-06-23 | 云筑信息科技(成都)有限公司 | 一种确定建材真伪的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241727A (zh) * | 2017-09-01 | 2018-07-03 | 新华智云科技有限公司 | 新闻可信度评价方法及设备 |
WO2019050968A1 (en) * | 2017-09-05 | 2019-03-14 | Forgeai, Inc. | METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
KR20190107832A (ko) * | 2018-03-13 | 2019-09-23 | 국민대학교산학협력단 | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959328B (zh) * | 2017-05-27 | 2021-12-21 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
-
2019
- 2019-12-26 CN CN201911369712.XA patent/CN111061843B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241727A (zh) * | 2017-09-01 | 2018-07-03 | 新华智云科技有限公司 | 新闻可信度评价方法及设备 |
WO2019050968A1 (en) * | 2017-09-05 | 2019-03-14 | Forgeai, Inc. | METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA |
KR20190107832A (ko) * | 2018-03-13 | 2019-09-23 | 국민대학교산학협력단 | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Non-Patent Citations (1)
Title |
---|
Chaitra K Hiramath.Fake News Detection Using Deep Learning Techniques.IEEE.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111061843A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN109583501B (zh) | 图片分类、分类识别模型的生成方法、装置、设备及介质 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN111126069B (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN112069397B (zh) | 自注意力机制与生成对抗网络相结合的谣言检测方法 | |
CN110083833B (zh) | 中文字词向量和方面词向量联合嵌入情感分析方法 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN103984943B (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111666588B (zh) | 一种基于生成对抗网络的情绪差分隐私保护方法 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN111914622A (zh) | 一种基于深度学习的人物交互检测方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN112182585B (zh) | 源代码漏洞检测方法、系统及存储介质 | |
CN114168732A (zh) | 文本的情感分析方法及其装置、计算设备与可读介质 | |
US20200387783A1 (en) | Fast Nearest Neighbor Search for Output Generation of Convolutional Neural Networks | |
CN112015901A (zh) | 文本分类方法及装置、警情分析系统 | |
CN110008699B (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN111309909A (zh) | 一种基于混合模型的文本情感分类方法 | |
CN115860152A (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |