CN112232058B - 基于深度学习三层语义抽取框架的假新闻识别方法及系统 - Google Patents
基于深度学习三层语义抽取框架的假新闻识别方法及系统 Download PDFInfo
- Publication number
- CN112232058B CN112232058B CN202011102128.0A CN202011102128A CN112232058B CN 112232058 B CN112232058 B CN 112232058B CN 202011102128 A CN202011102128 A CN 202011102128A CN 112232058 B CN112232058 B CN 112232058B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- news text
- feature
- capsule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了基于深度学习三层语义抽取框架的假新闻识别方法及系统,包括:获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;对含有上下文信息的字向量矩阵,提取若干个特征图;对所有的特征图,进行封装操作,得到最终融合特征;对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
Description
技术领域
本申请涉及互联网安全和深度学习技术领域,特别是涉及基于深度学习三层语义抽取框架的假新闻识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
以研究新闻的传播路径以及新闻的写作立场和风格是当前解决假新闻问题的主要形式。然而,随着新闻传播载体的多样化发展,新闻的发布越来越缺少合规性的监督,媒体或个人为了吸引大众眼球,经常对真实新闻文本进行夸大化加工处理,使新闻失去了其真实性。假新闻问题亟待一个行之有效的模型解决。
假新闻最初受到关注的时候,许多传统文本分类算法被提出来解决假新闻,比如朴素贝叶斯方法和支持向量机方法等,然而,仅使用传统分类方法或将现有事实信息与提取的文本内容信息进行匹配,又或者基于统计模型来检查新闻信息和已有知识库的匹配程度,即通过统计学的方法统计新闻中出现的特征词来判断一条新闻的真假,不仅需要巨大的语料库作为支持,而且由于没有考虑文本本身的语义信息,导致此类方法无法有效的对新闻做出真假判断。随着对假新闻的深入研究和深度学习技术的发展,研究人员认为假新闻往往具有鲜明的立场特色,于是有了大量的以冲突观点和新闻立场为着手点的新闻文体研究。然而,随着自媒体时代的到来,新闻文本缺乏新闻媒体的编辑规范和流程,无法确保信息的准确性和可信度。假新闻寄生在标准的新闻媒体上,既从它们的可信度中获益,又破坏它们的可信度。从信息的源头再融合用户的信誉信息来判断新闻的真假性的思路顺理成章,比如融合了自注意力机制的RNN网络和LSTM网络等,但是随着大数据时代的到来,通过捕获新闻的传播路径和研究用户的信用信息变得耗时耗力,不能具有时效性的分辨真假新闻。
假新闻领域的研究已经进行了很多年,普遍认为假新闻分类的实质是文本分类问题。但是,仅使用传统分类方法(例如随机森林和逻辑回归)或将现有事实信息与提取的文本内容信息进行匹配,或基于统计模型来检查信息的匹配程并不能保证检测结果的准确性。研究人员在研究2016年美国总统大选中出现的假新闻时发现假新闻通常具有鲜明的风格特征,同年,基于文体风格特征的假新闻检测技术迅速发展起来,促进了假新闻检测技术的发展。除了基于文体风格特征的方法外,在情感极性分析方面的工作,例如从新闻文本或新闻文本的评论中挖掘冲突观点信息来分类真假新闻的工作也取得了不错的进展。另一个研究方向是研究新闻传播网络,传播网络通常表示为树状或图状结构,网络中每个节点可以是转发器、可以代表转发该新闻的时间节点、也可以是转发器的数量和任何我们所关注的信息。在时间序列的基础上添加相关辅助的用户信息,例如用户的观点立场,用户的信用值,用户的关注兴趣点,用户关注的新闻主题和用户社交关系网络等,可以促进构建不同的传播网络模型,从而帮助伪造新闻检测。使用这些辅助信息确实可以帮助检测假新闻。然而,添加辅助信息将不可避免地导致处理速度降低,并且获得辅助信息的成本也非常庞大。
发明内容
为了解决现有技术的不足,本申请提供了基于深度学习三层语义抽取框架的假新闻识别方法及系统;在卷积神经网络提取的n-gram信息之上将胶囊网络应用到假新闻文本中以充分挖掘新闻文本的句法信息,以层级递进的方式最大限度地提取文本特征,以实现在仅有文本数据的条件下的精确识别、分类虚假新闻。
第一方面,本申请提供了基于深度学习三层语义抽取框架的假新闻识别方法;
基于深度学习三层语义抽取框架的假新闻识别方法,包括:
获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
对含有上下文信息的字向量矩阵,提取若干个特征图;
对所有的特征图,进行封装操作,得到最终融合特征;
对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
第二方面,本申请提供了基于深度学习三层语义抽取框架的假新闻识别系统;
基于深度学习三层语义抽取框架的假新闻识别系统,包括:
获取模块,其被配置为:获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
嵌入模块,其被配置为:将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
特征图提取模块,其被配置为:对含有上下文信息的字向量矩阵,提取若干个特征图;
封装模块,其被配置为:对所有的特征图,进行封装操作,得到最终融合特征;
输出模块,其被配置为:对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
针对中文假新闻分类问题,该方法能够逐层抽取、精炼和理解新闻中的语义和句法信息。
将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;字向量是字符级的词向量,它将人类对语言的理解与机器的理解连接起来,它相当于先让机器‘认识’、‘读’一遍输入的的新闻文本。字向量是文本在n维空间中的分布式表示,这些字向量表示了中文中字与字之间的隐式关系,我们利用了基于transformer的Bert模型训练得到了所输入新闻文本的字向量矩阵中的每一个字向量都通过字注意力机制(self-attention mechanism)融合了上下文信息,这为我们的系统后续理解输入的新闻文本奠定了基础,除此之外,我们还可以根据上下文信息微调预训练好的字向量以得到精准的字向量表达,使得系统在第一步‘读’的阶段能‘读’的准确。
对于现有技术中的句向量生成方式,更多的是采用word embedding的方式取加权平均,该方法有一个最大的弊端,那就是无法理解上下文的语义,同一个词在不同的语境意思可能不一样,但是却会被表示成同样的word embedding,Bert生成句向量的优点在于可理解句意,并且排除了词向量加权引起的误差。
对含有上下文信息的字向量矩阵,提取若干个特征图;卷积神经网络中的n-gram操作是根据选取的固定的n值和卷积步长,将刚刚‘读入’的新闻文本按照这个n值进行卷积得到的词段,也就是长度为n的子字符串,该操作能够学习到某个字的出现是否依赖与其他若干个字,当我们卷积的次数越来愈多时,卷积所获得特征图学到的信息就越多,相当于在丰富系统的‘阅历’和‘见识’,该操作不仅考虑到了句中字词之间的顺序关系,而且能学习到一个粗糙的联想关系,在系统中充当一个简单的分词器功能。
对所有的特征图,进行封装操作,得到最终融合特征;上一步得到的特征图可看作是一个粗糙的‘识词’过程,它不能识别部分(字词)与整体(整个新闻文本)之间的关系,所以我们首先将部分特征进行封装,再利用动态路由方法得到部分与整体之间的耦合关系,迭代三次后得到学习了部分与整体关系的最终融合特征,这使得我们的模型缓解了受限于特征序列中呈现的丰富结构的问题。因此,提高了编码序列空间顺序的效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵示意图;
图3为第一个实施例的对含有上下文信息的字向量矩阵,提取若干个特征图示意图;
图4为第一个实施例的整体模型框架图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于深度学习三层语义抽取框架的假新闻识别方法;
如图1所示,基于深度学习三层语义抽取框架的假新闻识别方法,包括:
S101:获取目标新闻文本;
S102:对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
S103:将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
S104:对含有上下文信息的字向量矩阵,提取若干个特征图;
S105:对所有的特征图,进行封装操作,得到最终融合特征;
S106:对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
作为一个或多个实施例,所述S101:获取目标新闻文本步骤之后,所述S102:对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量步骤之前,还包括:
判断目标新闻文本中是否存在噪音数据;如果存在噪音数据,则对目标新闻文本进行噪音数据去除处理。
示例性的,所述噪音数据,是指网络上的特殊符号,比如一些emoji和颜表情。
作为一个或多个实施例,所述S102:对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;具体步骤包括:
S1021:将目标新闻文本中的字,处理为token表示向量;
S1022:将目标新闻文本中的字,处理为segment表示向量;
S1023:将目标新闻文本中的字,处理为position表示向量;
S1024:将token表示向量、segment表示向量和position表示向量进行拼接,得到目标新闻文本的初始表示向量。
示例性的,将输入进模型的中文新闻文本样本(句子级)xi处理为token、segment和position三种嵌入表示xi t,xi s和xi p,预处理结果为xi=xi t+xi s+xi p。其中,输入文本的句长为l,输入样本可表示为xi=[x1,x2,……,xl]。
每一个token表示向量代表一个字。因为我们是利用Bert获得字向量的,而字向量是基于transformer结构的,对于transformer结构它是输入和输出的长度相等的,多以对于中文预训练模型的做法是将中文拆分成一个个的字来学习,因此一个token就是一个字。我们会建立一个索引字典,每一个字去索引字典里去查它对应的值,在字典里查找得到它对应的下标就是token,然后用该数字下标去lookup table(查找表)查找得到该词对应的词向量就是token embedding。
在Bert模型中,要指定输入的新闻文本中的每个token所归属的句子,(比如一条新闻有两句话,那么上一句话中的字的segment的标记都为1,下句话中的字的segment的标记都为0)。作用就是用segment向量的信息让模型把上下句分开。在上一步处理token向量时,会增加两个特殊token:[CLS]和[SEP],其中[CLS]标记代表句子的开始,[SEP]代表分割和结尾,这样就能获取字所归属的分句。
position表示向量代表了每个字token在该条新闻文本中的位置。position表示向量通过遍历获得。
作为一个或多个实施例,如图2所示,所述S103:将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;具体步骤包括:
将目标新闻文本每个字的初始表示向量,输入到Bert模型的tansformer编码器的自注意力机制单元,输出自注意力矩阵;
利用自注意力矩阵,将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵。
示例性的,利用transformer结构中编码器(Encoder)的自注意机制(Self-attention mechanism),通过自注意力矩阵Ai将输入文本xi中的每个汉字的上下文信息整合到字嵌入向量中,然后利用激活函数(relu)得到汉字嵌入矩阵Wi。
其中,句长为l的输入样本xi经过自注意力矩阵计算之后可以表示为Wi=[w1,w2,……,wl],其中,wi为样本中的字向量表示,每个字向量的维度为d,句长为l的字向量矩阵Wi的维度为l*d。
作为一个或多个实施例,如图3所示,所述S104:对含有上下文信息的字向量矩阵,提取若干个特征图;具体步骤包括:
对卷积神经网络的每个卷积层设置不同的卷积窗口大小;
利用不同的卷积核对含有上下文信息的字向量矩阵进行卷积操作,得到特征标量;将所有的特征标量组成特征列向量;将所有的特征列向量组成特征图。
示例性的,将含有上下文信息的字向量矩阵进行卷积操作,可以设置不同的卷积核窗口大小(slide size)h获取不同的特征图,得到特征Fi=[f1,f2,……,fl-h+1]。由n个不同参数的卷积核(filters)遍历的词向量嵌入矩阵得到的特征图为F=[F1,F2,……,Fn]。其中,fi是单次卷积核经过滑动窗口划过字向量矩阵后得到的特征标量,Fi是由l-h+1个特征标量组成的特征列向量,n个卷积核得到大小为n的特征图F。
作为一个或多个实施例,所述S105:对所有的特征图,进行封装操作,得到最终融合特征;具体步骤包括:
将所有的特征图输入到胶囊网络中;
通过仿射矩阵对特征图进行封装操作得到胶囊向量;
通过对胶囊向量进行卷积操作,得到卷积胶囊的特征图;
迭代卷积三次,得到最终融合特征。
示例性的,所述S105:对所有的特征图,进行封装操作,得到最终融合特征;具体步骤包括:
S1051:对得到的特征图F进行保留实例化参数的胶囊封装操作,通过m个卷积核(filters)通过仿射矩阵Wij对特征图F进行封装,即:uj|i=Wij*F得到胶囊向量uj|i,其中,i表示低层,j表示低层的下一层。
S1053:利用非线性激活函数squashing,将每一层的胶囊向量的长度挤压到[0,1]之间,作为这一层胶囊特征的被输出概率。
作为一个或多个实施例,所述S106:对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果;具体步骤包括:
通过全连接层,对最后一层胶囊层的向量进行分类,得到分类结果。
示例性的,通过全连接层,根据最后一层胶囊vj的向量长度的大小,作为最后的分类结果。
如图4所示,BERT模型、卷积神经网络、胶囊网络和全连接层依次串联,串联后作为新闻真假分类模型。
所述新闻真假分类模型的训练步骤包括:
构建训练集、测试集;所述训练集和测试集均为已知新闻真假判定结果的新闻文本初始表示向量;
将训练集输入到新闻真假分类模型的BERT模型中,BERT模型提取训练样本的含有上下文信息的字向量矩阵;
卷积神经网络对含有上下文信息的字向量矩阵进行特征提取,提取出特征图;
胶囊网络对特征图进行高层次特征提取,得到最终的特征表示向量;
全连接层,输出最终特征表示向量的分类结果;
当分类结果的准确度超过设定阈值时,停止训练,得到训练好的新闻真假分类模型。
首先,不同于英文,英文语言的最小单位字母是没有意义的,且英语文本天然由空格分开,因此一般模型和算法对英语语言的分析是以词为单位进行的的。而在中文中,几乎每个字都拥有一定的含义,因此在我们的模型设计中,我们以字向量作为模型输出的第一步产物,即我们从预先训练好的语言模型中提取汉字嵌入作为最底层特征。
其次,由于在中文中位置相邻的字之间有极大的概率作为一组词出现,因此,我们将输入文本映射为计算机可以理解的高维向量后,我们的模型的第二层通过不同窗口大小的卷积核对模型第一步输出的字向量进行一维卷积运算以获取n-gram特征图,得到个相邻特征之间的搭配信息,可作为下一步句法分析的浅层特征。
最后,为了捕获文本不同位置特征之间的句法关系,我们利用胶囊网络对获得的浅层特征进行层间聚类,共同挖掘语义和句法信息,在向量空间中可以反映出同一语境下特征词聚类的语言特征。
本发明公开了一种通用的虚假新闻分析系统的模型,包括字向量的表示,词特征的卷积和高层语义句法的整合分析。模型的三层架构中的第一层和第三层架构都可以进行优化和替代,字向量表示除了Bert模型,还可以替换为传统的word2vec工具,glove模型,或者AlBert等预训练模型;第三层的capsule网络也可进行替换,比如max-pooling、average-pooling和max-avg pooling操作。本发明在仅利用新闻文本而不利用其他辅助信息,如传播网络和用户信息等,实现了中文虚假新闻文本的分类问题。
实施例二
本实施例提供了基于深度学习三层语义抽取框架的假新闻识别系统;
基于深度学习三层语义抽取框架的假新闻识别系统,包括:
获取模块,其被配置为:获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
嵌入模块,其被配置为:将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
特征图提取模块,其被配置为:对含有上下文信息的字向量矩阵,提取若干个特征图;
封装模块,其被配置为:对所有的特征图,进行封装操作,得到最终融合特征;
输出模块,其被配置为:对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
此处需要说明的是,上述获取模块、嵌入模块、特征图提取模块、封装模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.基于深度学习三层语义抽取框架的假新闻识别方法,其特征是,包括:
获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
对含有上下文信息的字向量矩阵,提取若干个特征图;
对所有的特征图,进行封装操作,得到最终融合特征;
对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果;
对所有的特征图,进行封装操作,得到最终融合特征;具体步骤包括:
将所有的特征图输入到胶囊网络中;
通过仿射矩阵对特征图进行封装操作得到胶囊向量;对得到的特征图F进行保留实例化参数的胶囊封装操作,通过m个卷积核通过仿射矩阵Wij对特征图F进行封装,即:uj|i=Wij*F得到胶囊向量uj|i,其中,i表示低层,j表示低层的下一层;
通过对胶囊向量进行卷积操作,得到卷积胶囊的特征图;
利用非线性激活函数squashing,将每一层的胶囊向量的长度挤压到[0,1]之间,作为这一层胶囊特征的被输出概率。
2.如权利要求1所述的方法,其特征是,所述获取目标新闻文本步骤之后,所述对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量步骤之前,还包括:
判断目标新闻文本中是否存在噪音数据;如果存在噪音数据,则对目标新闻文本进行噪音数据去除处理。
3.如权利要求1所述的方法,其特征是,对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;具体步骤包括:
将目标新闻文本中的字,处理为token表示向量;
将目标新闻文本中的字,处理为segment表示向量;
将目标新闻文本中的字,处理为position表示向量;
将token表示向量、segment表示向量和position表示向量进行拼接,得到目标新闻文本的初始表示向量。
4.如权利要求1所述的方法,其特征是,将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;具体步骤包括:
将目标新闻文本每个字的初始表示向量,输入到BERT模型的tansformer编码器的自注意力机制单元,输出自注意力矩阵;
利用自注意力矩阵,将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵。
5.如权利要求4所述的方法,其特征是,对含有上下文信息的字向量矩阵,提取若干个特征图;具体步骤包括:
对卷积神经网络的每个卷积层设置不同的卷积窗口大小;
利用不同的卷积核对含有上下文信息的字向量矩阵进行卷积操作,得到特征标量;将所有的特征标量组成特征列向量;将所有的特征列向量组成特征图。
6.如权利要求1所述的方法,其特征是,BERT模型、卷积神经网络、胶囊网络和全连接层依次串联,串联后作为新闻真假分类模型;
新闻真假分类模型的训练步骤包括:
构建训练集、测试集;所述训练集和测试集均为已知新闻真假判定结果的新闻文本初始表示向量;
将训练集输入到新闻真假分类模型的BERT模型中,BERT模型提取训练样本的含有上下文信息的字向量矩阵;
卷积神经网络对含有上下文信息的字向量矩阵进行特征提取,提取出特征图;
胶囊网络对特征图进行高层次特征提取,得到最终的特征表示向量;
全连接层,输出最终特征表示向量的分类结果;
当分类结果的准确度超过设定阈值时,停止训练,得到训练好的新闻真假分类模型。
7.基于深度学习三层语义抽取框架的假新闻识别系统,其特征是,包括:
获取模块,其被配置为:获取目标新闻文本;对目标新闻文本进行向量化处理,得到目标新闻文本每个字的初始表示向量;
嵌入模块,其被配置为:将目标新闻文本每个字的上下文信息嵌入到每个字的初始表示向量中,得到含有上下文信息的字向量矩阵;
特征图提取模块,其被配置为:对含有上下文信息的字向量矩阵,提取若干个特征图;
封装模块,其被配置为:对所有的特征图,进行封装操作,得到最终融合特征,具体步骤包括:
将所有的特征图输入到胶囊网络中;
通过仿射矩阵对特征图进行封装操作得到胶囊向量;对得到的特征图F进行保留实例化参数的胶囊封装操作,通过m个卷积核通过仿射矩阵Wij对特征图F进行封装,即:uj|i=Wij*F得到胶囊向量uj|i,其中,i表示低层,j表示低层的下一层;
通过对胶囊向量进行卷积操作,得到卷积胶囊的特征图;
利用非线性激活函数squashing,将每一层的胶囊向量的长度挤压到[0,1]之间,作为这一层胶囊特征的被输出概率;
输出模块,其被配置为:对最终融合特征进行分类,得到目标新闻文本是否为假新闻的结果。
8.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102128.0A CN112232058B (zh) | 2020-10-15 | 2020-10-15 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102128.0A CN112232058B (zh) | 2020-10-15 | 2020-10-15 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232058A CN112232058A (zh) | 2021-01-15 |
CN112232058B true CN112232058B (zh) | 2022-11-04 |
Family
ID=74111821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011102128.0A Active CN112232058B (zh) | 2020-10-15 | 2020-10-15 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232058B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800355A (zh) * | 2021-01-19 | 2021-05-14 | 北京明略软件系统有限公司 | 新闻内容标签自动抽取方法及系统 |
CN113127599B (zh) * | 2021-03-02 | 2022-07-12 | 中国科学院信息工程研究所 | 一种层级对齐结构的问答立场检测方法及装置 |
CN113157936B (zh) * | 2021-03-16 | 2024-03-12 | 云知声智能科技股份有限公司 | 实体关系联合抽取方法、装置、电子设备和存储介质 |
CN113177562B (zh) * | 2021-04-29 | 2024-02-06 | 京东科技控股股份有限公司 | 基于自注意力机制融合上下文信息的向量确定方法及装置 |
CN113673247A (zh) * | 2021-05-13 | 2021-11-19 | 江苏曼荼罗软件股份有限公司 | 基于深度学习的实体识别方法、装置、介质及电子设备 |
CN113673704B (zh) * | 2021-07-05 | 2022-07-01 | 中国电子科技集团公司第十五研究所 | 一种基于软硬件协同加速的关系网络推理优化的方法 |
CN113806568B (zh) * | 2021-08-10 | 2023-11-03 | 中国人民大学 | 多媒体资源推荐方法、装置、电子设备及存储介质 |
CN113704472B (zh) * | 2021-08-30 | 2024-04-09 | 济南大学 | 基于主题记忆网络的仇恨和攻击性言论识别方法及系统 |
CN115100664B (zh) * | 2022-06-20 | 2024-04-09 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN114969269A (zh) * | 2022-06-23 | 2022-08-30 | 济南大学 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
CN116304745B (zh) * | 2023-03-27 | 2024-04-12 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6236980B1 (en) * | 1998-04-09 | 2001-05-22 | John P Reese | Magazine, online, and broadcast summary recommendation reporting system to aid in decision making |
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111475622A (zh) * | 2020-04-08 | 2020-07-31 | 广东工业大学 | 一种文本分类方法、装置、终端及存储介质 |
CN111666409A (zh) * | 2020-05-28 | 2020-09-15 | 武汉大学 | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 |
-
2020
- 2020-10-15 CN CN202011102128.0A patent/CN112232058B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6236980B1 (en) * | 1998-04-09 | 2001-05-22 | John P Reese | Magazine, online, and broadcast summary recommendation reporting system to aid in decision making |
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111475622A (zh) * | 2020-04-08 | 2020-07-31 | 广东工业大学 | 一种文本分类方法、装置、终端及存储介质 |
CN111666409A (zh) * | 2020-05-28 | 2020-09-15 | 武汉大学 | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 |
Non-Patent Citations (1)
Title |
---|
Detecting Fake News with Capsule Neural Networks;Mohammad Hadi Goldani;《arXiv》;20200205;正文第2-5节,图1-3 * |
Also Published As
Publication number | Publication date |
---|---|
CN112232058A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232058B (zh) | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 | |
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN116194912A (zh) | 使用图扩散变换器进行方面级情感分类的方法和系统 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
Jain et al. | Unconstrained scene text and video text recognition for arabic script | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN110232123B (zh) | 文本的情感分析方法及其装置、计算设备与可读介质 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
Benzebouchi et al. | Multi-classifier system for authorship verification task using word embeddings | |
Sridhar et al. | Fake news detection and analysis using multitask learning with BiLSTM CapsNet model | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
US11966455B2 (en) | Text partitioning method, text classifying method, apparatus, device and storage medium | |
Touati-Hamad et al. | Arabic quran verses authentication using deep learning and word embeddings | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
US20230130662A1 (en) | Method and apparatus for analyzing multimodal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |