CN114969269A - 基于实体识别和关系抽取的虚假新闻检测方法及系统 - Google Patents
基于实体识别和关系抽取的虚假新闻检测方法及系统 Download PDFInfo
- Publication number
- CN114969269A CN114969269A CN202210717098.7A CN202210717098A CN114969269A CN 114969269 A CN114969269 A CN 114969269A CN 202210717098 A CN202210717098 A CN 202210717098A CN 114969269 A CN114969269 A CN 114969269A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- news
- false
- target news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 239000013604 expression vector Substances 0.000 claims abstract description 26
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000008520 organization Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
Abstract
本发明属于互联网和深度学习技术领域,提供了基于实体识别和关系抽取的虚假新闻检测方法及系统,其通过双向LSTM(长短期记忆网络)对新闻表示向量进行特征提取并输出每个时刻的发射概率,输入CRF(条件随机场)进行约束后得到目标新闻的标签序列;提取标签序列中的实体标签,得到目标新闻的实体词汇;通过基于BERT微调的预训练模型进行关系抽取,进而得到“实体‑关系‑实体”结构文本;将经过处理的实体和结构文本输入文本分类器,得到检测结果,在保证准确率的前提下,实现快速、高效的虚假新闻检测算法。
Description
技术领域
本发明属于互联网和深度学习技术领域,尤其涉及基于实体识别和关系抽取的虚假新闻检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
针对自媒体的虚假新闻检测目前处于一个尚未完善的阶段,仅依靠人工检测难以处理其巨大的工作量。因此,通过算法模型实现虚假新闻的自动检测成为当下热点研究问题。近年来,研究人员改进循环神经网络、卷积神经网络和注意力机制等,提高了针对通过不同任务的文本分类性能。与基于统计学习的浅层学习方式相比,深度学习具有较好的学习能力,且避免了人工设计规则和功能,可以直接从输入中学习特征表示,神经网络模型在文本分类中达到了更好的效果,但深度学习的模型设计十分复杂,在基于大量的数据上进行训练需要花费较长的时间,巨大的算力对硬件的要求较高,在一定程度上增加了成本。
发明人发现,现有技术存在如下技术缺点:
(1)自媒体通过社交平台产生了大量不完整、非结构化和充满噪声的新闻,这使得直接利用这些新闻文本进行虚假新闻检测变得非常困难。虚假新闻检测通过在数据集上学习到文本中潜在的先验知识,对当前待检测新闻进行判断。现有技术使用关键字链接知识库以解决一词多义现象,并补充外部知识加强模型对关键字的理解。然而知识库的构建需要耗费大量的时间,且关键字的检索具有不确定性,与新闻主旨无关的外部知识极易误导对当前语义的判断。
(2)文本中大量与新闻主题表达无关的信息增加了数据噪声,极易影响检测结果,通过信息抽取技术,可达到缩短文本篇幅的目的,保留文章中的关键词,并用极少的语言概括文章主旨。图卷积神经网络(GCN)在信息抽取领域中表现出了良好的效果,现有技术通过全依赖树传递丰富的结构信息,并采取一种软剪枝策略舍弃依赖树中的无关信息。然而它的灵活性以及扩展性较差,且GCN半监督训练的效果并不理想。
综上,现有的虚假新闻检测方法存在以下缺陷和不足:非结构化的新闻文本利用率低下,深度学习模型在对篇幅较长的数据进行训练时需要花费大量的时间,且对硬件的要求更高;长文本需要建模长期依赖从而获得语义关系,虽然已有算法可解决此类问题,然而其复杂的设计增加了计算量,忽略了假新闻检测所要求的及时性;新闻文本中存在大量与主题无关的数据噪声,重点词汇与非重点词汇的边界难以区分,极易影响检测结果。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于实体识别和关系抽取的虚假新闻检测方法,其通过双向LSTM(长短期记忆网络)对新闻表示向量进行特征提取并输出每个时刻的发射概率,输入CRF(条件随机场) 进行约束后得到目标新闻的标签序列;提取标签序列中的实体标签,得到目标新闻的实体词汇;通过基于BERT微调的预训练模型进行关系抽取,进而得到“实体-关系-实体”结构文本;将经过处理的实体和结构文本输入文本分类器,得到检测结果,在保证准确率的前提下,实现快速、高效的虚假新闻检测算法。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于实体识别和关系抽取的虚假新闻检测方法,包括如下步骤:
获取目标新闻文本数据,对目标新闻文本进行向量化处理,得到目标新闻文本语义特征表示向量;
基于目标新闻文本语义特征表示向量和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体;
其中,所述BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM层,基于文本语义特征表示向量提取上下文信息得到发射概率矩阵;在CRF损失层,学习发射概率矩阵生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得目标新闻文本中的所有实体;
对所有实体进行关系抽取,得到结构化文本,基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
本发明的第二个方面提供基于实体识别和关系抽取的虚假新闻检测系统,包括:
数据获取模块,用于获取目标新闻文本数据;
实体识别模块,用于基于目标新闻文本数据和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体词汇;其中,所述 BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM 层,基于目标新闻文本数据提取上下文信息得到发射概率矩阵;在CRF损失层,通过训练目标新闻文本数据学习生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得新闻文本中的所有实体词汇;
关系抽取模块,用于对所有实体进行关系抽取,得到结构化文本,
检测结果输出模块,用于基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明针对中文数据集上的假新闻检测问题,通过实体识别和关系抽取技术对新闻文本进行阶段化处理,通过双向LSTM(长短期记忆网络)对新闻表示向量进行特征提取并输出每个时刻的发射概率,输入CRF(条件随机场)进行约束后得到目标新闻的标签序列;提取标签序列中的实体标签,得到目标新闻的实体词汇;通过基于BERT微调的预训练模型进行关系抽取,进而得到“实体- 关系-实体”结构文本;将经过处理的实体和结构文本输入文本分类器,得到检测结果。在保证准确率的前提下,实现快速、高效的虚假新闻检测算法。
在保证准确率的前提下,加快了假新闻检测的速度。
本发明基于Self-attention(自注意力机制)的BERT预训练语言模型生成新闻文本表示,与词嵌入模型相比,BERT使用Transformer中的Encoder(编码器)作为特征抽取器,这种方法对上下文有更好的利用,能够有效的解决一词多义问题。
本发明引入了基于BERT微调的模型来进行关系抽取,一方面能够利用预训练时学到的大量语言本身的知识,抽象语义特征并具备更好的泛化能力。此外,通过在文本中添加实体标识符,帮助模型学习到实体的位置,从而提高了对实体的表征能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一的方法流程图;
图2为本发明实施例一的整体模架构图;
图3为本发明实施例一的BiLSTM-CRF命名实体识别模型图;
图4为本发明实施例一的基于BERT微调的关系抽取模型图;
图5为本发明实施例一的TextCNN新闻分类模型图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
为了解决正如背景技术中提及的技术问题,本发明提出一种基于实体识别和关系抽取的虚假新闻检测方法,通过双向LSTM(长短期记忆网络)对新闻表示向量进行特征提取并输出每个时刻的发射概率,输入CRF(条件随机场)进行约束后得到目标新闻的标签序列;提取标签序列中的实体标签,得到目标新闻的实体词汇;通过基于BERT微调的预训练模型进行关系抽取,进而得到“实体 -关系-实体”结构文本;将经过处理的实体和结构文本输入文本分类器,得到检测结果。在保证准确率的前提下,实现快速、高效的虚假新闻检测算法。
实施例一
如图1和图2所示,本实施例提供基于实体识别和关系抽取的虚假新闻检测方法,包括如下步骤:
步骤1:获取目标新闻文本;
步骤2:对目标新闻文本进行预处理;
步骤3:对预处理后的目标新闻文本进行向量化处理,得到目标新闻文本语义特征表示向量;
步骤4:基于目标新闻文本语义表示向量和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体词汇;
其中,所述BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM层,基于文本语义特征表示向量提取上下文信息得到发射概率矩阵;在CRF损失层,学习发射概率矩阵生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得目标新闻文本中的所有实体;
步骤5:对所有实体进行关系抽取,得到结构化文本;
步骤6:基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
作为一种或多种实施例,所述步骤2中,所述对目标新闻文本进行预处理包括:
判断目标新闻文本中是否存在噪音数据;若存在噪音数据,则对目标新闻文本进行噪音清除。
示例性的,所述噪音数据包括:网络上的特殊符号,例如emoji和颜表情;除中文之外的文字,如数据中含有的少量韩文和英文。
作为一种或多种实施例,所述步骤3中,采用BERT模型对目标新闻文本进行向量化处理,具体包括:
基于自注意力机制的Transformer编码器,通过句子中字与字之间的关联程度调整权重系数矩阵来获取字表示向量,通过多个不同的线性变换对字表示向量进行投影,并将得到的注意力信息拼接。
步骤301:将目标新闻文本拆分成以字(token)为单位的序列,每个token 的输入向量由三部分组成:字嵌入向量(tokenembedding)、语句分块向量(segmentembedding)和位置编码向量(positionembedding)。
其中,将新闻文本按照字拆分后,形成的序列。例如“今天天气很好”,拆分后成为“今”“天”“天”“气”“很”“好”的序列。
步骤302:将字嵌入向量(tokenembedding)、语句分块向量(segmentembedding)以及位置编码向量(positionembedding)三个向量拼接,输入双向Transformer进行特征提取,最终得到含有丰富语义特征的表示向量。
其中,字嵌入向量用于将文本中的每个字转换成固定维度的向量。在BERT 中,每个字会被转换成为768维的向量表示。
所述字嵌入向量的生成的过程包括:
首先,建立索引字典,对于全部数据中的token,都有唯一的索引下标与其对应。随机生成二维矩阵lookuptable(其在训练过程中不断更新调整),在索引字典中查找文本出现的每个token,其下标在lookuptable中对应的行即为该token 的tokenembedding。
所述语句分块向量的生成过程包括:
语句分块向量用于区分一个句子对中的两个句子。在对token进行处理时,需要在句子开头添加[CLS]标识,在句子末尾添加[SEP]标识。且此嵌入层只有两种向量表示,即0和1:句子对中前一个句子的token都赋值0,后一个句子的 token全部赋值1。如果输入只有一个句子,那么它的segmentembedding全为0。、
按照语句分块向量的生成方式:例如“今天天气很好,我们出去走走吧”,则其语句分块向量为:[0000001111111]。
所述位置编码向量的生成过程包括:
由于Transformer没有像RNN(循环神经网络)一样能够获取整个句子的序列能力,因此BERT模型对每个token的输入向量分别加入positionembedding 以更好地理解序列顺序。首先随机初始化positionembedding,再放到预训练过程中,更新调整数值。
对于BERT而言,其关键部分是基于自注意力机制的Transformer编码器。它主要通过句子中字与字之间的关联程度调整权重系数矩阵来获取字的表示向量,表示为:
其中,Q,K,V是字向量矩阵,Q是查询矩阵,K是键矩阵,V是值矩阵,他们是由输入向量经过不同的线性变换得到的,dk是embedding维度。多头注意力机制则是通过多个不同的线性变换对Q,K,V进行投影,最后将不同的 Attention结果拼接起来,从而得到多个空间下的信息。
上述方案的优点在于,由于计算机无法识别自然语言中的文字,所以做假新闻检测任务的第一步需要将新闻文本数值化。字向量技术能够将文本转化成一系列能够表达文本语义的向量,且相似的词会有相似的向量表示,这样的转化方便挖掘文本中词语和句子之间的特征。以往的工作中大多使用了以 Word2Vec为代表的词嵌入方法,然而这种方法产生的向量是静态的且没有考虑上下文信息,无法解决一词多义问题。本实施了使用了基于Self-attention(自注意力机制)的BERT预训练语言模型生成新闻文本表示。与词嵌入模型相比, BERT使用Transformer中的Encoder(编码器)作为特征抽取器,这种方法对上下文有更好的利用,能够有效的解决一词多义问题。
作为一种或多种实施例,所述步骤4中,基于目标新闻文本语义特征表示向量和BiLSTM-CRF命名实体识别模型进行实体识别,包括如下步骤:
步骤401:将文本表示向量输入双向LSTM层,提取上下文特征,输出发射概率矩阵;
步骤402:将双向LSTM的输出作为CRF层的输入,通过转移概率矩阵学习内在约束,输出每个token的预测标签,生成目标新闻标签序列;
步骤403:提取标签序列中的实体标签,得到新闻中的实体词汇。
其中,使用“BIO”标签集对每个token进行标注,其中“B”表示实体的开头,“I”表示实体的非首部位置,“O”表示非实体。实体类型分为人名、地名和组织机构名三种,分别用“PER”、“LOC”和“ORG”表示。例如位置实体“齐河县”可被标注为“B-LOC,I-LOC,I-LOC”。
由于LSTM是RNN的一种变体,它可以有效解决RNN在训练时所产生的梯度爆炸或梯度消失问题。LSTM巧妙地利用门控概念实现长期记忆,同时能够捕捉序列信息。
LSTM的结构包括:遗忘门、输入门和输出门。计算过程为:利用上一时刻的外部状态ht-1和当前时刻的输入xt,计算出三个门,以及候选状态结合遗忘门ft和输入门it来更新记忆单元ct;结合输出门ot,将内部状态的信息传递给外部状态ht。
但是LSTM进行特征提取时还存在一个问题:无法编码从后到前的信息。例如,“小明的学习成绩很好”,这里的“很好”是对“学习成绩”的一种修饰。
为解决这一问题,如图3所示,将前向LSTM和反向LSTM结合成为BiLSTM,可以更好地捕捉双向的语义依赖。
BiLSTM可以预测出每一个token属于不同标签的概率,然而仅依靠这种预测并没有考虑标签之间的关联性,如“B-PER”的下一个预测标签不可能是“I-ORG”。因此,在BiLSTM的输出层加上CRF,使得模型可以考虑标签前后的相关性。
CRF层包括两种特征函数。
第一种特征函数是状态特征函数,也称为发射概率矩阵,这些发射分数来自BiLSTM层的输出,表示token被预测为某标签的概率。采用来表示发射分数,其中i表示第i个字,yj表示标签索引。例如,表示将字x1标记为B-ORG的概率为0.3。
第二种特征函数是转移特征函数,也称为转移概率矩阵,表示从一个标签yi转移到另一个标签yj的概率,该分数可以由CRF层在训练中自动学习生成。我们用来表示转移分数,例如,tB-PER,I-PER=0.9表示标签B-PER转移到 I-PER的得分为0.9。
给定输入文本X,其对应标签序列Y,定义分数为:
利用softmax函数,计算每一个标签序列的概率值:
其中,YX表示所有的标签序列,包括不可能出现的。
转移矩阵可以在数据中学习到有用的约束条件。例如,句子第一个标签应该以“B”或者“O”开头,而不能以“I”开头;“B-PER,I-PER”是有效的,而“B-PER,I-ORG”是无效的;实体的第一个标签应该以“B”开头,而不能以“I”开头。通过这些约束,可以避免预测不合理的标签。
上述方案的优点在于,将神经网络的输出层接入CRF层来做进一步的标签预测,使得标注过程不再是对每个字独立处理,解决了对每个字的预测过程是独立的,忽略了上下文的关联性的问题。
如图4所示,作为一种或多种实施例,步骤5中,对所有实体进行关系抽取,具体包括:
步骤501:在实体位置前后添加“$”或“#”等标识符,指出实体所在位置,让模型更好地理解其重要性。
步骤502:对经过步骤501,对文本中的实体进行了添加操作修改后的新闻文本采用BERT模型对目标新闻文本进行向量化处理,具体的过程与步骤3中采用BERT模型对目标新闻文本进行向量化处理相同,在此不再赘述。
句首[CLS]标识的输出作为整段文本的语义表示向量,记作H0。经过激活函数和线性变换后得到H′0,其公式为:
H′0=W0(tanhH0)+b0;
其中,W0和b0分别为线性层的权值参数和偏置参数。
步骤503:对实体包含的多个字向量进行加和平均,得到实体的表示向量。
例如现有两个实体词汇E1和E2,经过BERT处理后,其开始和终止向量分别为Hi和Hj、Hk和Hm,那么实体E1和E2表示向量为:
对于得到的实体表示向量,同样经过激活函数和线性层得到H′1和H′2:
H′1=W1e1+b1;
H′2=W2e2+b2;
最后将H′0,H′1,H′2拼接成为综合向量输入线形层并做softmax分类,得到E1和 H2的关系,计算如下:
h″=W3[concat(H′0,H′1,H′2)]+b3;
p=softmax(h″);
上述方案通过在实体位置前后添加“$”和“#”标识符;对文本进行向量化处理,得到语义表示向量和实体表示向量;将语义表示向量和实体表示向量进行拼接,通过softmax分类后得到实体之间的关系。
上述方案的优点在于,在关系抽取中,句子的语义特征和实体的词级特征是影响抽取结果的两大关键因素。本实施例引入了基于BERT微调的模型来进行关系抽取,一方面能够利用预训练时学到的大量语言本身的知识,抽象语义特征并具备更好的泛化能力。此外,通过在文本中添加实体标识符,帮助模型学习到实体的位置,从而提高了对实体的表征能力。
作为一种或多种实施例,所述步骤6中,基于目标新闻文本中的所有实体和结构化文本对文本进行分类,具体包括:
步骤601:通过BERT预训练语言模型生成实体和结构文本的向量矩阵;
步骤602:对向量矩阵进行卷积操作,输出多个featuremap(特征图);
步骤603:对featuremap进行max-pooling操作,得到每个featuremap的最大值;
步骤604:对featuremap的池化结果进行拼接,并输入softmax层分类,从而得到目标新闻文本是否为假的检测结果。
在输入方面,本实施例选取实体和关系来表达新闻中蕴含的知识,通过文本结构化来达到精简新闻的效果,避免了文中与主题无关的内容对预测结果造成干扰。
在模型方面,本实施例选用TextCNN作为文本分类器,其网络结构简单,大大降低了计算量,且在短文本领域表现出了很好的效果。通过以上设计,确保了本方法在加快检测速度的同时,保持着较高的准确率。
如图5所示,TextCNN模型的第一层为嵌入层。通过BERT预训练语言模型对实体和“实体-关系-实体”结构文本进行向量化处理,得到长度为l、宽度为d的二维向量矩阵,其中l为允许输入模型的最大长度,d为字向量的维度。
模型的第二层为卷积层。我们设置宽度为d,长度分别为3、4、5的卷积核依次在向量矩阵的垂直方向做卷积运算。这一点区别于视觉领域的CNN,若在水平方向移动,意味着将一个字从内部拆开而造成无意义的训练。
模型的第三层为池化层。由于不同尺寸的卷积核得到的featuremap大小也不同,因此对每个featuremap进行max-pooling操作。其原理是在每个featuremap 中选取最大值并作为输出,捕捉重要特征,并保持了维度的统一。将featuremap 池化后的输出进行拼接,输入到softmax分类,得到目标新闻是否为假的检测结果。
实施例二
本实施例提供基于实体识别和关系抽取的虚假新闻检测系统,包括:
数据获取模块,用于获取目标新闻文本数据;
实体识别模块,用于基于目标新闻文本数据和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体词汇;其中,所述BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM 层,基于目标新闻文本数据提取上下文信息得到发射概率矩阵;在CRF损失层,通过训练目标新闻文本数据学习生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得新闻文本中的所有实体词汇;
关系抽取模块,用于对所有实体进行关系抽取,得到结构化文本,
检测结果输出模块,用于基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,包括如下步骤:
获取目标新闻文本数据,对目标新闻文本进行向量化处理,得到目标新闻文本语义特征表示向量;
基于目标新闻文本语义特征表示向量和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体;
其中,所述BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM层,基于文本语义特征表示向量提取上下文信息得到发射概率矩阵;在CRF损失层,学习发射概率矩阵生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得目标新闻文本中的所有实体;
对所有实体进行关系抽取,得到结构化文本,基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
2.如权利要求1所述的基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,采用BERT模型对目标新闻文本进行向量化处理,包括:基于自注意力机制的Transformer编码器,通过句子中字与字之间的关联程度调整权重系数矩阵来获取字表示向量,通过多个不同的线性变换对字表示向量进行投影,并将得到的注意力信息拼接。
4.如权利要求1所述的基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,所述对最优实体标签序列进行实体分类包括:采用“BIO”标签集对每个token进行标注,其中,“B”表示实体的开头,“I”表示实体的非首部位置,“O”表示非实体,实体类型分为人名、地名和组织机构名三种,分别用“PER”、“LOC”和“ORG”表示。
5.如权利要求1所述的基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,在对实体分类后,在实体位置前后添加标识符,通过标识符指出实体所在位置。
6.如权利要求1所述的基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,采用TextCNN文本分类器对文本进行分类,所述文本分类器包括嵌入层、卷积层以及池化层,具体分类过程包括:
在嵌入层,通过BERT预训练语言模型对实体和结构化文本进行向量化处理,得到对应的二维向量矩阵;
在卷积层,对二维向量矩阵的垂直方向做卷积运算,输出多个特征图;
在池化层,对多个特征图进行max-pooling操作,得到每个特征图的最大值;将池化结果进行拼接,并输入softmax层分类,得到目标新闻文本是否为假的检测结果。
7.如权利要求1所述的基于实体识别和关系抽取的虚假新闻检测方法,其特征在于,在获取目标新闻文本后,对目标新闻文本进行预处理,包括判断目标新闻文本中是否存在噪音数据;若存在噪音数据,则对目标新闻文本进行噪音清除。
8.基于实体识别和关系抽取的虚假新闻检测系统,其特征在于,包括:
数据获取模块,用于获取目标新闻文本数据;
实体识别模块,用于基于目标新闻文本数据和BiLSTM-CRF命名实体识别模型进行实体识别,得到目标新闻文本中的所有实体词汇;其中,所述BiLSTM-CRF命名实体识别模型包括双向LSTM层和CRF损失层,在双向LSTM层,基于目标新闻文本数据提取上下文信息得到发射概率矩阵;在CRF损失层,通过训练目标新闻文本数据学习生成转移概率矩阵,并对发射概率矩阵进行约束性计算,输出各个时刻所对应的最优实体标签序列;对最优实体标签序列进行实体分类,获得新闻文本中的所有实体词汇;
关系抽取模块,用于对所有实体进行关系抽取,得到结构化文本,
检测结果输出模块,用于基于目标新闻文本中的所有实体和结构化文本对文本进行分类,得到目标新闻文本真假检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于实体识别和关系抽取的虚假新闻检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717098.7A CN114969269A (zh) | 2022-06-23 | 2022-06-23 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717098.7A CN114969269A (zh) | 2022-06-23 | 2022-06-23 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969269A true CN114969269A (zh) | 2022-08-30 |
Family
ID=82965177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210717098.7A Pending CN114969269A (zh) | 2022-06-23 | 2022-06-23 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969269A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383391A (zh) * | 2023-06-06 | 2023-07-04 | 深圳须弥云图空间科技有限公司 | 一种文本分类方法及装置 |
CN116542297A (zh) * | 2023-07-03 | 2023-08-04 | 深圳须弥云图空间科技有限公司 | 基于文本数据训练生成对抗网络的方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
CN112232058A (zh) * | 2020-10-15 | 2021-01-15 | 济南大学 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
CN112949299A (zh) * | 2021-02-26 | 2021-06-11 | 深圳市北科瑞讯信息技术有限公司 | 新闻稿件的生成方法及装置、存储介质、电子装置 |
CN113128227A (zh) * | 2020-01-14 | 2021-07-16 | 普天信息技术有限公司 | 实体抽取方法及装置 |
CN113488196A (zh) * | 2021-07-26 | 2021-10-08 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113934882A (zh) * | 2021-09-29 | 2022-01-14 | 北京中科睿鉴科技有限公司 | 细粒度的多模态虚假新闻检测方法 |
CN114462420A (zh) * | 2022-01-28 | 2022-05-10 | 河海大学 | 一种基于特征融合模型的虚假新闻检测方法 |
CN114528912A (zh) * | 2022-01-10 | 2022-05-24 | 山东师范大学 | 基于渐进式多模态融合网络的虚假新闻检测方法及系统 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
-
2022
- 2022-06-23 CN CN202210717098.7A patent/CN114969269A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN113128227A (zh) * | 2020-01-14 | 2021-07-16 | 普天信息技术有限公司 | 实体抽取方法及装置 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
CN112232058A (zh) * | 2020-10-15 | 2021-01-15 | 济南大学 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
CN112949299A (zh) * | 2021-02-26 | 2021-06-11 | 深圳市北科瑞讯信息技术有限公司 | 新闻稿件的生成方法及装置、存储介质、电子装置 |
CN113488196A (zh) * | 2021-07-26 | 2021-10-08 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113934882A (zh) * | 2021-09-29 | 2022-01-14 | 北京中科睿鉴科技有限公司 | 细粒度的多模态虚假新闻检测方法 |
CN114528912A (zh) * | 2022-01-10 | 2022-05-24 | 山东师范大学 | 基于渐进式多模态融合网络的虚假新闻检测方法及系统 |
CN114462420A (zh) * | 2022-01-28 | 2022-05-10 | 河海大学 | 一种基于特征融合模型的虚假新闻检测方法 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
Non-Patent Citations (4)
Title |
---|
SOHEL SIDDIQUE ASHIK ET AL.: "Multiclass fake newsM82B at CheckThat! 2021: Multiclass fake news detection using BiLSTM", RESEARCHGATE, 30 September 2021 (2021-09-30), pages 1 - 12 * |
白晶心: "基于分段卷积神经网络的关系抽取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 8, 15 August 2020 (2020-08-15), pages 2 - 45 * |
谢腾: "基于 BERT-BiLSTM-CRF 模型的中文实体识别", 《计算机系统应用》, vol. 29, no. 7, 31 December 2020 (2020-12-31), pages 48 - 55 * |
谢腾: "融合多特征 BERT 模型的中文实体关系抽取", 《计算机系统应用》, vol. 30, no. 5, 31 December 2021 (2021-12-31), pages 253 - 261 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383391A (zh) * | 2023-06-06 | 2023-07-04 | 深圳须弥云图空间科技有限公司 | 一种文本分类方法及装置 |
CN116383391B (zh) * | 2023-06-06 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 一种文本分类方法及装置 |
CN116542297A (zh) * | 2023-07-03 | 2023-08-04 | 深圳须弥云图空间科技有限公司 | 基于文本数据训练生成对抗网络的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN112765956B (zh) | 基于多任务学习的依存句法分析方法及应用 | |
CN112487820B (zh) | 一种中文医疗命名实体识别方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN114943230B (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN112800776A (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN114969269A (zh) | 基于实体识别和关系抽取的虚假新闻检测方法及系统 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN110348024A (zh) | 基于法律知识图谱的智能识别系统 | |
Zhang | Research on text classification method based on LSTM neural network model | |
CN113641809B (zh) | 一种基于XLNet模型与知识图谱的智能问答方法 | |
CN113360667B (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113032541A (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
CN117609421A (zh) | 基于大语言模型的电力专业知识智能问答系统构建方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |