CN111125364A - 一种基于ernie的远程监督关系抽取的降噪方法 - Google Patents

一种基于ernie的远程监督关系抽取的降噪方法 Download PDF

Info

Publication number
CN111125364A
CN111125364A CN201911345927.8A CN201911345927A CN111125364A CN 111125364 A CN111125364 A CN 111125364A CN 201911345927 A CN201911345927 A CN 201911345927A CN 111125364 A CN111125364 A CN 111125364A
Authority
CN
China
Prior art keywords
packet
sentences
training set
training
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911345927.8A
Other languages
English (en)
Other versions
CN111125364B (zh
Inventor
蔡毅
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911345927.8A priority Critical patent/CN111125364B/zh
Publication of CN111125364A publication Critical patent/CN111125364A/zh
Application granted granted Critical
Publication of CN111125364B publication Critical patent/CN111125364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。本发明能够使得关系预测的效果得到显著的提升。

Description

一种基于ERNIE的远程监督关系抽取的降噪方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于ERNIE的远程监督关系抽取的降噪方法。
背景技术
关系抽取是信息抽取中的一个基本任务,研究的是如何预测句子中实体对之间的语义关系。关系抽取的一个关键问题是相对缺乏大规模的高质量的标注数据。近年来,应对这一挑战的常用而有效的方法是利用远程监督实现通过语料与知识库对齐来获取训练数据的方法,即假设知识库中存在某一个实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。远程监控策略是一种有效的大规模训练数据自动标注方法。远程监督关系抽取被广泛应用于寻找新的关系文本中的事实。然而,由于一句话中提到两个实体并不一定表示两者之间的关系情况,因此远程监督不可避免地存在着错误的标签问题,这些问题中的噪音数据会严重影响关系抽取的性能。大量关于处理远程监督的噪声数据的研究工作已经取得重大进展,特别是近年来用于关系抽取的深度神经网络的快速发展给处理噪声工作带来了质的飞跃,但是在处理噪声的实验结果仍然有待提升。
基于深度学习远程监督的多实例学习的框架已成为取代了基于特征和图模型的最先进的统计方法。在远程监督的多实例学习框架中,每个实体通常对应有多个实例,其中一些实例是噪音,通常情况下知识库中关系为NA的实体对对应的包中噪声很少,可以忽略不计,因此降噪工作主要是处理关系为非NA的包中的噪声,由于在真实语料中大多数实体关系是NA,所以主要处理的噪声是假正性噪声。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于ERNIE的远程监督关系抽取的降噪方法。本发明通过重构训练集来进行有效地去除包中的假正性噪声数据,并通过结合注意机制和深度神经网络来达到比较好的关系抽取的效果。
本发明的目的能够通过以下技术方案实现:
一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:
通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;
将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;
用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;
将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
具体地,所述关系标签为NA和not NA这两种关系标签。
具体地,利用训练后的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则去除这个句子,即去除训练集中标签为非NA的包中的假正性噪声数据。
具体地,所述利用重构训练集去训练基于attention机制的PCNN模型的步骤中,利用PCNN作为编码器得到句子级别的向量表示,用attention机制选出包中的对于关系分类的重要句子的信息,得到包级别的向量表示,再通过一个基于ERNIE的多分类器对当前的包做相应的关系分类。
本发明相较于现有技术,具有以下的有益效果:
本发明通过两个步骤的降噪来实现远程监督带来的噪声影响,从而达到一个很好的关系抽取的效果。其中第一个步骤的降噪是在远程监督得到的数据集进行降噪,通过合并后的长句去训练一个二分类器,然后利用这个训练好的二分类器对原始训练集进行降噪的操作,从而有效地降低数据集中的假正性噪声。第二个步骤的降噪在于attention机制的使用,在获得包的表示的时候通过给包中不同句子分配不同的权重,实现提升对于分类结果有重要作用句子的权重,从而实现降噪的效果。
附图说明
图1为本发明中一种基于ERNIE的远程监督关系抽取的降噪方法的流程图。
图2为合并训练集中的包训练一个二分类器对原始训练集去噪过程图。
图3为预训练语言模型ERNIE的训练策略。
图4为利用PCNN得到一个句子的向量表示示意图。
图5为利用attention机制得到包的向量表示示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于ERNIE的远程监督关系抽取的降噪方法的流程图,所述方法包括步骤:
(1)通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;
所述关系标签为NA和not NA这两种关系标签。
在训练集中,将含有相同的实体对的所有句子组成的集合称为一个包,每个句子都有一个句子的关系标签,而这个句子所属的包的标签就是这个包中所有句子的标签的集合。因为一个包中是可能存在噪声数据的,因此将一个包中所有句子都合并成一个长句这就使得实体对可以反映包的关系。举一个具体的例子:
Raw Bag:
sentence_1:2011年5月11日,何勇受邀参加摇滚女星姜昕《长发飞扬的日子》首发式。
sentence_2:2007年7月,鄂尔多斯摇滚音乐节上MOEN效果器大放异彩,何勇及乐队,姜昕及乐队,面孔乐队现场均使用了MOEN效果器。
sentence_3:何勇说:姜昕的这本小说让我想起了我的新歌《记得吗》里的一句歌词。
Reconstructed long sentence:
何勇,姜昕:2011年5月11日,何勇受邀参加摇滚女星姜昕《长发飞扬的日子》首发式。2007年7月,鄂尔多斯摇滚音乐节上MOEN效果器大放异彩,何勇及乐队,姜昕及乐队,面孔乐队现场均使用了MOEN效果器。何勇说:姜昕的这本小说让我想起了我的新歌《记得吗》里的一句歌词。
(2)将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
本实施例不是直接使用预训练的词向量,而是使用预训练语言模型ERNIE。如图2所示为合并训练集中的包训练一个二分类器对原始训练集去噪过程图。ERNIE提出了一种多阶段的知识掩蔽策略,将短语和实体层次的知识整合到语言表示中,而不是直接加入知识嵌入。ERNIE存在三个掩蔽水平,图3中描述了句子的不同掩蔽级别:
以句子“Harry potter is a series of fanatasy novels written by Britishanthor J.K.Rowling.”为例。
首先ERNIE采用了单词级别的掩蔽,即随机掩蔽并预测句子中的某些单词,使得ERNIE可以捕捉一个句子中的上下文语义。在上述例子中,随机mask即随机掩蔽了Harry,of等词,通过随机掩蔽掉一个句子中的词,可以获得这个这个句子的上下文的语义信息,帮助理解整个句子的含义。
其次应用了实体级掩蔽策略来捕捉模型中实体对之间的关系,因为通常实体在句子中包含重要信息,而且进行关系抽取任务时主要考虑的也是实体对上下文之间的语义关系。具体做法就是随机掩蔽这个句子中的实体和单词。在上述例子中,掩蔽了实体J.K.Rowling,实体的类型包括人名person,地名location,组织名organization,这里的J.K.Rowling是一个人名,所以属于一个实体,通过随机掩蔽实体和单词可以获得句子中有关于实体的相关上下文关系,帮助计算机理解和捕捉实体的相关信息,而实体的相关信息对于关系分类来讲至关重要。
在短语屏蔽阶段,ERNIE首先分析句子中的命名实体,然后随机掩蔽句子中存在的短语、实体、单词。在上述例子中掩蔽了短语a series of,通过掩蔽短语,可以帮助计算机更好的理解整个句子的不可分割部分的语义信息,即理解短语级别的信息,进一步增强对句子含义的理解。
通过三阶段学习使得ERNIE可以得到丰富的实体对上下文语义关系信息的词性表达。然后在ERNIE之后接一个二分类器,用步骤1得到的长句训练集来训练这个二分类器。
(3)利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;
将原始训练集分成标签为NA和非NA的两部分,再利用之前训练好的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则从原始训练集中去除这个句子,这样就去除了训练集中标签为非NA的包中的假正性噪声数据,将去除假正性噪声数据的关系为非NA的包和原始训练集中关系为NA的包合并成新的数据集,即得到了新的降噪后的训练集。
(4)用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;
在关系抽取中,主要的挑战是句子的长度是可变的,重要信息可以出现在句子的任何区域。因此,应该利用所有的局部特征,在全局范围内进行关系预测。在本实施例中,使用卷积层来合并所有这些特征。
如图4所示为利用新的训练集训练基于attention机制的CNN模型的示意图,包括步骤:
(4-1)利用CNN作为编码器得到各个包中的句子的向量表示;
卷积层首先利用步长为l的滑动窗口提取句子的局部特征。在图3示意图中,假设滑动窗口的长度为3,最后获得输入语句的固定大小的向量表示。
首先一个句子中第i个词的词向量设为mi∈Rd,其中d为词向量的维度,这里M指代一个句子的所有词向量组成的矩阵,n则是一个句子长度。
M=(m1,m2......mn)
卷积操作定义为长度为滑动窗口大小的句子的词向量序列和卷积核
Figure BDA0002333349040000071
之间的操作,其中,l为窗口大小,d为词向量维度,dc为卷积核个数。向量qi定义为第i个窗口对应的l个词的向量序列,表示为:
qi=Mi-l+1:i(1≤i≤m+l-1)
第i个卷积操作如下:
pi=[Wq+b]i
对于最终句子的向量表示
Figure BDA0002333349040000072
的第i个元素的计算如下:
[x]i=max(pi)
(4-2)利用attention机制选出包中的对于关系分类的重要句子的信息,即使得同一个包中不同句子分配了不同权重,句子表示的加权求和就得到包级别的向量表示;
在学习一个包中所有句子的分布向量表示后,使用句子级注意力机制来选择真正表达对应关系的句子。
定义一个包为S,其包含了n个句子即S={x1,x2......xn},这个包对应的关系的向量为r,包中第i个句子对应的权重设为αi,包的向量表示定义为:
Figure BDA0002333349040000073
为了衡量一个句子和包的关系r之间的匹配程度定义下述公式:
ei=xiAr
其中A是一个对角矩阵,xi是包中第i个句子的向量表示。
得到一个包中不同句子的权重,计算公式为:
Figure BDA0002333349040000074
如图5所示为利用attention机制得到包的向量表示示意图。
(4-3)将得到的包的向量表示输入到一个基于ERNIE的多分类器中得到最后的关系分类结果。
(5)将测试集也用类似方法合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
将测试集中的包中的句子合并成一个长句,然后利用得到的基于ERNIE的多分类器,得到最终测试集的关系分类的预测结果。
结合具体示例和实验数据来阐述本方法的实验效果。
在本实施例中,采用的数据集是中文人物关系的数据集,共35种人物关系,其中训练集共有287351条句子,一共37948个包。验证集共有共有38417条句子,一共5416个包。测试集共有77092条句子,一共10849个包。实验的超参数设置如下表所示:
batch_size 64
epoch 200
window_size 3
learining rate 0.001
dropout 0.5
word_dim 300
hidden_dim 300
采用F1值来衡量实验结果的评价指标,其计算公式如下:
Figure BDA0002333349040000081
其中Nr是算法正确分类为非NA类别的包的个数,Nsys是算法分类为非NA的包的个数。Nstd是数据集种非NA的包的个数。
实验结果如下表所示:
Figure BDA0002333349040000082
Figure BDA0002333349040000091
其中最后一个算法是本文提到的降噪算法结合预训练语言模型ERNIE和attention机制结合PCNN的模型的实验效果。可以看出本文提出的降噪方法使得实验效果得到了显著提升。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于ERNIE的远程监督关系抽取的降噪方法,其特征在于,包括步骤:
通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;
将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;
用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;
将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
2.根据权利要求1所述的方法,其特征在于,所述关系标签为NA和not NA这两种关系标签。
3.根据权利要求1所述的方法,其特征在于,所述利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集的步骤中,具体为:
将原始训练集分成标签为NA和非NA的两部分,再利用之前训练好的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则从原始训练集中去除这个句子,这样就去除了训练集中标签为非NA的包中的假正性噪声数据,将去除假正性噪声数据的关系为非NA的包和原始训练集中关系为NA的包合并成新的数据集,即得到了新的降噪后的训练集。
4.根据权利要求1所述的方法,其特征在于,所述用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型的步骤中,包括:
利用CNN作为编码器得到各个包中的句子的向量表示;
利用attention机制选出包中的对于关系分类的重要句子的信息,即使得同一个包中不同句子分配了不同权重,句子表示的加权求和就得到包级别的向量表示;
将得到的包的向量表示输入到一个基于ERNIE的多分类器中得到最后的关系分类结果。
5.根据权利要求4所述的方法,其特征在于,所述利用CNN作为编码器得到各个包中的句子的向量表示的步骤中,采用卷积层合并句子中所有的局部特征。
6.根据权利要求5所述的方法,其特征在于,卷积层首先利用步长为l的滑动窗口提取句子的局部特征,卷积定义为向量序列M和卷积矩阵
Figure FDA0002333349030000021
直接的操作,向量qi定义为第i个窗口对应的l个词的向量序列:
qi=Mi-l+1:i(1≤i≤m+l-1)
第i个卷积层的计算操作如下:
pi=[Wq+b]i
对于向量
Figure FDA0002333349030000024
的第i个元素的计算如下:
[x]i=max(pi)。
7.根据权利要求4所述的方法,其特征在于,所述利用attention机制选出包中的对于关系分类的重要句子的信息的步骤中,
定义一个包为S,其包含了n个句子即S={x1,x2......xn},这个包对应的关系的向量为r,包中第i个句子对应的权重设为αi,包的向量表示定义为:
Figure FDA0002333349030000022
为了衡量一个句子和包的关系r之间的匹配程度定义下述公式:
ei=xiAr
其中A是一个对角矩阵,xi是包中第i个句子的向量表示。
得到一个包中不同句子的权重,计算公式为:
Figure FDA0002333349030000023
CN201911345927.8A 2019-12-24 2019-12-24 一种基于ernie的远程监督关系抽取的降噪方法 Active CN111125364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345927.8A CN111125364B (zh) 2019-12-24 2019-12-24 一种基于ernie的远程监督关系抽取的降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345927.8A CN111125364B (zh) 2019-12-24 2019-12-24 一种基于ernie的远程监督关系抽取的降噪方法

Publications (2)

Publication Number Publication Date
CN111125364A true CN111125364A (zh) 2020-05-08
CN111125364B CN111125364B (zh) 2023-04-25

Family

ID=70501872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345927.8A Active CN111125364B (zh) 2019-12-24 2019-12-24 一种基于ernie的远程监督关系抽取的降噪方法

Country Status (1)

Country Link
CN (1) CN111125364B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN112668342A (zh) * 2021-01-08 2021-04-16 中国科学院自动化研究所 基于孪生网络的远程监督关系抽取降噪系统
CN113254429A (zh) * 2021-05-13 2021-08-13 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
JP2022002088A (ja) * 2020-06-19 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7179123B2 (ja) 2020-06-19 2022-11-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP2022002088A (ja) * 2020-06-19 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法
CN111966823B (zh) * 2020-07-02 2022-04-22 华南理工大学 一种面向标签噪声的图节点分类方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111914558B (zh) * 2020-07-31 2024-04-16 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统
CN112307130B (zh) * 2020-10-21 2022-07-05 清华大学 一种文档级远程监督关系抽取方法及系统
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN112668342A (zh) * 2021-01-08 2021-04-16 中国科学院自动化研究所 基于孪生网络的远程监督关系抽取降噪系统
CN112668342B (zh) * 2021-01-08 2024-05-07 中国科学院自动化研究所 基于孪生网络的远程监督关系抽取降噪系统
CN113254429A (zh) * 2021-05-13 2021-08-13 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN113254429B (zh) * 2021-05-13 2023-07-21 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法

Also Published As

Publication number Publication date
CN111125364B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111125364B (zh) 一种基于ernie的远程监督关系抽取的降噪方法
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN109933789B (zh) 一种基于神经网络的司法领域关系抽取方法及系统
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN106919557A (zh) 一种结合主题模型的文档向量生成方法
CN110457690A (zh) 一种专利创造性的判断方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法
Tan et al. Extracting event temporal relations via hyperbolic geometry
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN109670171B (zh) 一种基于词对非对称共现的词向量表示学习方法
CN111061876A (zh) 事件舆情数据分析方法及装置
US11941346B2 (en) Systems and methods for long document summarization
Mahafdah et al. Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination.
CN112380845B (zh) 句子噪声设计方法、设备及计算机存储介质
Wai Myanmar language part-of-speech tagging using deep learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant