CN113254429A

CN113254429A - 一种用于远程监督关系抽取的基于bert和mlm的降噪方法

Info

Publication number: CN113254429A
Application number: CN202110525465.9A
Authority: CN
Inventors: 沈铁麟; 王大玲; 冯时; 张一飞
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13
Anticipated expiration: 2041-05-13
Also published as: CN113254429B

Abstract

本发明公开了一种用于远程监督关系抽取的基于BERT和MLM的降噪方法，涉及远程监督关系抽取技术领域。将实体对定义为源实体和目标实体；从各类别对应的目标实体中筛选出单子词实体，并根据其对应的句子不是噪声句子的可能性对这些句子排序并构成句子集；从各句子集选取正负样本为各类别建立数据集；基于数据集中句子的实体在BERT模型最后一层编码器输出的隐藏状态，提取句子的MASK‑lhs特征；利用全连接层捕获噪声句子与非噪声句子的MASK‑lhs特征差异来训练二分类器，将训练好的二分类器作为各类别的专用降噪器；将训练集中的所有句子按类别送入对应的降噪器，找出并剔除噪声句子。降噪器是即插即用的，具有实用性。

Description

一种用于远程监督关系抽取的基于BERT和MLM的降噪方法

技术领域

本发明涉及远程监督关系抽取技术领域，具体涉及一种用于远程监督关系抽取的基于 BERT(Bidirectional Encoder Representation from Transformers，基于Transformer的双向编码器表示)和MLM(Masked Language Model，遮蔽语言模型)的降噪方法。

背景技术

知识图谱(Knowledge Graph)是一种大规模的结构化数据集合，它用于描述现实世界中实体之间的联系，扩充知识结构，进而能够通过计算机来识别并进行分析处理。举个例子，用户在Google的搜索框中输入[泰山]，在网页右侧会出现泰山的海拔、高度、位置等信息，这就是由百科知识图谱赋能搜索引擎业务的成果。近年来，学术界和工业界普遍认为，想要达到更好的语言理解能力、想给用户提供更人性化的搜索服务，必须在算法中融入先验知识，用数据、知识共同构建精细而深度的语言算法。

知识图谱由三元组(h,r,t)组成(h、r、t分别表示头实体、关系、尾实体)，其生成流程一般是先在无结构文本的某个句子中识别出头尾实体，然后根据该句子对此实体对的关系进行分类，叫做关系抽取。关系抽取可定义为给定实体对情况下的短文本多标签分类问题，现有的关系抽取技术基本都衍生于深度学习方法。例如，给定句子：「康熙是雍正的父亲」以及句中包含的两个实体「康熙」与「雍正」，关系抽取模型可以通过语义得到「父亲」的关系，并最终抽取出(雍正，父亲，康熙)的知识三元组。

虽然深度学习能够自动学习特征，效果也大幅优于传统机器学习方法，但其对标注数据的需求十分庞大，人工标注数据缓慢而且昂贵，有研究者提出了远程监督方法，并已成为关系抽取方向的重要分支。远程监督的基本假设为如果两个实体在已有知识库中存在某种关系，那么认为包含这两个实体的句子全部可以表现此种关系，将这些句子打上该关系的标签，作为一个包加入关系抽取模型的训练集中。这个假设无疑会带来大量噪声数据，承上文的实体对，「康熙和雍正都是清朝的皇帝」就是一个无法表示「父亲」关系的噪声句子，这些噪声句子会使关系抽取模型学习到很多错误的信息从而降低精确率。

之后许多工作都致力于远程监督数据集的降噪，现有的降噪工作通常使用卷积神经网络、循环神经网络等特征抽取器编码句子结构，这些传统特征抽取器对语义的编码能力较弱，也没有在模型中融入先验知识，因而无法达到很好的降噪效果，模型的可解释性也普遍较差。另外，现有的很多降噪方法遵从多实例学习的假设，认为关系抽取模型的训练集中一个实体对对应的句子集里至少有一个句子不为噪声句，这样，当一个包内的句子全为噪声句子时，会造成抽取误差。

发明内容

针对现有技术的不足，本发明提出一种用于远程监督关系抽取的基于BERT和MLM的降噪方法。

本发明的技术方案是：

一种用于远程监督关系抽取的基于BERT和MLM的降噪方法，包括如下步骤：

步骤1：根据目标实体的确定规则，将每个关系类别中的头尾实体分别确定为目标实体和源实体；

步骤2：基于目标实体的正确预测确定噪声句子的判定规则；

步骤3：从各关系类别对应的目标实体中筛选出单子词实体，并根据这些单子词实体所对应的句子不是噪声句子的可能性对这些句子排序并构成句子集；

步骤4：从各句子集中选取正样本和负样本为对应的各关系类别建立用来训练二分类器的二分类数据集；

步骤5：对于二分类数据集中的句子，基于句子中实体在BERT模型最后一层编码器输出的隐藏状态，提取句子的MASK-lhs特征，利用全连接层捕获噪声句子的MASK-lhs特征和非噪声句子的MASK-lhs特征中的差异来训练二分类器，将训练好的二分类器作为对应的关系类别专用的降噪器；

步骤6：将用于远程监督关系抽取的训练集中的所有句子按类别送入对应的降噪器，找出并剔除噪声句子，完成对训练集的降噪。

进一步地，根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述目标实体的确定规则为：1)、针对头尾实体，在现实世界中可能会与多个实体存在被标注关系的那个实体确定为目标实体，则另一实体即为源实体，其在该关系类别中只与该目标实体存在一对一的被标注关系；2)、如果头尾实体之间是一对一的标注关系，或者，头尾实体在现实世界中均可能会与多个实体存在被标注关系，则可以选择其中任何一个实体作为目标实体；3)、非噪声句子中的目标实体必须是可根据语义来预测的。

进一步地，根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述噪声句子的判定规则为：在非噪声句子中，目标实体的正确预测需要源实体和关系模式的共同参与；如果只基于源实体或关系模式中的一种就能预测目标实体，那么认为实体对是松散的，对应的句子被视为噪声句，源实体和关系模式同时参与仍无法预测目标实体的句子，也被认为是噪声句子。

进一步地，根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述单子词实体所对应的句子不是噪声句子的可能性的确定方法为：按照式(2)对包含单子词目标实体的每个句子不是噪声句子的可能性计算分值，不同的分值代表这些句子不是噪声句子的可能性：

G_s＝B(en_s+rp,en_t)-B(rp,en_t)-f (2)

其中，en_s+rp、rp都表示改造过的句子，en_s+rp表示目标实体被遮蔽且包含源实体和关系模式的句子，rp则表示实体对被遮蔽后只含关系模式部分的句子，en_t是原始句子的目标实体，f代表仅有源实体参与BERT模型预测目标实体时输出的数字，f用公式(3)计算：

其中，

和

都是人工构造的句子，句子中只有源实体和[MASK]，

为‘源实体 [MASK]’，

顺序相反，为‘[MASK]源实体’；B()为BERT模型中的BertForMaskedLM 函数，用于计算句子中[MASK]位置上目标实体en_t对应的数字，也即该位置填en_t的可能性。

进一步地，根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述从各句子集中选取正样本和负样本的方法为：丢弃句子集的中间部分，将句子集的前n_k个得分高的句子和后n_k个得分低的句子分别作为正样本和负样本来训练第k类的降噪器，n_k是超参数，用公式(4)计算：

n_k＝min(150,0.3×l_k) (4)

其中，l_k是用于远程监督关系抽取的训练集的第k类中目标实体是单子词实体的句子数。

进一步地，根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述句子的MASK-lhs特征的提取方法为：当预测句子中头实体位置的[MASK]时，若遮蔽尾实体则[MASK]对应的向量设为v₁，若不遮蔽尾实体则[MASK]对应的向量设为v₂；同样地，当预测尾实体位置的[MASK]时，若遮蔽头实体则[MASK]对应的向量设为v₃，若不遮蔽头实体则[MASK]对应的向量设为v₄；拼接v₁、v₂、v₃、v₄四个向量即为句子的MASK-lhs特征。

本发明提供的用于远程监督关系抽取的基于BERT和MLM的降噪方法具有如下有益效果：

首先，将实体对定义为源实体和目标实体。对于目标实体是单子词实体的句子，在语义层面上给出了量化实体对联系紧密程度的方法，进一步地，针对远程监督方法生成的任何句子，提出了MASK-lhs(MASK-last hidden states)特征，在语义层面给出了噪声句子MASK- lhs和非噪声句子MASK-lhs的差异，并通过捕获这种差异为每个关系类别训练了专用降噪器。充分利用了BERT模型中海量的语义知识来完成用于远程监督关系抽取的降噪工作，相比其他降噪方法具有更强的可解释性且本发明方法不作多实例学习的假设，因而可以避免抽取误差。

其次，经过降噪的训练集和原来的训练集具有完全相同的形式，因此本发明方法中的降噪器是即插即用的，可以应用于任何已有的关系抽取方法中，因而具有更强的实用性。

最后，在NYT数据集衍生出的ARNOR 2.0.0数据集上的实验表明，本发明在降噪和后续关系抽取方向均达到了目前最优的结果，可以帮助企业构建更高质量的知识图谱，减少人工质量评估的压力与工作量。

附图说明

图1为本实施方式用于远程监督关系抽取的基于BERT和MLM的降噪方法流程图；

图2为本实施方式为每个关系类别构建专用降噪器的示意图；

图3为本实施方式中句子的MASK-lhs特征提取方法示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。不过，在详细描述本发明的步骤之前，有必要结合用例对本发明的重要工具(BERT模型)进行简要叙述。

BERT全称Bidirectional Encoder Representation from Transformers，是基于Transformer的双向编码器表示，是一个庞大的预训练语言模型，具备超过100M的预训练参数。BERT模型在预训练阶段采用了超过33亿词汇的英文语料，使用了预测遮蔽词汇的训练方法，在句子输入模型时随机遮蔽某个词，然后利用句子中的其他词汇预测这个词。经过多轮训练收敛之后， BERT模型庞大的参数内就具备了语义知识，具体表现就是能根据句子中的语义和模型参数内的知识预测句子中被遮蔽的词汇。用一个句子说明，Intel,based in Santa Clara,Calif.,will invest more than$1billion in India over thenext five years,with$800million going to expand its research and developmentcenter in Bangalore,the company's chairman Craig R.Barrett said.(英特尔董事长克雷格·巴雷特说，未来五年，英特尔将在印度投资超过10亿美元，其中有8亿美元将用于扩大其在班加罗尔的研发中心。)可以看到这个句子中与India这个词相关的词汇只有Bangalore这个词(印度的一个城市)，经过验证，在遮蔽‘India’后，BERT可以捕捉如此长距离的语义关系并成功预测出India，这为本发明方法提供了强大的工具支持。BERT模型有一个大小为30522的词表，BERT模型预测词汇时实际上是通过BertForMaskedLM函数输出30522个数字来量化这30522个词可能填入该待预测词汇所在位置的可能性，例如上例中预测出了“India”指的是“India”这个词对应的数字是30522个数字中最大的。

图1是本实施方式用于远程监督关系抽取的基于BERT和MLM的降噪方法，所述用于远程监督关系抽取的基于BERT和MLM的降噪方法包括以下步骤：

步骤1：根据目标实体的确定规则，确定出每个关系类别中的目标实体。

针对每一关系类别，将每个句子中的头尾实体定义为一个目标实体和一个源实体，将每个句子中其余部分定义为关系模式。所述目标实体的确定规则为：1)、将头尾实体中在现实世界可能会与多个实体存在被标注关系的那个实体确定为目标实体，则另一实体即为源实体，其在该关系类别中只与该目标实体存在一对一的被标注关系；2)、如果头尾实体之间是一对一的标注关系，或者，头尾实体在现实世界中均可能会与多个实体存在被标注关系，则可以选择其中任何一个实体作为目标实体，例如对于表1中的(Jobs，Apple)，我们就选择“Apple” 为目标实体；3)假设在非噪声句子中，目标实体的正确预测需要源实体和关系模式的共同参与，因此，非噪声句子中的目标实体必须是可根据语义来预测的。

对于所述目标实体的确定规则中的1)举例：对于标签为“contains”的示例实体对(Europe， Norway)和包含此实体对的句子“Norway is a country in northern Europe”，这个句子的关系模式是“**is a country in northern**”。从语义学的角度来看，虽然这个句子不是噪声句子，但根据关系模式和“欧洲”无法预测“挪威”，因为“挪威”对“欧洲”的关系是一对多的，这里“多”的意思是“欧洲”包含了许多国家，把这些国家填入挪威的位置在语义上也是合理的(比如芬兰)。所以无法判定这个非噪声句子中的实体对(Europe，Norway)联系紧密。因此，必须把“欧洲” 作为目标实体，把“挪威”作为源实体，‘欧洲’这个位置只有填‘欧洲’在语义上才是合理的，也就是说，该位置‘Europe’对应的数字可以在一定程度上表示‘挪威’和‘欧洲’之联系的紧密程度。

步骤2：依据目标实体的正确预测确定噪声句子的判定规则。

现实社会中有许多存在两种关系以上的实体对。例如，A与美国既存在“出生地”的关系，也存在“总统”的关系。根据关系抽取领域中的远程监督方法，“A是美国总统”这句话会被标记为“出生地”关系。如果对训练集中所有类别只建立一个降噪器的话，这个句子将被视为非噪声句，因为这句话可以表达“总统”的关系。然而，从“出生地”的标注来看，由于不能表达其 “出生地”的标注关系，因此该句是一个噪声句。因此，根据噪声句子的确定规则，本实施方式为每个关系类别构建一个降噪器，如图2所示，以避免具有重叠关系的句子对降噪造成影响。根据关系抽取领域中的远程监督方法，在NA类中没有噪声句，因此NA类别不进行降噪操作。

在本实施方式中所述噪声句子的判定规则为：在非噪声句子中，目标实体的正确预测需要源实体和关系模式的共同参与，如果只基于源实体或关系模式中的一种就能预测目标实体，那么认为实体对是松散的，对应的句子将被视为噪声句，源实体和关系模式同时参与仍无法预测目标实体的句子，也会被认为是噪声句子。例如表1中的三个句子：在S-1中，如果BERT 模型看到Jobs就能预测Apple，遮蔽Jobs则无法预测Apple，就认为S-1可以表示Jobs和Apple的创始人关系；在S-2中，不看到Jobs也能预测Apple，在S-3中，看到Jobs也不能预测Apple，就说明S-2、S-3无法表示Jobs和Apple的关系。

表1实体对(Jobs，Apple)对应的包

在本实施方式中这一步骤需依据头尾实体这两个实体的依赖关系对包含单子词目标实体的句子打分，不同的分值代表这些句子不是噪声句子的不同的可能性，再按照不同的分值对这些句子进行排序。然而，BERT模型在运算过程中会对多子词实体进行拆分(比如“New York” 被拆分成“New”和“York”两个子词)，这样就失去了其完整的语义内涵，本发明认为拆分后的词组不能体现原实体的语义，也不能衡量实体对的依赖关系。因此，本实施方式从各关系类别对应的目标实体中筛选出单子词实体，并根据这些单子词实体所对应的句子不是噪声句子的可能性对这些句子排序。

利用公式(1)所示的BERT模型中的BertForMaskedLM函数(记作B)可以求得句子s中 [MASK]位置上目标实体en_t对应的数字，也即该位置填en_t的可能性。

G＝B(s,en_t) (1)

其中，s是待预测的句子，该句子中一定含有[MASK]字符；en_t是句子s中[MASK]字符遮蔽住的目标实体。

根据上述噪声句子的判定规则和式(1)，则可按照式(2)为每个句子不是噪声句子的可能性计算分值，计算方法如式(2)所示：源实体和关系模式同时参与时预测目标实体的可能性减去关系模式单独参与时预测目标实体的可能性再减去源实体单独参与时预测目标实体的可能性：

G_s＝B(en_s+rp,en_t)-B(rp,en_t)-f (2)

其中，en_s+rp、rp都表示改造过的句子，en_s+rp表示目标实体被遮蔽后同时包含源实体和关系模式的句子，rp则表示实体对被遮蔽后只含关系模式部分的句子，en_t是该句的目标实体，f代表仅有源实体参与时预测目标实体而输出的数字，f用公式(3)计算：

和

都是人工构造的句子，句子中只有源实体和[MASK]，

为‘源实体[MASK]’，

顺序相反，为‘[MASK]源实体’，先用BertForMaskedLM函数计算这两个句子中能够预测出目标实体的可能性，然后取其中较大者作为仅有源实体单独参与时预测目标实体的可能性。为便于理解，表2中列出了基于S-1、S-2和S-3的各个改造后的句子，位置上的粗体[MASK]代表需要在此处预测目标实体。

表2 S-1、S-2和S-3的各个改造后的句子

这样，先把每个类别中包含单子词目标实体的句子作为该类的一个句子集，本发明就可以根据不为噪声句子的可能性对这个句子集中的句子打分，然后根据得分对这个句子集排序。表3列出了S-1、S-2和S-3这三个句子对应的分数，可以发现非噪声句子S-1的得分G_s确实高于噪声句子S-2和S-3的得分。

表3 S-1、S-2和S-3这三个句子对应的分数

步骤4：从各句子集中选取正样本和负样本为对应的各关系类别建立用来训练二分类器的二分类数据集。

在步骤3中获得经过排序的句子集之后，本发明从中选取一部分得分高的句子作为正例，选取一部分得分低的句子作为负例共同组成一个用来训练二分类器的二分类数据集。为了提高此二分类数据集的置信度，本发明丢弃句子集的中间部分，将句子集的前n_k个和后n_k个作为正样本和负样本来训练第k类的降噪器，n_k是超参数，用公式(4)计算。

n_k＝min(150，0.3×l_k) (4)

其中l_k是训练集第k类中目标实体是单子词实体的句子数。

获得二分类数据集之后，对于二分类数据集中的句子，基于BERT模型本步骤给出每个句子的MASK-lhs(MASK-last hidden states)特征，利用噪声句子MASK-lhs特征和非噪声句子MASK-lhs特征间的差异为每个关系类别训练一个二分类器，将训练好的二分类器作为对应的各关系类别专用的用来识别噪声句子的降噪器，就可以对远程监督方法生成的任何句子降噪。

下面先以非噪声句子S-1和噪声句子S-2为例说明噪声句子的语义特点，然后给出MASK- lhs特征的计算方法。

如上所述，BERT模型具有预测单词的能力，表4列出了4个改造后的句子的预测结果 (只在加粗显示的[MASK]位置作预测)，如表4所示，在S-1这样的非噪声句子中，BERT 模型看到“Jobs”可以预测“Apple”，看不到“Jobs”就无法预测“Apple”；而在S-2这样的噪声句子中，无论BERT模型是否看到“Jobs”，都可以预测“Apple”，这就是噪声句子和非噪声句子的区别。

表4噪声句子和非噪声句子预测结果的差异

如图3，本发明使用非噪声句子S-1来说明特征MASK-lhs。首先，用[MASK](记为MASK- 1)遮蔽实体“Apple”来构造句子S1-1，通过删除实体“Jobs”并用[MASK](记为MASK-2)屏蔽实体“Apple”来构造S1-2。然后用v₁表示[MASK-1]在BRET模型中的最终隐藏状态，用v₂表示[MASK-2]在BRET模型中的最终隐藏状态。从语义上看，向量v₁在语义空间中接近于“Apple”，而v₂则远离“Apple”，因此，v₁与v₂有很大的不同，相反，在S-2这样的噪声句中，无论“Jobs”是否被删除，BERT都可以预测“Apple”，所以本发明认为这个噪声句子所生成的v₁和v₂应该更相似，期望全连接层能够捕捉到这种语义特征来降噪。

表5由S-1构造的S1-3、S1-4

为了避免遗漏信息，本发明交换两个实体，对他们实行相同的操作来构造S1-3和S1-4。如图3和表5所示，首先，用[MASK](记为MASK-3)遮蔽实体“Jobs”来构造句子S1-3，通过删除实体“Apple”并用[MASK](记为MASK-4)遮蔽实体“Jobs”来构造S1-4。然后用v₃表示[MASK-3]在BRET模型中的最终隐藏状态，用v₄表示[MASK-4]在BRET模型的最终隐藏状态。连接v₁，v₂，v₃，v₄，并添加全连接层和Softmax层来分类：

p＝softmax(W[concat(v₁,v₂,v₃,v₄)]+b) (5)

其中，W和b是权重矩阵和偏置向量，它们都是可学习参数，W∈R^2×4L，L是BERT模型中隐藏向量的长度；v₁，v₂，v₃，v₄是句子中对应[MASK]字符的隐藏向量；Softmax将数值向量转化为是否为噪声句子的相对概率p。

综上，所述MASK-lhs特征的提取过程如下，当预测头实体位置的[MASK]时，遮蔽尾实体时[MASK]对应的向量为v₁，不遮蔽尾实体时[MASK]对应的向量为v₂，噪声句子中v₁和v₂的相似度大于非噪声句子中v₁和v₂的相似度；同样地，当预测尾实体位置的[MASK]时，遮蔽头实体时[MASK]对应的向量为v₃，不遮蔽头实体时[MASK]对应的向量为v₄，噪声句子中v₃和v₄的相似度应大于非噪声句子中v₃和v₄的相似度。拼接v₁、v₂、v₃、v₄四个向量即为句子的MASK-lhs特征。

在降噪器中，单子词实体和多子词实体都被[MASK]字符所替换，例如“Bill Gatesis the co- founder of Microsoft.”这个句子会被改造为“[MASK]is the co-founderof Microsoft.”，这样降噪器就可以处理每一个句子而不用考虑其目标实体是否是单子词实体了，换句话说，降噪器可以判别任何句子。

步骤6：将用于远程监督关系抽取的训练集中的所有句子按关系类别送入对应的降噪器，找出并剔除噪声句子，完成对训练集的降噪。

在每个降噪器训练收敛之后，将训练集中的所有句子送入降噪器，找出并剔除噪声句子。根据远程监督假设，没有任何关系的NA类别不会产生噪声数据，所以也不需要降噪。降噪后，然后汇集各类，就获得了一个新的纯净的数据集。新数据集在形式上和原来的数据集完全相同，只删除了噪声句子。因此可以结合应用于任何已有的关系抽取模型，是即插即用的。

本实施方式的实施过程采用百度发布的ARNOR 2.0.0数据集，该数据集的各项统计数据如表6所示，其中目标实体列是根据目标实体的确定规则得出的。

表6 ARNOR 2.0.0数据集描述

NYT(头实体/尾实体/关系)	训练集	验证集	测试集	目标实体
					location/location/contains	51,766	479	611	头实体
person/business/company	5,595	113	105	尾实体
					people/location/place_lived	7,197	198	185	尾实体
people/nation/nationality	8,079	117	91	尾实体
					people/location/place_of_birth	3,173	15	13	尾实体
people/location/place_of_death	1,936	14	8	尾实体
					country/location/capital	7,690	15	14	头实体
business/location/place_founded	412	0	4	尾实体
					location/location/neighborhood_of	5,553	7	3	头实体
company/person/founders	800	6	10	头实体
					people/person/children	506	11	6	头实体

在通用的基于BERT模型的文本分类方法上应用并比较了本发明降噪方法和其他四种现有降噪方法，如表7所示，本发明方法在ARNOR 2.0.0数据集上获得了最高的F1值。此外，经过降噪后，本发明方法删除了92403个存在关系的句子中的55634个，在不显著降低召回率的情况下显著提高了关系抽取的精确率，说明本发明方法能够有效地降低噪声句的影响。

表7 NS-Hunter与其他baseline的比较

本发明方法中的降噪器是即插即用的，可以很容易地与关系抽取方法相结合，表8示出了本发明方法中的降噪器和CNN关系抽取模型的结合效果。

表8本发明方法中的降噪器和CNN关系抽取模型的结合效果

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在并不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，包括如下步骤：

步骤2：基于目标实体的正确预测确定噪声句子的判定规则；

2.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，所述目标实体的确定规则为：1)、针对头尾实体，在现实世界中可能会与多个实体存在被标注关系的那个实体确定为目标实体，则另一实体即为源实体，其在该关系类别中只与该目标实体存在一对一的被标注关系；2)、如果头尾实体之间是一对一的标注关系，或者，头尾实体在现实世界中均可能会与多个实体存在被标注关系，则可以选择其中任何一个实体作为目标实体；3)、非噪声句子中的目标实体必须是可根据语义来预测的。

3.根据权利要求2所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，所述噪声句子的判定规则为：在非噪声句子中，目标实体的正确预测需要源实体和关系模式的共同参与；如果只基于源实体或关系模式中的一种就能预测目标实体，那么认为实体对是松散的，对应的句子被视为噪声句，源实体和关系模式同时参与仍无法预测目标实体的句子，也被认为是噪声句子。

4.根据权利要求3所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，所述单子词实体所对应的句子不是噪声句子的可能性的确定方法为：按照式(2)对包含单子词目标实体的每个句子不是噪声句子的可能性计算分值，不同的分值代表这些句子不是噪声句子的可能性：

G_s＝B(en_s+rp，en_t)-B(rp，en_t)-f (2)

其中，

和

都是人工构造的句子，句子中只有源实体和[MASK]，

为‘源实体[MASK]’，

顺序相反，为‘[MASK]源实体’；B()为BERT模型中的BertForMaskedLM函数，用于计算句子中[MASK]位置上目标实体en_t对应的数字，也即该位置填en_t的可能性。

5.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，所述从各句子集中选取正样本和负样本的方法为：丢弃句子集的中间部分，将句子集的前n_k个得分高的句子和后n_k个得分低的句子分别作为正样本和负样本来训练第k类的降噪器，n_k是超参数，用公式(4)计算：

n_k＝min(150，0.3×l_k) (4)

6.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法，其特征在于，所述句子的MASK-lhs特征的提取方法为：当预测句子中头实体位置的[MASK]时，若遮蔽尾实体则[MASK]对应的向量设为v₁，若不遮蔽尾实体则[MASK]对应的向量设为v₂；同样地，当预测尾实体位置的[MASK]时，若遮蔽头实体则[MASK]对应的向量设为v₃，若不遮蔽头实体则[MASK]对应的向量设为v₄；拼接v₁、v₂、v₃、v₄四个向量即为句子的MASK-lhs特征。