CN113254429A - 一种用于远程监督关系抽取的基于bert和mlm的降噪方法 - Google Patents

一种用于远程监督关系抽取的基于bert和mlm的降噪方法 Download PDF

Info

Publication number
CN113254429A
CN113254429A CN202110525465.9A CN202110525465A CN113254429A CN 113254429 A CN113254429 A CN 113254429A CN 202110525465 A CN202110525465 A CN 202110525465A CN 113254429 A CN113254429 A CN 113254429A
Authority
CN
China
Prior art keywords
entity
sentence
sentences
noise
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110525465.9A
Other languages
English (en)
Other versions
CN113254429B (zh
Inventor
沈铁麟
王大玲
冯时
张一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110525465.9A priority Critical patent/CN113254429B/zh
Publication of CN113254429A publication Critical patent/CN113254429A/zh
Application granted granted Critical
Publication of CN113254429B publication Critical patent/CN113254429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于远程监督关系抽取的基于BERT和MLM的降噪方法,涉及远程监督关系抽取技术领域。将实体对定义为源实体和目标实体;从各类别对应的目标实体中筛选出单子词实体,并根据其对应的句子不是噪声句子的可能性对这些句子排序并构成句子集;从各句子集选取正负样本为各类别建立数据集;基于数据集中句子的实体在BERT模型最后一层编码器输出的隐藏状态,提取句子的MASK‑lhs特征;利用全连接层捕获噪声句子与非噪声句子的MASK‑lhs特征差异来训练二分类器,将训练好的二分类器作为各类别的专用降噪器;将训练集中的所有句子按类别送入对应的降噪器,找出并剔除噪声句子。降噪器是即插即用的,具有实用性。

Description

一种用于远程监督关系抽取的基于BERT和MLM的降噪方法
技术领域
本发明涉及远程监督关系抽取技术领域,具体涉及一种用于远程监督关系抽取的基于 BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码 器表示)和MLM(Masked Language Model,遮蔽语言模型)的降噪方法。
背景技术
知识图谱(Knowledge Graph)是一种大规模的结构化数据集合,它用于描述现实世界中 实体之间的联系,扩充知识结构,进而能够通过计算机来识别并进行分析处理。举个例子, 用户在Google的搜索框中输入[泰山],在网页右侧会出现泰山的海拔、高度、位置等信息, 这就是由百科知识图谱赋能搜索引擎业务的成果。近年来,学术界和工业界普遍认为,想要 达到更好的语言理解能力、想给用户提供更人性化的搜索服务,必须在算法中融入先验知识, 用数据、知识共同构建精细而深度的语言算法。
知识图谱由三元组(h,r,t)组成(h、r、t分别表示头实体、关系、尾实体),其生成流程 一般是先在无结构文本的某个句子中识别出头尾实体,然后根据该句子对此实体对的关系进 行分类,叫做关系抽取。关系抽取可定义为给定实体对情况下的短文本多标签分类问题,现 有的关系抽取技术基本都衍生于深度学习方法。例如,给定句子:「康熙是雍正的父亲」以 及句中包含的两个实体「康熙」与「雍正」,关系抽取模型可以通过语义得到「父亲」的关 系,并最终抽取出(雍正,父亲,康熙)的知识三元组。
虽然深度学习能够自动学习特征,效果也大幅优于传统机器学习方法,但其对标注数据 的需求十分庞大,人工标注数据缓慢而且昂贵,有研究者提出了远程监督方法,并已成为关 系抽取方向的重要分支。远程监督的基本假设为如果两个实体在已有知识库中存在某种关系, 那么认为包含这两个实体的句子全部可以表现此种关系,将这些句子打上该关系的标签,作 为一个包加入关系抽取模型的训练集中。这个假设无疑会带来大量噪声数据,承上文的实体 对,「康熙和雍正都是清朝的皇帝」就是一个无法表示「父亲」关系的噪声句子,这些噪声 句子会使关系抽取模型学习到很多错误的信息从而降低精确率。
之后许多工作都致力于远程监督数据集的降噪,现有的降噪工作通常使用卷积神经网络、 循环神经网络等特征抽取器编码句子结构,这些传统特征抽取器对语义的编码能力较弱,也 没有在模型中融入先验知识,因而无法达到很好的降噪效果,模型的可解释性也普遍较差。 另外,现有的很多降噪方法遵从多实例学习的假设,认为关系抽取模型的训练集中一个实体 对对应的句子集里至少有一个句子不为噪声句,这样,当一个包内的句子全为噪声句子时, 会造成抽取误差。
发明内容
针对现有技术的不足,本发明提出一种用于远程监督关系抽取的基于BERT和MLM的 降噪方法。
本发明的技术方案是:
一种用于远程监督关系抽取的基于BERT和MLM的降噪方法,包括如下步骤:
步骤1:根据目标实体的确定规则,将每个关系类别中的头尾实体分别确定为目标实体 和源实体;
步骤2:基于目标实体的正确预测确定噪声句子的判定规则;
步骤3:从各关系类别对应的目标实体中筛选出单子词实体,并根据这些单子词实体所 对应的句子不是噪声句子的可能性对这些句子排序并构成句子集;
步骤4:从各句子集中选取正样本和负样本为对应的各关系类别建立用来训练二分类器 的二分类数据集;
步骤5:对于二分类数据集中的句子,基于句子中实体在BERT模型最后一层编码器输 出的隐藏状态,提取句子的MASK-lhs特征,利用全连接层捕获噪声句子的MASK-lhs特征和非噪声句子的MASK-lhs特征中的差异来训练二分类器,将训练好的二分类器作为对应的关系类别专用的降噪器;
步骤6:将用于远程监督关系抽取的训练集中的所有句子按类别送入对应的降噪器,找 出并剔除噪声句子,完成对训练集的降噪。
进一步地,根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述目标实体的确定规则为:1)、针对头尾实体,在现实世界中可能会与多个实体存在被标注关系的那个实体确定为目标实体,则另一实体即为源实体,其在该关系类别中只与该目标实体 存在一对一的被标注关系;2)、如果头尾实体之间是一对一的标注关系,或者,头尾实体在 现实世界中均可能会与多个实体存在被标注关系,则可以选择其中任何一个实体作为目标实 体;3)、非噪声句子中的目标实体必须是可根据语义来预测的。
进一步地,根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述噪声句子的判定规则为:在非噪声句子中,目标实体的正确预测需要源实体和关系模式的共 同参与;如果只基于源实体或关系模式中的一种就能预测目标实体,那么认为实体对是松散 的,对应的句子被视为噪声句,源实体和关系模式同时参与仍无法预测目标实体的句子,也 被认为是噪声句子。
进一步地,根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述单子词实体所对应的句子不是噪声句子的可能性的确定方法为:按照式(2)对包含单子词目 标实体的每个句子不是噪声句子的可能性计算分值,不同的分值代表这些句子不是噪声句子 的可能性:
Gs=B(ens+rp,ent)-B(rp,ent)-f (2)
其中,ens+rp、rp都表示改造过的句子,ens+rp表示目标实体被遮蔽且包含源实体和 关系模式的句子,rp则表示实体对被遮蔽后只含关系模式部分的句子,ent是原始句子的目标 实体,f代表仅有源实体参与BERT模型预测目标实体时输出的数字,f用公式(3)计算:
Figure BDA0003064363790000031
其中,
Figure BDA0003064363790000032
Figure BDA0003064363790000033
都是人工构造的句子,句子中只有源实体和[MASK],
Figure BDA0003064363790000034
为‘源实体 [MASK]’,
Figure BDA0003064363790000035
顺序相反,为‘[MASK]源实体’;B()为BERT模型中的BertForMaskedLM 函数,用于计算句子中[MASK]位置上目标实体ent对应的数字,也即该位置填ent的可能性。
进一步地,根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述从各句子集中选取正样本和负样本的方法为:丢弃句子集的中间部分,将句子集的前nk个得 分高的句子和后nk个得分低的句子分别作为正样本和负样本来训练第k类的降噪器,nk是超 参数,用公式(4)计算:
nk=min(150,0.3×lk) (4)
其中,lk是用于远程监督关系抽取的训练集的第k类中目标实体是单子词实体的句子数。
进一步地,根据所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述句子的MASK-lhs特征的提取方法为:当预测句子中头实体位置的[MASK]时,若遮蔽尾实体则[MASK]对应的向量设为v1,若不遮蔽尾实体则[MASK]对应的向量设为v2;同样地,当预 测尾实体位置的[MASK]时,若遮蔽头实体则[MASK]对应的向量设为v3,若不遮蔽头实体则[MASK]对应的向量设为v4;拼接v1、v2、v3、v4四个向量即为句子的MASK-lhs特征。
本发明提供的用于远程监督关系抽取的基于BERT和MLM的降噪方法具有如下有益效 果:
首先,将实体对定义为源实体和目标实体。对于目标实体是单子词实体的句子,在语义 层面上给出了量化实体对联系紧密程度的方法,进一步地,针对远程监督方法生成的任何句 子,提出了MASK-lhs(MASK-last hidden states)特征,在语义层面给出了噪声句子MASK- lhs和非噪声句子MASK-lhs的差异,并通过捕获这种差异为每个关系类别训练了专用降噪器。 充分利用了BERT模型中海量的语义知识来完成用于远程监督关系抽取的降噪工作,相比其 他降噪方法具有更强的可解释性且本发明方法不作多实例学习的假设,因而可以避免抽取误 差。
其次,经过降噪的训练集和原来的训练集具有完全相同的形式,因此本发明方法中的降 噪器是即插即用的,可以应用于任何已有的关系抽取方法中,因而具有更强的实用性。
最后,在NYT数据集衍生出的ARNOR 2.0.0数据集上的实验表明,本发明在降噪和后 续关系抽取方向均达到了目前最优的结果,可以帮助企业构建更高质量的知识图谱,减少人 工质量评估的压力与工作量。
附图说明
图1为本实施方式用于远程监督关系抽取的基于BERT和MLM的降噪方法流程图;
图2为本实施方式为每个关系类别构建专用降噪器的示意图;
图3为本实施方式中句子的MASK-lhs特征提取方法示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了 本申请的较佳实施方式。不过,在详细描述本发明的步骤之前,有必要结合用例对本发明的 重要工具(BERT模型)进行简要叙述。
BERT全称Bidirectional Encoder Representation from Transformers,是基于Transformer的 双向编码器表示,是一个庞大的预训练语言模型,具备超过100M的预训练参数。BERT模型 在预训练阶段采用了超过33亿词汇的英文语料,使用了预测遮蔽词汇的训练方法,在句子输 入模型时随机遮蔽某个词,然后利用句子中的其他词汇预测这个词。经过多轮训练收敛之后, BERT模型庞大的参数内就具备了语义知识,具体表现就是能根据句子中的语义和模型参数 内的知识预测句子中被遮蔽的词汇。用一个句子说明,Intel,based in Santa Clara,Calif.,will invest more than$1billion in India over thenext five years,with$800million going to expand its research and developmentcenter in Bangalore,the company's chairman Craig R.Barrett said.(英特 尔董事长克雷格·巴雷特说,未来五年,英特尔将在印度投资超过10亿美元,其中有8亿美 元将用于扩大其在班加罗尔的研发中心。)可以看到这个句子中与India这个词相关的词汇 只有Bangalore这个词(印度的一个城市),经过验证,在遮蔽‘India’后,BERT可以捕捉如 此长距离的语义关系并成功预测出India,这为本发明方法提供了强大的工具支持。BERT模 型有一个大小为30522的词表,BERT模型预测词汇时实际上是通过BertForMaskedLM函数 输出30522个数字来量化这30522个词可能填入该待预测词汇所在位置的可能性,例如上例中预测出了“India”指的是“India”这个词对应的数字是30522个数字中最大的。
图1是本实施方式用于远程监督关系抽取的基于BERT和MLM的降噪方法,所述用于远程监督关系抽取的基于BERT和MLM的降噪方法包括以下步骤:
步骤1:根据目标实体的确定规则,确定出每个关系类别中的目标实体。
针对每一关系类别,将每个句子中的头尾实体定义为一个目标实体和一个源实体,将每 个句子中其余部分定义为关系模式。所述目标实体的确定规则为:1)、将头尾实体中在现实 世界可能会与多个实体存在被标注关系的那个实体确定为目标实体,则另一实体即为源实体, 其在该关系类别中只与该目标实体存在一对一的被标注关系;2)、如果头尾实体之间是一对 一的标注关系,或者,头尾实体在现实世界中均可能会与多个实体存在被标注关系,则可以 选择其中任何一个实体作为目标实体,例如对于表1中的(Jobs,Apple),我们就选择“Apple” 为目标实体;3)假设在非噪声句子中,目标实体的正确预测需要源实体和关系模式的共同参 与,因此,非噪声句子中的目标实体必须是可根据语义来预测的。
对于所述目标实体的确定规则中的1)举例:对于标签为“contains”的示例实体对(Europe, Norway)和包含此实体对的句子“Norway is a country in northern Europe”,这个句子的关系模 式是“**is a country in northern**”。从语义学的角度来看,虽然这个句子不是噪声句子,但根 据关系模式和“欧洲”无法预测“挪威”,因为“挪威”对“欧洲”的关系是一对多的,这里“多”的意 思是“欧洲”包含了许多国家,把这些国家填入挪威的位置在语义上也是合理的(比如芬兰)。 所以无法判定这个非噪声句子中的实体对(Europe,Norway)联系紧密。因此,必须把“欧洲” 作为目标实体,把“挪威”作为源实体,‘欧洲’这个位置只有填‘欧洲’在语义上才是合理的,也 就是说,该位置‘Europe’对应的数字可以在一定程度上表示‘挪威’和‘欧洲’之联系的紧密程度。
步骤2:依据目标实体的正确预测确定噪声句子的判定规则。
现实社会中有许多存在两种关系以上的实体对。例如,A与美国既存在“出生地”的关系, 也存在“总统”的关系。根据关系抽取领域中的远程监督方法,“A是美国总统”这句话会被标 记为“出生地”关系。如果对训练集中所有类别只建立一个降噪器的话,这个句子将被视为非 噪声句,因为这句话可以表达“总统”的关系。然而,从“出生地”的标注来看,由于不能表达其 “出生地”的标注关系,因此该句是一个噪声句。因此,根据噪声句子的确定规则,本实施方式 为每个关系类别构建一个降噪器,如图2所示,以避免具有重叠关系的句子对降噪造成影响。 根据关系抽取领域中的远程监督方法,在NA类中没有噪声句,因此NA类别不进行降噪操 作。
在本实施方式中所述噪声句子的判定规则为:在非噪声句子中,目标实体的正确预测需 要源实体和关系模式的共同参与,如果只基于源实体或关系模式中的一种就能预测目标实体, 那么认为实体对是松散的,对应的句子将被视为噪声句,源实体和关系模式同时参与仍无法 预测目标实体的句子,也会被认为是噪声句子。例如表1中的三个句子:在S-1中,如果BERT 模型看到Jobs就能预测Apple,遮蔽Jobs则无法预测Apple,就认为S-1可以表示Jobs和Apple的创始人关系;在S-2中,不看到Jobs也能预测Apple,在S-3中,看到Jobs也不能 预测Apple,就说明S-2、S-3无法表示Jobs和Apple的关系。
表1实体对(Jobs,Apple)对应的包
Figure BDA0003064363790000061
步骤3:从各关系类别对应的目标实体中筛选出单子词实体,并根据这些单子词实体所 对应的句子不是噪声句子的可能性对这些句子排序并构成句子集;
在本实施方式中这一步骤需依据头尾实体这两个实体的依赖关系对包含单子词目标实体 的句子打分,不同的分值代表这些句子不是噪声句子的不同的可能性,再按照不同的分值对 这些句子进行排序。然而,BERT模型在运算过程中会对多子词实体进行拆分(比如“New York” 被拆分成“New”和“York”两个子词),这样就失去了其完整的语义内涵,本发明认为拆分后的 词组不能体现原实体的语义,也不能衡量实体对的依赖关系。因此,本实施方式从各关系类 别对应的目标实体中筛选出单子词实体,并根据这些单子词实体所对应的句子不是噪声句子 的可能性对这些句子排序。
利用公式(1)所示的BERT模型中的BertForMaskedLM函数(记作B)可以求得句子s中 [MASK]位置上目标实体ent对应的数字,也即该位置填ent的可能性。
G=B(s,ent) (1)
其中,s是待预测的句子,该句子中一定含有[MASK]字符;ent是句子s中[MASK]字符 遮蔽住的目标实体。
根据上述噪声句子的判定规则和式(1),则可按照式(2)为每个句子不是噪声句子的 可能性计算分值,计算方法如式(2)所示:源实体和关系模式同时参与时预测目标实体的可 能性减去关系模式单独参与时预测目标实体的可能性再减去源实体单独参与时预测目标实体 的可能性:
Gs=B(ens+rp,ent)-B(rp,ent)-f (2)
其中,ens+rp、rp都表示改造过的句子,ens+rp表示目标实体被遮蔽后同时包含源实 体和关系模式的句子,rp则表示实体对被遮蔽后只含关系模式部分的句子,ent是该句的目标 实体,f代表仅有源实体参与时预测目标实体而输出的数字,f用公式(3)计算:
Figure BDA0003064363790000071
Figure BDA0003064363790000072
Figure BDA0003064363790000073
都是人工构造的句子,句子中只有源实体和[MASK],
Figure BDA0003064363790000074
为‘源实体[MASK]’,
Figure BDA0003064363790000075
顺序相反,为‘[MASK]源实体’,先用BertForMaskedLM函数计算这两个句 子中能够预测出目标实体的可能性,然后取其中较大者作为仅有源实体单独参与时预测目标实体的可能性。为便于理解,表2中列出了基于S-1、S-2和S-3的各个改造后的句子,位置 上的粗体[MASK]代表需要在此处预测目标实体。
表2 S-1、S-2和S-3的各个改造后的句子
Figure BDA0003064363790000076
这样,先把每个类别中包含单子词目标实体的句子作为该类的一个句子集,本发明就可 以根据不为噪声句子的可能性对这个句子集中的句子打分,然后根据得分对这个句子集排序。 表3列出了S-1、S-2和S-3这三个句子对应的分数,可以发现非噪声句子S-1的得分Gs确实 高于噪声句子S-2和S-3的得分。
表3 S-1、S-2和S-3这三个句子对应的分数
Figure BDA0003064363790000077
步骤4:从各句子集中选取正样本和负样本为对应的各关系类别建立用来训练二分类器 的二分类数据集。
在步骤3中获得经过排序的句子集之后,本发明从中选取一部分得分高的句子作为正例, 选取一部分得分低的句子作为负例共同组成一个用来训练二分类器的二分类数据集。为了提 高此二分类数据集的置信度,本发明丢弃句子集的中间部分,将句子集的前nk个和后nk个作 为正样本和负样本来训练第k类的降噪器,nk是超参数,用公式(4)计算。
nk=min(150,0.3×lk) (4)
其中lk是训练集第k类中目标实体是单子词实体的句子数。
步骤5:对于二分类数据集中的句子,基于句子中实体在BERT模型最后一层编码器输 出的隐藏状态,提取句子的MASK-lhs特征,利用全连接层捕获噪声句子的MASK-lhs特征和非噪声句子的MASK-lhs特征中的差异来训练二分类器,将训练好的二分类器作为对应的关系类别专用的降噪器;
获得二分类数据集之后,对于二分类数据集中的句子,基于BERT模型本步骤给出每个 句子的MASK-lhs(MASK-last hidden states)特征,利用噪声句子MASK-lhs特征和非噪声句 子MASK-lhs特征间的差异为每个关系类别训练一个二分类器,将训练好的二分类器作为对 应的各关系类别专用的用来识别噪声句子的降噪器,就可以对远程监督方法生成的任何句子 降噪。
下面先以非噪声句子S-1和噪声句子S-2为例说明噪声句子的语义特点,然后给出MASK- lhs特征的计算方法。
如上所述,BERT模型具有预测单词的能力,表4列出了4个改造后的句子的预测结果 (只在加粗显示的[MASK]位置作预测),如表4所示,在S-1这样的非噪声句子中,BERT 模型看到“Jobs”可以预测“Apple”,看不到“Jobs”就无法预测“Apple”;而在S-2这样的噪声句子中,无论BERT模型是否看到“Jobs”,都可以预测“Apple”,这就是噪声句子和非噪声句子的区别。
表4噪声句子和非噪声句子预测结果的差异
Figure BDA0003064363790000081
Figure BDA0003064363790000091
如图3,本发明使用非噪声句子S-1来说明特征MASK-lhs。首先,用[MASK](记为MASK- 1)遮蔽实体“Apple”来构造句子S1-1,通过删除实体“Jobs”并用[MASK](记为MASK-2)屏 蔽实体“Apple”来构造S1-2。然后用v1表示[MASK-1]在BRET模型中的最终隐藏状态,用v2表示[MASK-2]在BRET模型中的最终隐藏状态。从语义上看,向量v1在语义空间中接近于“Apple”,而v2则远离“Apple”,因此,v1与v2有很大的不同,相反,在S-2这样的噪声句中, 无论“Jobs”是否被删除,BERT都可以预测“Apple”,所以本发明认为这个噪声句子所生成的v1和v2应该更相似,期望全连接层能够捕捉到这种语义特征来降噪。
表5由S-1构造的S1-3、S1-4
Figure BDA0003064363790000092
为了避免遗漏信息,本发明交换两个实体,对他们实行相同的操作来构造S1-3和S1-4。 如图3和表5所示,首先,用[MASK](记为MASK-3)遮蔽实体“Jobs”来构造句子S1-3,通过删除实体“Apple”并用[MASK](记为MASK-4)遮蔽实体“Jobs”来构造S1-4。然后用v3表示[MASK-3]在BRET模型中的最终隐藏状态,用v4表示[MASK-4]在BRET模型的最终隐藏状 态。连接v1,v2,v3,v4,并添加全连接层和Softmax层来分类:
p=softmax(W[concat(v1,v2,v3,v4)]+b) (5)
其中,W和b是权重矩阵和偏置向量,它们都是可学习参数,W∈R2×4L,L是BERT模 型中隐藏向量的长度;v1,v2,v3,v4是句子中对应[MASK]字符的隐藏向量;Softmax将数 值向量转化为是否为噪声句子的相对概率p。
综上,所述MASK-lhs特征的提取过程如下,当预测头实体位置的[MASK]时,遮蔽尾实 体时[MASK]对应的向量为v1,不遮蔽尾实体时[MASK]对应的向量为v2,噪声句子中v1和v2的相似度大于非噪声句子中v1和v2的相似度;同样地,当预测尾实体位置的[MASK]时,遮蔽 头实体时[MASK]对应的向量为v3,不遮蔽头实体时[MASK]对应的向量为v4,噪声句子中v3和v4的相似度应大于非噪声句子中v3和v4的相似度。拼接v1、v2、v3、v4四个向量即为句子的MASK-lhs特征。
在降噪器中,单子词实体和多子词实体都被[MASK]字符所替换,例如“Bill Gatesis the co- founder of Microsoft.”这个句子会被改造为“[MASK]is the co-founderof Microsoft.”,这样降噪 器就可以处理每一个句子而不用考虑其目标实体是否是单子词实体了,换句话说,降噪器可 以判别任何句子。
步骤6:将用于远程监督关系抽取的训练集中的所有句子按关系类别送入对应的降噪器, 找出并剔除噪声句子,完成对训练集的降噪。
在每个降噪器训练收敛之后,将训练集中的所有句子送入降噪器,找出并剔除噪声句子。 根据远程监督假设,没有任何关系的NA类别不会产生噪声数据,所以也不需要降噪。降噪 后,然后汇集各类,就获得了一个新的纯净的数据集。新数据集在形式上和原来的数据集完 全相同,只删除了噪声句子。因此可以结合应用于任何已有的关系抽取模型,是即插即用的。
本实施方式的实施过程采用百度发布的ARNOR 2.0.0数据集,该数据集的各项统计数据 如表6所示,其中目标实体列是根据目标实体的确定规则得出的。
表6 ARNOR 2.0.0数据集描述
NYT(头实体/尾实体/关系) 训练集 验证集 测试集 目标实体
location/location/contains 51,766 479 611 头实体
person/business/company 5,595 113 105 尾实体
people/location/place_lived 7,197 198 185 尾实体
people/nation/nationality 8,079 117 91 尾实体
people/location/place_of_birth 3,173 15 13 尾实体
people/location/place_of_death 1,936 14 8 尾实体
country/location/capital 7,690 15 14 头实体
business/location/place_founded 412 0 4 尾实体
location/location/neighborhood_of 5,553 7 3 头实体
company/person/founders 800 6 10 头实体
people/person/children 506 11 6 头实体
在通用的基于BERT模型的文本分类方法上应用并比较了本发明降噪方法和其他四种现 有降噪方法,如表7所示,本发明方法在ARNOR 2.0.0数据集上获得了最高的F1值。此外, 经过降噪后,本发明方法删除了92403个存在关系的句子中的55634个,在不显著降低召回 率的情况下显著提高了关系抽取的精确率,说明本发明方法能够有效地降低噪声句的影响。
表7 NS-Hunter与其他baseline的比较
Figure BDA0003064363790000101
Figure BDA0003064363790000111
本发明方法中的降噪器是即插即用的,可以很容易地与关系抽取方法相结合,表8示出 了本发明方法中的降噪器和CNN关系抽取模型的结合效果。
表8本发明方法中的降噪器和CNN关系抽取模型的结合效果
Figure BDA0003064363790000112
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员 应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的 限定。实施例中的细节并不构成对本发明范围的限制,在并不背离本发明的精神和范围的情 况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保 护范围之内。

Claims (6)

1.一种用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,包括如下步骤:
步骤1:根据目标实体的确定规则,将每个关系类别中的头尾实体分别确定为目标实体和源实体;
步骤2:基于目标实体的正确预测确定噪声句子的判定规则;
步骤3:从各关系类别对应的目标实体中筛选出单子词实体,并根据这些单子词实体所对应的句子不是噪声句子的可能性对这些句子排序并构成句子集;
步骤4:从各句子集中选取正样本和负样本为对应的各关系类别建立用来训练二分类器的二分类数据集;
步骤5:对于二分类数据集中的句子,基于句子中实体在BERT模型最后一层编码器输出的隐藏状态,提取句子的MASK-lhs特征,利用全连接层捕获噪声句子的MASK-lhs特征和非噪声句子的MASK-lhs特征中的差异来训练二分类器,将训练好的二分类器作为对应的关系类别专用的降噪器;
步骤6:将用于远程监督关系抽取的训练集中的所有句子按类别送入对应的降噪器,找出并剔除噪声句子,完成对训练集的降噪。
2.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,所述目标实体的确定规则为:1)、针对头尾实体,在现实世界中可能会与多个实体存在被标注关系的那个实体确定为目标实体,则另一实体即为源实体,其在该关系类别中只与该目标实体存在一对一的被标注关系;2)、如果头尾实体之间是一对一的标注关系,或者,头尾实体在现实世界中均可能会与多个实体存在被标注关系,则可以选择其中任何一个实体作为目标实体;3)、非噪声句子中的目标实体必须是可根据语义来预测的。
3.根据权利要求2所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,所述噪声句子的判定规则为:在非噪声句子中,目标实体的正确预测需要源实体和关系模式的共同参与;如果只基于源实体或关系模式中的一种就能预测目标实体,那么认为实体对是松散的,对应的句子被视为噪声句,源实体和关系模式同时参与仍无法预测目标实体的句子,也被认为是噪声句子。
4.根据权利要求3所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,所述单子词实体所对应的句子不是噪声句子的可能性的确定方法为:按照式(2)对包含单子词目标实体的每个句子不是噪声句子的可能性计算分值,不同的分值代表这些句子不是噪声句子的可能性:
Gs=B(ens+rp,ent)-B(rp,ent)-f (2)
其中,ens+rp、rp都表示改造过的句子,ens+rp表示目标实体被遮蔽且包含源实体和关系模式的句子,rp则表示实体对被遮蔽后只含关系模式部分的句子,ent是原始句子的目标实体,f代表仅有源实体参与BERT模型预测目标实体时输出的数字,f用公式(3)计算:
Figure FDA0003064363780000021
其中,
Figure FDA0003064363780000022
Figure FDA0003064363780000023
都是人工构造的句子,句子中只有源实体和[MASK],
Figure FDA0003064363780000024
为‘源实体[MASK]’,
Figure FDA0003064363780000025
顺序相反,为‘[MASK]源实体’;B()为BERT模型中的BertForMaskedLM函数,用于计算句子中[MASK]位置上目标实体ent对应的数字,也即该位置填ent的可能性。
5.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,所述从各句子集中选取正样本和负样本的方法为:丢弃句子集的中间部分,将句子集的前nk个得分高的句子和后nk个得分低的句子分别作为正样本和负样本来训练第k类的降噪器,nk是超参数,用公式(4)计算:
nk=min(150,0.3×lk) (4)
其中,lk是用于远程监督关系抽取的训练集的第k类中目标实体是单子词实体的句子数。
6.根据权利要求1所述的用于远程监督关系抽取的基于BERT和MLM的降噪方法,其特征在于,所述句子的MASK-lhs特征的提取方法为:当预测句子中头实体位置的[MASK]时,若遮蔽尾实体则[MASK]对应的向量设为v1,若不遮蔽尾实体则[MASK]对应的向量设为v2;同样地,当预测尾实体位置的[MASK]时,若遮蔽头实体则[MASK]对应的向量设为v3,若不遮蔽头实体则[MASK]对应的向量设为v4;拼接v1、v2、v3、v4四个向量即为句子的MASK-lhs特征。
CN202110525465.9A 2021-05-13 2021-05-13 一种用于远程监督关系抽取的基于bert和mlm的降噪方法 Active CN113254429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525465.9A CN113254429B (zh) 2021-05-13 2021-05-13 一种用于远程监督关系抽取的基于bert和mlm的降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525465.9A CN113254429B (zh) 2021-05-13 2021-05-13 一种用于远程监督关系抽取的基于bert和mlm的降噪方法

Publications (2)

Publication Number Publication Date
CN113254429A true CN113254429A (zh) 2021-08-13
CN113254429B CN113254429B (zh) 2023-07-21

Family

ID=77181842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525465.9A Active CN113254429B (zh) 2021-05-13 2021-05-13 一种用于远程监督关系抽取的基于bert和mlm的降噪方法

Country Status (1)

Country Link
CN (1) CN113254429B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN113987150A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于bert的多层注意力机制关系抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254572A1 (en) * 2007-01-05 2009-10-08 Redlich Ron M Digital information infrastructure and method
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111813954A (zh) * 2020-06-28 2020-10-23 北京邮电大学 文本语句中两实体的关系确定方法、装置和电子设备
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254572A1 (en) * 2007-01-05 2009-10-08 Redlich Ron M Digital information infrastructure and method
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning
CN111813954A (zh) * 2020-06-28 2020-10-23 北京邮电大学 文本语句中两实体的关系确定方法、装置和电子设备
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIELIN SHEN等: "NS-hunter:BERT cloze based semantic denoising for distantly supervised relation classification", CHINESE COMPUTATIONAL LINGUISTICS, pages 324 - 340 *
李冬梅;张扬;李东远;林丹琼;: "实体关系抽取方法研究综述", 计算机研究与发展, vol. 57, no. 07, pages 1424 - 1448 *
王嘉宁;何怡;朱仁煜;刘婷婷;高明;: "基于远程监督的关系抽取技术", 华东师范大学学报(自然科学版), no. 05, pages 113 - 130 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987150A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于bert的多层注意力机制关系抽取方法
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法

Also Published As

Publication number Publication date
CN113254429B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Le et al. Pattern generation strategies for improving recognition of handwritten mathematical expressions
CN111259724A (zh) 从图像中提取相关信息的方法和系统及计算机程序产品
CN111782768B (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
US11573957B2 (en) Natural language processing engine for translating questions into executable database queries
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113254429A (zh) 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
Pacha et al. Towards self-learning optical music recognition
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
Aida et al. A comprehensive analysis of PMI-based models for measuring semantic differences
Zhu et al. Background-aware classification activation map for weakly supervised object localization
Xu et al. Small-scale linguistic steganalysis for multi-concealed scenarios
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
CN115757695A (zh) 一种日志语言模型训练方法及系统
CN110472243B (zh) 一种中文拼写检查方法
CN114896962A (zh) 多视角句子匹配模型、应用方法和相关装置
CN112085122B (zh) 一种基于本体的半监督图像场景语义深化方法
Zhang Design and Implementation of the Chinese Character Font Recognition System Based on Binary Convolutional Encoding and Decoding Network
Wan et al. Research on Scene Chinese Character Recognition Method Based on Similar Chinese Characters
CN110598846B (zh) 一种层级递归神经网络解码器及解码方法
CN113641800B (zh) 一种文本查重方法、装置、设备及可读存储介质
Yu et al. Multimodal Co-Attention Mechanism for One-stage Visual Grounding
Warkhede et al. Handwritten recognition of rajasthani characters by classifier SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant