CN112307130B - 一种文档级远程监督关系抽取方法及系统 - Google Patents

一种文档级远程监督关系抽取方法及系统 Download PDF

Info

Publication number
CN112307130B
CN112307130B CN202011135229.8A CN202011135229A CN112307130B CN 112307130 B CN112307130 B CN 112307130B CN 202011135229 A CN202011135229 A CN 202011135229A CN 112307130 B CN112307130 B CN 112307130B
Authority
CN
China
Prior art keywords
remote supervision
trained
model
document
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011135229.8A
Other languages
English (en)
Other versions
CN112307130A (zh
Inventor
刘知远
孙茂松
肖朝军
姚远
谢若冰
韩旭
林芬
林乐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202011135229.8A priority Critical patent/CN112307130B/zh
Publication of CN112307130A publication Critical patent/CN112307130A/zh
Application granted granted Critical
Publication of CN112307130B publication Critical patent/CN112307130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文档级远程监督关系抽取方法及系统,该方法包括:获取远程监督数据;基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。本发明实施例通过预训练方式对远程监督数据进行降噪,能够有效地滤除远程监督数据中的噪音,并利用大规模的降噪后数据对模型进行预训练,从而实现文档级远程监督关系抽取,提升文档级关系抽取效果。

Description

一种文档级远程监督关系抽取方法及系统
技术领域
本发明涉及机器学习技术领域,尤其涉及一种文档级远程监督关系抽取方法及系统。
背景技术
关系提取任务旨在从文本中识别实体之间的关系事实,该任务是实现知识图谱自动构建的关键所在。随着深度学习技术的发展,神经关系抽取模型已经在句子级关系抽取任务中得到了验证,然而,训练一个高质量的关系抽取模型,需要大量的人工标注数据集,并且数据集的构建同样也需要耗费大量的时间与精力。为了解决这个问题,远程监督机制被提出,该机制通过对齐知识图谱与文本中的实体来实现数据的自动标注,从而为关系抽取任务提供了非常大规模的数据,可以使得模型训练更加充分。
现有的句子级关系抽取方法,侧重于抽取一个句子内部的实体之间的关系。然而,在实际表述中,存在着非常多的关系事实需要通过综合多个句子的信息来实现抽取。正是因为大量存在的这种句子间的关系,在实际应用中,句子级关系抽取的通用性和覆盖面受到了极大的限制,数据表明,至少有40.7%的关系事实需要综合多个句子的信息推断出来。因此,目前提出许多文档级关系抽取方法,来实现句间和句内关系的抽取。但是,现有的大多数文档级关系抽取模型严重依赖高质量的人工标注的训练数据,耗时耗力。并且,将句子级远程监督机制扩展到文档级是极具挑战性的,进行文档级远程监督机制的挑战主要来自于:1、远程监督将引入大量的错误标注。统计显示,文档级远程监督产生的61.8%的句间关系实例实际上是错误标注样例;2、从长文档中捕捉有用的关系信息是具有挑战性的,因为文档中的大部分内容可能与给定的实体和关系无关。虽然早现有句子级关系抽取中,已经有一些工作致力于通过联合考虑多个句子来对远程监督语料进行降噪,然而,这些降噪方法不能直接适应文档级关系抽取。
因此,现在亟需一种文档级远程监督关系抽取方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种文档级远程监督关系抽取方法及系统。
第一方面,本发明实施例提供了一种文档级远程监督关系抽取方法,包括:
获取远程监督数据;
基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
进一步地,所述训练好的文本编码器模型通过以下步骤训练得到:
通过训练好的预降噪模型,对样本远程监督数据进行降噪处理,得到降噪后的样本远程监督数据;
根据所述降噪后的样本远程监督数据,对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练,得到预训练的文本编码器模型;
通过预设标注数据集,对所述预训练的文本编码器模型进行调整,得到训练好的文本编码器模型,所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。
进一步地,所述训练好的预降噪模型通过以下步骤训练得到:
获取样本远程监督数据,并将具有实体关系的样本远程监督数据标注为正样例,将不具有实体关系的样本远程监督数据标注为负样例;
根据所述正样例和所述负样例,对待训练的预降噪模型进行训练,得到训练好的预降噪模型。
进一步地,所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。
进一步地,所述实体提及匹配预训练包括:
获取所述降噪后的样本远程监督数据中的实体提及和实体;
获取所述实体提及和所述实体之间的匹配分数;
根据所述匹配分数,通过归一化指数函数和交叉熵函数,获取第一损失函数;
根据所述第一损失函数对所述待训练的文本编码器模型进行更新,以完成实体提及匹配预训练。
进一步地,所述实体关系事实检测预训练包括:
获取所述降噪后的样本远程监督数据中所有的实体对;
通过线性变换,对每个实体对进行打分,得到每个实体对的分数;
根据每个实体对的分数,通过归一化指数函数和交叉熵函数,获取第二损失函数;
根据所述第二损失函数对所述待训练的文本编码器模型进行更新,以完成实体关系事实检测预训练。
进一步地,所述关系事实对齐预训练包括:
获取所述降噪后的样本远程监督数据中多个文档;
从多个文档中获取相同的实体对,并根据归一化指数函数和交叉熵函数,获取第三损失函数,以根据所述第三损失函数对所述待训练的文本编码器模型进行更新,以完成关系事实对齐预训练。
第二方面,本发明实施例提供了一种文档级远程监督关系抽取系统,包括:
文档级远程监督数据获取模块,用于获取远程监督数据;
预降噪模块,用于基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
关系抽取模块,用于将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种文档级远程监督关系抽取方法及系统,通过预训练的方式对文档级远程监督数据进行降噪,能够有效地滤除远程监督数据中的噪音,并利用大规模的降噪后数据对模型进行预训练,得到一个有效的文本编码器,从而实现文档级的远程监督关系抽取,提升文档级关系抽取的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文档级远程监督关系抽取方法的流程示意图;
图2为本发明实施例提供的文本编码器模型的整体示意图;
图3为本发明实施例提供的文档级远程监督关系抽取系统的结构示意图;
图4为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的文档级远程监督关系抽取方法的流程示意图,如图1所示,本发明实施例提供了一种文档级远程监督关系抽取方法,包括:
步骤101,获取远程监督数据。
在本发明实施例中,首先,获取远程监督数据,在该数据中,存在大量的噪声,其中,将真正含有指定关系的句子作为关系实例(Relational Instance),即后续步骤中的正样例,将实际上不含任何关系实体对作为后续步骤中的负样例,例如,乔布斯是苹果的创始人,以及乔布斯吃了一个苹果,表达的完全不是一个关系,这就说明远程监督数据里存在大量的噪声。
步骤102,基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的。
在本发明实施例中,训练好的预降噪模型对远程监督数据进行噪声预处理,将部分无关系负样例进行筛除,从而得到目标远程监督数据。
步骤103,将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
在本发明实施例中,图2为本发明实施例提供的文本编码器模型的整体示意图,可参考图2所示,将目标远程监督数据输入到文本编码器(Document Encoder)模型之后,该模型会对文档分别进行实体提及匹配(Mention-Entity Matching)、关系事实检测(RelationDetection)和关系事实对齐(Relational Fact Alignment)三个方面处理,从而抽取目标远程监督数据中的文档级关系,得到文档级关系抽取结果。
本发明实施例提供的文档级远程监督关系抽取方法,通过预训练的方式对文档级远程监督数据进行降噪,能够有效地滤除远程监督数据中的噪音,并利用大规模的降噪后数据对模型进行预训练,得到一个有效的文本编码器,从而实现文档级的远程监督关系抽取,提升文档级关系抽取的效果。
在上述实施例的基础上,所述训练好的文本编码器模型通过以下步骤训练得到:
通过训练好的预降噪模型,对样本远程监督数据进行降噪处理,得到降噪后的样本远程监督数据;
根据所述降噪后的样本远程监督数据,对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练,得到预训练的文本编码器模型;
通过预设标注数据集,对所述预训练的文本编码器模型进行调整,得到训练好的文本编码器模型,所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。
在本发明实施例中,利用训练好的预降噪模型,筛除样本远程监督数据中部分无关系的实体对;然后,使用降噪后的样本远程监督数据,对文本编码器模型进行预训练;最后,使用手工标注数据构建的预设标注数据集,对预训练的文本编码器模型进行微调,从而得到最终训练好的模型。在通过大规模的远程监督数据(即降噪后的样本远程监督数据)对文本编码器模型进行预训练之后,再通过手工标注得到的数据集对文本编码器模型进行微调。在本发明实施例中,使用预训练得到的文本编码器模型,对每一个实体对进行分类,从而得到该实体对属于某个关系的概率P:
P=softmax(wfr+bf);
其中,
Figure BDA0002736421770000061
表示实体对向量,d为向量维度;
Figure BDA0002736421770000062
Figure BDA0002736421770000063
表示训练参数,nr为关系数量,两个参数为关系分类时的线性输出层的两个参数,只用于计算关系分类的输出。并将交叉熵作为损失函数进行训练,从而对预训练的文本编码器模型中的参数进行微调,得到训练好的文本编码器模型。
需要说明的是,在本发明实施例中,预降噪模型的模型结构与文本编码器模型结构相同,并且训练方式也具有有重合之处。具体模型结构和模型的预训练过程可参考图2所示。
在上述实施例的基础上,所述训练好的预降噪模型通过以下步骤训练得到:
获取样本远程监督数据,并将具有实体关系的样本远程监督数据标注为正样例,将不具有实体关系的样本远程监督数据标注为负样例;
根据所述正样例和所述负样例,对待训练的预降噪模型进行训练,得到训练好的预降噪模型。
在本发明实施例中,预降噪模型用于对远程监督数据进行预处理,筛除文档中的部分无关系负样例。该模型的编码器与上述实施例中的文本编码器模型相同,在进行训练时,利用实体关系事实检测预训练的方式进行训练。在训练完成后,利用该预降噪模型对文档中所有的实体对进行打分,打分公式可参考后续实施例中实体关系事实检测的实体对打分公式。接着,将每篇文档中的实体对按照分数进行排序,只保留分数最高(可基于满足预设范围的分数进行定义)的部分实体对,用于后续的预训练和微调。
在上述实施例的基础上,所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。
在本发明实施例中,基于BERT(Bidirectional Encoder Representations fromTransformers)构建文本编码器模型和预降噪模型。BERT的本质上是通过在海量的语料的基础上,运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在后续特定的自然语言处理(Natural LanguageProcessing,简称NLP)任务中,可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以,BERT模型提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
具体地,在本发明实施例中,以BERT模型构建文本编码器模型进行说明。编码器的输入为一篇由n个词语组成的文档D:
Figure BDA0002736421770000081
其中,wi表示第i个词语。同时,文档中也包含有多个实体V:
Figure BDA0002736421770000082
其中,eK表示第K个实体。每个实体eK在文档中被提及lK次,即每个实体在该文档中包含有lK个实体提及:
Figure BDA0002736421770000083
其中,
Figure BDA0002736421770000084
表示第K个实体在文档中对应的第j个实体提及。
进一步地,在本发明实施例中,首先利用BERT模型对文档进行编码,将词语转成隐向量序列H:
Figure BDA0002736421770000085
其中,hi表示第i个词语对应的隐向量,从而定义一个实体提及
Figure BDA0002736421770000086
的表示为该实体提及对应的隐向量。接下来,利用最大池化操作从多个实体提及的表示中生成实体的表示:
Figure BDA0002736421770000087
为了进行关系分类,需要获得每一个实体对的表示,因此对于实体对(eK,ep),本发明实施例使用一个双线性操作,以用于计算该实体对的表示:
r{K,p}=BilinearE(eK,ep)。
在上述实施例的基础上,所述实体提及匹配预训练包括:
获取所述降噪后的样本远程监督数据中的实体提及和实体;
获取所述实体提及和所述实体之间的匹配分数;
根据所述匹配分数,通过归一化指数函数和交叉熵函数,获取第一损失函数;
根据所述第一损失函数对所述待训练的文本编码器模型进行更新,以完成实体提及匹配预训练。
在本发明实施例中,一个实体在一篇文档中将有多个提及。通过实体提及匹配预训练,在给定一个实体提及后,判断该实体提及具体属于哪一个实体。进一步地,给定一个实体提及mq和该文档中所有实体
Figure BDA0002736421770000091
接着计算实体提及mq和各个
Figure BDA0002736421770000092
的匹配分数:
Figure BDA0002736421770000093
接着,通过归一化指数(softmax)函数来计算概率,并利用交叉熵函数计算实体提及匹配预训练的损失函数。
在上述实施例的基础上,所述实体关系事实检测预训练包括:
获取所述降噪后的样本远程监督数据中所有的实体对;
通过线性变换,对每个实体对进行打分,得到每个实体对的分数;
根据每个实体对的分数,通过归一化指数函数和交叉熵函数,获取第二损失函数;
根据所述第二损失函数对所述待训练的文本编码器模型进行更新,以完成实体关系事实检测预训练。
在本发明实施例中,远程监督数据中存在大量无关系实体对,因此拥有区分有关系的正样例和无关系的负样例的能力是非常重要的。实体关系事实检测预训练要求模型能够从大量实体对中,找出有关系的实体对。具体地,给定kn个实体对的表示
Figure BDA0002736421770000094
利用线性变换来对实体对打分:
Figure BDA0002736421770000095
其中,
Figure BDA0002736421770000096
Figure BDA0002736421770000097
为训练参数,即为关系事实检测任务的线性输出层的两个参数,只用于计算该任务的输出。并通过softmax和交叉熵计算损失函数。
在上述实施例的基础上,所述关系事实对齐预训练包括:
获取所述降噪后的样本远程监督数据中多个文档;
从多个文档中获取相同的实体对,并根据归一化指数函数和交叉熵函数,获取第三损失函数,以根据所述第三损失函数对所述待训练的文本编码器模型进行更新,以完成关系事实对齐预训练。
在本发明实施例中,一个有关系的实体对可能在多个文档中出现。因此,本发明实施例假设,一个训练好的编码器可从不同文章中获取的相同实体对的表示是基本相同的。具体地,给定包含有相同实体对的两篇文档A和文档B,以及其中的实体对表示
Figure BDA0002736421770000101
Figure BDA0002736421770000102
文本编码模型需要找出文档A中与实体对表示
Figure BDA0002736421770000103
相同的表示:
Figure BDA0002736421770000104
其中,
Figure BDA0002736421770000105
Figure BDA0002736421770000106
为训练参数,即为关系事实对齐任务的线性输出层的两个参数,只用于计算该任务的输出。然后,通过softmax和交叉熵计算损失函数。
在本发明实施例中,在对模型训练时,可采用Adam优化算法,进行参数训练更新,当损失函数值下降至收敛时,停止训练。
图3为本发明实施例提供的文档级远程监督关系抽取系统的结构示意图,如图3所示,本发明实施例提供了一种文档级远程监督关系抽取系统,其特征在于,包括文档级远程监督数据获取模块301、预降噪模块302和关系抽取模块303,其中,文档级远程监督数据获取模块301用于获取远程监督数据;预降噪模块302用于基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;关系抽取模块303用于将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
本发明实施例提供的文档级远程监督关系抽取系统,通过预训练的方式对文档级远程监督数据进行降噪,能够有效地滤除远程监督数据中的噪音,并利用大规模的降噪后数据对模型进行预训练,得到一个有效的文本编码器,从而实现文档级的远程监督关系抽取,提升文档级关系抽取的效果。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图4为本发明实施例提供的电子设备结构示意图,参照图4,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行如下方法:获取远程监督数据;基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文档级远程监督关系抽取方法,例如包括:获取远程监督数据;基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文档级远程监督关系抽取方法,其特征在于,包括:
获取远程监督数据;
基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的;
所述方法还包括:
通过预训练的文本编码器模型,对每一个实体对进行分类,得到每一个实体对属于任意一个关系的概率P:
P=softmax(wfr+bf);
其中,
Figure FDA0003615529400000011
表示实体对向量,d为向量维度;
Figure FDA0003615529400000012
Figure FDA0003615529400000013
表示训练参数,nr为关系数量,两个参数为关系分类时的线性输出层的两个参数,用于计算关系分类的输出;
将交叉熵作为损失函数进行训练,对预训练的文本编码器模型中的参数进行微调,得到训练好的文本编码器模型。
2.根据权利要求1所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的文本编码器模型通过以下步骤训练得到:
通过训练好的预降噪模型,对样本远程监督数据进行降噪处理,得到降噪后的样本远程监督数据;
根据所述降噪后的样本远程监督数据,对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练,得到预训练的文本编码器模型;
通过预设标注数据集,对所述预训练的文本编码器模型进行调整,得到训练好的文本编码器模型,所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。
3.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的预降噪模型通过以下步骤训练得到:
获取样本远程监督数据,并将具有实体关系的样本远程监督数据标注为正样例,将不具有实体关系的样本远程监督数据标注为负样例;
根据所述正样例和所述负样例,对待训练的预降噪模型进行训练,得到训练好的预降噪模型。
4.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。
5.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述实体提及匹配预训练包括:
获取所述降噪后的样本远程监督数据中的实体提及和实体;
获取所述实体提及和所述实体之间的匹配分数;
根据所述匹配分数,通过归一化指数函数和交叉熵函数,获取第一损失函数;
根据所述第一损失函数对所述待训练的文本编码器模型进行更新,以完成实体提及匹配预训练。
6.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述实体关系事实检测预训练包括:
获取所述降噪后的样本远程监督数据中所有的实体对;
通过线性变换,对每个实体对进行打分,得到每个实体对的分数;
根据每个实体对的分数,通过归一化指数函数和交叉熵函数,获取第二损失函数;
根据所述第二损失函数对所述待训练的文本编码器模型进行更新,以完成实体关系事实检测预训练。
7.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述关系事实对齐预训练包括:
获取所述降噪后的样本远程监督数据中多个文档;
从多个文档中获取相同的实体对,并根据归一化指数函数和交叉熵函数,获取第三损失函数,以根据所述第三损失函数对所述待训练的文本编码器模型进行更新,以完成关系事实对齐预训练。
8.一种文档级远程监督关系抽取系统,其特征在于,包括:
文档级远程监督数据获取模块,用于获取远程监督数据;
预降噪模块,用于基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
关系抽取模块,用于将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的;
所述系统还用于:
通过预训练的文本编码器模型,对每一个实体对进行分类,得到每一个实体对属于任意一个关系的概率P:
P=softmax(wfr+bf);
其中,
Figure FDA0003615529400000031
表示实体对向量,d为向量维度;
Figure FDA0003615529400000032
Figure FDA0003615529400000033
表示训练参数,nr为关系数量,两个参数为关系分类时的线性输出层的两个参数,用于计算关系分类的输出;
将交叉熵作为损失函数进行训练,对预训练的文本编码器模型中的参数进行微调,得到训练好的文本编码器模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文档级远程监督关系抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述文档级远程监督关系抽取方法的步骤。
CN202011135229.8A 2020-10-21 2020-10-21 一种文档级远程监督关系抽取方法及系统 Active CN112307130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135229.8A CN112307130B (zh) 2020-10-21 2020-10-21 一种文档级远程监督关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135229.8A CN112307130B (zh) 2020-10-21 2020-10-21 一种文档级远程监督关系抽取方法及系统

Publications (2)

Publication Number Publication Date
CN112307130A CN112307130A (zh) 2021-02-02
CN112307130B true CN112307130B (zh) 2022-07-05

Family

ID=74326921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135229.8A Active CN112307130B (zh) 2020-10-21 2020-10-21 一种文档级远程监督关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112307130B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326371B (zh) * 2021-04-30 2023-12-29 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113254429B (zh) * 2021-05-13 2023-07-21 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN113032585B (zh) * 2021-05-31 2021-08-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于文档结构和外部知识的文档级实体关系抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287911A (zh) * 2018-02-01 2018-07-17 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943068B2 (en) * 2019-03-29 2021-03-09 Microsoft Technology Licensing, Llc N-ary relation prediction over text spans

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287911A (zh) * 2018-02-01 2018-07-17 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A survey of noise reduction methods for distant supervision;Benjamin Roth等;《AKBC "13: Proceedings of the 2013 workshop on Automated knowledge base construction》;20131031;73-78 *
远程监督人物关系抽取中的去噪研究;黄蓓静等;《计算机应用与软件》;20170731;第34卷(第07期);11-19 *

Also Published As

Publication number Publication date
CN112307130A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112307130B (zh) 一种文档级远程监督关系抽取方法及系统
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
TW201918913A (zh) 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111177376A (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN109933792B (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
WO2023093525A1 (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN112434514B (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN112329449B (zh) 基于情感词典和Transformer的情感分析方法
CN115359323A (zh) 图像的文本信息生成方法和深度学习模型的训练方法
CN115238068A (zh) 语音转录文本聚类方法、装置、电子设备和存储介质
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质
CN116976351B (zh) 基于学科实体的语言模型构建方法以及学科实体识别装置
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法
CN112434516B (zh) 一种融合正文文本信息的自适应评论情感分析系统及方法
CN117932073B (zh) 一种基于提示工程的弱监督文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant