CN111737552A

CN111737552A - 训练信息抽取模型和获取知识图谱的方法、装置和设备

Info

Publication number: CN111737552A
Application number: CN202010500623.0A
Authority: CN
Inventors: 陈玉博; 刘康; 赵军; 曹鹏飞; 闭玮; 刘晓江; 郑宇飞
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-02

Abstract

本申请涉及计算机技术领域，提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备，用以提高信息抽取模型的鲁棒性。其中方法包括：对初始的第一信息抽取模型进行训练，基于对噪音样本的预测结果对第一信息抽取模型进行更新，得到第一中间态模型；基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果的差异对第一信息抽取模型进行更新，得到第二中间态模型；基于第二中间态模型对非噪音样本的预测结果对第二中间态模型进行更新，得到参考模型；基于预设平滑系数对参考模型的参数进行调整，得到目标信息抽取模型。本申请基于元学习的方式对模型参数进行更新，更新后的模型更鲁棒，构建的知识图谱更准确。

Description

训练信息抽取模型和获取知识图谱的方法、装置和设备

技术领域

本申请涉及计算机技术领域，尤其涉及机器学习技术领域，提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备。

背景技术

互联网快速发展的今天，是信息和大数据统治的时代，如何在信息爆炸时代抽取出关注的内容是非常重要的，信息抽取研究旨在为人们提供更有力的信息获取工具，以应对信息爆炸带来的严重挑战。目前最常用的是远程监督关系抽取方法，将已有的知识库对应到丰富的非结构化数据中，从而生成大量的训练数据，进而训练信息抽取模型。然而，远程监督不可避免地会存在数据标注错误的问题，生成具有错误标签的噪音数据。因为神经网络很容易对噪音数据进行过度拟合，因此基于这些噪音数据对信息抽取模型进行训练会严重影响模型的性能。

综上，目前的信息抽取模型对噪音数据的鲁棒性较差，容易拟合噪音数据，造成信息抽取模型的性能损失。

发明内容

本申请实施例提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备，用以提高信息抽取模型的鲁棒性，进而提高知识图谱的准确性。

本申请实施例提供的一种训练信息抽取模型的方法，包括：

获取包含非噪音样本集合和噪音样本集合的训练样本集，其中所述非噪音样本集合中的每个非噪音样本为已标注非噪音标签的句子包，所述噪音样本集合中的每个噪音样本为已标注噪音标签的句子包，每个句子包中包括多条用于描述实体与实体之间关联信息的句子，所述句子为非结构化自然语言文本，所述关联信息包括实体之间的关系或实体涉及的事件；

采用所述噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于所述第一信息抽取模型对所述噪音样本的预测结果与所述噪音样本对应的噪音标签之间的差异，对所述第一信息抽取模型进行更新，得到第一中间态模型；

基于所述第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对所述第一信息抽取模型进行更新，得到第二中间态模型，其中所述第一信息抽取模型和所述第二信息抽取模型的参数相同，所述第二信息抽取模型用于指导所述第一信息抽取模型进行训练；

基于所述第二中间态模型对所述非噪音样本的预测结果与所述非噪音样本对应的非噪音标签之间的差异，对所述第二中间态模型进行更新，得到已训练的参考模型；

基于预设平滑系数对所述已训练的参考模型的参数进行调整，得到用于获得实体关联信息的目标信息抽取模型，其中所述实体关联信息用于构建知识图谱。

本申请实施例提供的一种训练信息抽取模型的装置，包括：

获取单元，用于获取包含非噪音样本集合和噪音样本集合的训练样本集，其中所述非噪音样本集合中的每个非噪音样本为已标注非噪音标签的句子包，所述噪音样本集合中的每个噪音样本为已标注噪音标签的句子包，每个句子包中包括多条用于描述实体与实体之间关联信息的句子，所述句子为非结构化自然语言文本，所述关联信息包括实体之间的关系或实体涉及的事件；

第一更新单元，用于采用所述噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于所述第一信息抽取模型对噪音样本的预测结果与噪音样本对应的噪音标签之间的差异，对所述第一信息抽取模型进行更新，得到第一中间态模型；

第二更新单元，用于基于所述第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对所述第一信息抽取模型进行更新，得到第二中间态模型，其中所述第一信息抽取模型和所述第二信息抽取模型的参数相同，所述第二信息抽取模型用于指导所述第一信息抽取模型进行训练；

第三更新单元，用于基于所述第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对所述第二中间态模型进行更新，得到已训练的参考模型；

调整单元，用于基于预设平滑系数对所述已训练的参考模型的参数进行调整，得到用于获得实体关联信息的目标信息抽取模型，其中所述实体关联信息用于构建知识图谱。

可选的，所述噪音样本集合包括M个，所述获取单元具体用于：

针对所述非噪音样本集合中的各个非噪音样本，根据除自身之外的其它非噪音样本的非噪音标签，分别对各个非噪音样本进行M次标签转移，得到各个非噪音样本对应的M个噪音标签，其中M为正整数；

分别基于各个非噪音样本包含的句子包，以及各个非噪音样本对应的M个噪音标签，生成与各个非噪音样本对应的M个噪音样本，每个非噪音样本对应的噪音样本的句子包相同，各个非噪音样本每次进行标签转移得到的噪音样本属于一个噪音样本集合。

可选的，所述获取单元具体用于：

针对任意一个非噪音样本，每次进行标签转移得到对应的噪音标签时都执行下列过程：

获取所述非噪音样本与除所述非噪音样本之外的其它非噪音样本的相似度，将相似度排序由高到低的前N个其它非噪音样本中，任意一个其它非噪音样本的非噪音标签，作为对所述非噪音样本进行标签转移后得到的噪音标签，其中 N为正整数。

可选的，所述第一信息抽取模型对噪音样本的预测结果为第一预测标签；所述第一更新单元具体用于：

将所述M个噪音样本集合中的噪音样本分批输入所述第一信息抽取模型，获得所述第一信息抽取模型输出的M批第一预测标签，其中同一批噪音样本属于相同的噪音样本集合，不同批噪音样本属于不同的噪音样本集合；

获得基于每批第一预测标签与相应的噪音样本的噪音标签之间的差异，确定的第一分类损失函数；

分别根据每个第一分类损失函数，对所述第一信息抽取模型进行一次梯度更新，得到M个所述第一中间态模型；

所述第二更新单元具体用于：分别基于每个第一中间态模型对所述噪音样本的预测结果，与所述第二信息抽取模型对所述非噪音样本的预测结果之间的差异，获得融合差异，根据所述融合差异对所述第一信息抽取模型进行更新，得到所述第二中间态模型。

可选的，所述第一中间态模型对噪音样本的预测结果为第二预测标签，所述第二信息抽取模型对非噪音样本的预测结果为第三预测标签；所述第二更新单元具体用于：

分别将所述M个噪音样本集合中的噪音样本输入对应的第一中间态模型，得到每个第一中间态模型输出的第二预测标签；以及将所述非噪音样本集合中的非噪音样本输入所述第二信息抽取模型，得到所述第二信息抽取模型输出的第三预测标签；

分别根据每批第二预测标签与所述第三预测标签之间的差异，确定基于KL 散度的一致性损失函数；

将M个一致性损失函数求平均，得到所述融合差异；

根据所述融合差异对所述第一信息抽取模型进行至少一次梯度更新，得到所述第二中间态模型，其中所述第二中间态模型的预测结果与所述第二信息抽取模型的预测结果的误差在指定范围内。

可选的，所述第二中间态模型对非噪音样本的预测结果为第四预测标签；所述第三更新单元具体用于：

将所述非噪音样本集合中的非噪音样本输入所述第二中间态模型，获得所述第二中间态模型输出的第四预测标签；

获得基于所述第四预测标签与相应的非噪音样本的非噪音标签之间的差异，确定的第二分类损失函数；

根据所述第二分类损失函数，对所述第二中间态模型进行至少一次梯度更新，得到所述已训练的参考模型，其中所述已训练的参考模型的预测结果与所述第二中间态模型的预测结果的误差在指定范围内。

可选的，所述调整单元具体用于：

根据所述预设平滑系数对所述已训练的参考模型的参数进行指数平均，得到所述目标信息抽取模型。

本申请实施例提供的一种获取知识图谱的方法，包括：

获取待处理文本，其中所述待处理文本为用于描述实体与实体之间关联信息的非结构化自然语言文本；

将所述待处理文本输入已训练的目标信息抽取模型，基于所述目标信息抽取模型抽取所述待处理文本中的实体关联信息，其中所述目标信息抽取模型为通过上述任意一种训练信息抽取模型的方法训练得到的，所述关联信息包括实体之间的关系或实体涉及的事件；

基于所述实体关联信息构建知识图谱。

本申请实施例提供的一种获取知识图谱的装置，包括：

获取单元，用于获取待处理文本，其中所述待处理文本为用于描述实体与实体之间关联信息的非结构化自然语言文本，所述关联信息包括实体之间的关系或实体涉及的事件；

信息抽取单元，用于将所述待处理文本输入已训练的目标信息抽取模型，基于所述目标信息抽取模型抽取所述待处理文本中的实体关联信息，其中所述目标信息抽取模型为通过上述任意一种训练目标信息抽取模型的方法训练得到的；

构建单元，用于基于所述实体关联信息构建知识图谱。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述一种训练信息抽取模型的方法的步骤或获取知识图谱的方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述一种训练信息抽取模型的方法的步骤或获取知识图谱的方法的步骤。

本申请实施例提供了一种训练信息抽取模型和获取知识图谱的方法、装置、电子设备和存储介质。其中在训练信息抽取模型时所使用的训练样本数据集既包含非噪音样本，又包含噪音样本，这些样本都是非结构化的自然语言文本，因此基于这些样本训练得到的目标信息抽取模型可以准确识别出待处理文本中的实体和实体关系，或者是实体所涉及事件，进而可用于构建更加精确的知识图谱。在模型训练过程中，首先通过噪音样本集合对第一信息抽取模型进行训练，模拟第一信息抽取模型在噪音数据下的训练过程，之后基于更新后得到的第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对初始的第一信息抽取模型进行更新，以保证更新后得到的第二中间态模型能够给出和初始的第二信息抽取模型一致的预测结果，从而保证更新后得到的第二中间态模型没有拟合噪音数据，最后通过随机梯度下降的方法对第二中间态模型进行更新，得到已训练的参考模型。由于在此得到的已训练的参考模型是不拟合噪音数据的，因此通过对参考模型的参数进行调整得到的目标信息抽取模型也是不拟合噪音数据的，模型性能更优，在有噪音的情况下表现的更鲁棒。在此基础上基于该模型对待处理文本进行处理，可以得到更加准确的实体关系，进而构建的知识图谱也更加准确。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的第一种信息抽取模型的结构示意图；

图2为本申请实施例中的一种应用场景的一个可选的示意图；

图3为本申请实施例中的一种训练信息抽取模型的方法的一个可选的流程图；

图4为本申请实施例中的一种基于元学习的远程监督关系抽取模型鲁棒性训练框架；

图5A为本申请实施例中的第二种关系抽取模型的结构示意图；

图5B为本申请实施例中的第三种关系抽取模型的结构示意图；

图6为本申请实施例中的一种实验结果的示意图；

图7A为本申请实施例中的一种获取知识图谱的一个可选的方法流程图；

图7B为本申请实施例中的一种关系抽取模型使用框架的示意图；

图8为本申请实施例中的一个可选的训练信息抽取模型的完整方法实现时序流程图；

图9为本申请实施例中的一种训练信息抽取模型的装置的组成结构示意图；

图10为本申请实施例中的一种获取知识图谱的装置的组成结构示意图；

图11为本申请实施例中的一种电子设备的组成结构示意图；

图12为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

非结构化文本：以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据；非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量非结构化文本成分，如摘要和正文内容。

自然语言：通常是指一种自然地随文化演化的语言。例如，英语、汉语、日语为自然语言的例子，而世界语则为人造语言，即是一种为某些特定目的而创造的语言。不过，有时所有人类使用的语言(包括上述自然地随文化演化的语言，以及人造语言)都会被视为自然语言，以相对于如编程语言等为计算机而设的人造语言。

远程监督：是一种基于已经存在的知识库进行数据回标的数据扩充的方法，主要是为了解决数据不足的问题，但也会存在数据标注错误的问题。远程监督是一种半监督学习算法。在本申请实施例中，训练样本集中的非噪音样本集合即可通过远程监督的方式，对知识库进行数据回标得到多个已标注非噪音标签的句子包。

知识图谱(Knowledge Graph)：以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱就是把去发现世间万物的之间的联系。在技术上就是将数据以一个一个的包含subject(主语)， relation(关系)和object(宾语)的三元组形式存储起来。在本申请实施例中，基于训练好的目标信息抽取模型即可获取自然语言文本中的实体以及实体关联信息，实体关联信息包括实体之间的关系，或者是实体所涉及的事件信息。实体和实体之间的关系可用三元组表示，进而即可采用图数据库(neo4j等)进行知识存储，构建知识图谱，三元组信息例如：(A,B,师生关系)。实体和实体所涉及的事件信息，也可以用类似的三元组或更多元组信息表示并进一步构建知识图谱，三元组信息例如：(C,某年,运动会金牌)，四元组信息例如：(C, 某年,某城市,运动会金牌)，五元组信息例如：(C,某年,某城市,运动会,跳水, 金牌)等。

关系抽取：从非结构化的待处理文本中，自动地抽取出实体以及识别出实体关联信息，属于自然语言理解的范畴，也是构建和扩展知识图谱的一种方法，是信息抽取领域的重要研究课题。其主要目的是抽取句子中已标记实体关联信息，例如已标记实体对之间的语义关系，即在实体识别的基础上确定无结构文本中实体对间的关系类别，并形成结构化的数据以便存储和取用。信息抽取是自然语言处理中非常重要的一块内容，包括实体抽取，以及实体之间的关系抽取和实体涉及的事件抽取，本申请实施例中的模型训练方法可应用于关系抽取任务，也可应用于事件抽取任务。

句子包：是指多条句子组成的包，每条句子都是用于描述实体之间关系或者实体涉及的事件的，其中实体是指客观存在并可相互区别的事物，可以是具体的人、事、物，也可以是抽象的概念或联系。例如对于句子：小张的学生是小李，他的身高是180cm。该句子中的实体是指人物，分别为小张和小李，实体之间的关系即师生关系。对于句子：A地举行了音乐会，该句子中的实体是指位置：A地，实体涉及的事件为音乐会。

样本标签、非噪音样本标签和噪音样本标签：样本标签是用于表示作为样本的实体以及实体关联信息的，实体关联信息包括实体之间的关系的类型，或者表示实体所涉及的事件的类型等。在关系抽取任务中标签表示的是样本中实体与实体之间的关系，比如父子、母子、师生等，此外，各个标签还对应有相应的概率值，表示的是抽取到的实体关系属于该标签所表示关系类型的概率，比如某一实体对之间的关系属于父子的概率；在事件抽取任务中标签表示的是实体所涉及事件的类型，比如音乐会、运动会等，同样的，标签还对应有相应的概率值，表示抽取到的实体所涉及事件属于该标签所表示事件类型的概率，比如属于音乐会的概率。在本申请实施例中列举了很多标签，对于训练样本来说，包括噪音标签和非噪音标签，其中非噪音标签是指通过远程监督进行数据回标得到的，而噪音标签则是直接对非噪音样本进行标签转移得到的错误标签。非噪音标签标注了非噪音样本的实体、实体关联信息以及实体关联信息对应的概率，而噪音标签包括噪音样本的实体、实体关联信息以及实体关联信息对应的概率。在本申请实施例中，噪音标签和非噪音标签都是作为训练数据，对应的概率通常为1，即在训练过程中将噪音样本和非噪音样本都看做是正样本，在训练不同模型的过程中的作用不同，噪音样本标注的噪音标签是错误的，用于模拟模型在错误的噪音数据下的训练过程。以噪音样本为例，对应的噪音标签可表示为(A,B,父子关系,1)，表示实体A和实体B为父子关系，父子关系即实体之间的关系，也就是实体关联信息，对应的概率值为1；以非噪音样本为例，对应的非噪音标签可表示为(A,B,母子关系,1)，表示实体A和实体B 为母子关系，母子关系作为实体关联信息，对应的概率值为1。

预测标签：本申请在模型训练过程中，模型会根据样本，在不同的训练阶段预测得到的多个标签，称为预测标签，多个预测标签分别表示为：第一预测标签、第二预测标签、第三预测标签和第四预测标签，这些预测标签都是经过模型预测得到的样本的预测标签。在本申请实施例中的模型类似于多分类器，经过模型可以预测得多个概率值，不同的概率值对应不同的实体关联信息，概率值之和为1。模型最终会将最大概率值及对应的实体关联信息作为预测结果，模型输出的预测标签也包含实体、实体关联信息以及实体关联信息对应的概率，例如(A,B,母子关系,0.95)，此外也可以预测标签也可包含各类实体关联信息及对应的概率，这里预测得到的概率值取值范围可以为0～1。在本申请实施例中，通过将这些预测标签和样本标签进行比对，计算预测标签所包含的实体、实体关联信息以及实体关联信息对应的概率，与样本标签所包含的实体、实体关联信息以及实体关联信息对应的概率之间的差异，根据差异以调整模型参数。

元学习(Meta Learning)：机器学习算法领域的一种，主要是为了让机器学会学习，指利用以往的知识经验来指导新任务的学习，具有学会学习的能力，已经广泛应用于小样本学习和领域迁移等任务。元学习能够有效地解决NLP (Nature Language processing，自然语言处理)领域的少镜头学习、长尾分布和域适应问题。在本申请实施例中，基于元学习的方式对模型的参数进行更新，使得更新后的模型鲁棒性更好。

KL(Kullback-Leibler)散度：又被称为相对熵或信息散度，是两个概率分布间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵的差值。相对熵是一些优化算法，例如最大期望算法 (Expectation-Maximization algorithm，EM)的损失函数。此时参与计算的一个概率分布为真实分布，另一个为理论(拟合)分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

信息抽取模型：本申请实施例中的信息抽取模型可以是关系抽取模型或事件抽取模型，其中关系抽取模型主要用于抽取文本中实体和实体关系，而事件抽取模型主要用于抽取文本中的实体和实体涉及的事件，其中本申请实施例中列举的第一信息抽取模型、第二信息抽取模型、第一中间态模型、第二中间态模型和参考模型等是在不同训练阶段得到的信息抽取模型，区别在于这些模型的参数不同，其中初始的第一信息抽取模型是在模型训练之前随机初始化得到的，初始的第二信息抽取模型和初始的第一信息抽取模型的参数相同，第二信息抽取模型用于指导第一信息抽取模型进行训练，而其它模型则是基于不同的样本数据训练得到的。

学生模型和老师模型：在神经网络模型训练中，老师模型是用于指导学生模型进行训练的，一般老师模型的预测能力要远远高于学生模型，因此基于老师模型对学生模型进行训练，可以提高学生模型的鲁棒性。在本申请实施例中，学生模型包括初始的第一信息抽取模型、第一中间态模型、第二中间态模型、参考模型，老师模型包括初始的第二信息抽取模型和最后得到的目标信息抽取模型，其中老师模型的参数是通过对学习模型的参数进行指数平均得到的，指数平均是一种自增强方法，因此通过对学生模型进行自增强得到的老师模型有更好的预测能力。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在本申请实施例中提出的目标信息抽取模型主要应用于对自然语言文本进行处理，其中目标信息抽取模型的训练和使用方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练目标信息抽取模型，使得训练样本集中的样本通过目标信息抽取模型后，抽取出样本中实体，以及实体之间的关系或实体所涉及事件，通过优化算法不断调整模型参数，得到已训练的目标信息抽取模型；应用部分用于通过使用在训练部分训练得到的目标信息抽取模型，对待处理的自然语言文本进行实体抽取和关系抽取、事件抽取等，识别出自然语言文本中的实体，实体之间的实体关系或实体所涉及事件等。

下面对本申请实施例的设计思想进行简要介绍：

以信息抽取中的关系抽取为例，关系抽取是自然语言处理领域一个非常重要的分支，是构建知识图谱的一个关键技术。关系抽取是指在包含两个实体的句子中自动识别出实体之间所包含的语义关系。由于缺乏标注训练数据，目前远程监督和深度学习已被引入到关系抽取任务中。在相关技术，常见的关系抽取模型包括：PCNN(Piece Wiseconvolutional neural network，分段卷积神经网络)+ONE，PCNN+ATT(attention，注意力机制)，PCNN+BAG(包)-ATT 等。

其中，PCNN+ONE模型使用分段卷积神经网络来提取特征，然后根据多示例学习从包中选择一个最可靠的样本作为包的表示。参阅图1所示，以句子“…little Li Si，theson of Zhang San，in…”为例，具体实现过程为：首先将输入的句子进行编码，编码结果用向量表示(Vector representation)，包括词向量(word) 和位置向量(position)，将词向量和位置向量拼接之后经过卷积神经网络 (Convolation)提取特征后，提取出来的特征通过Piecewise max pooling(分段最大池化)层之后，进行拼接后送入Softmax classifier(softmax分类器)层，最终得到关系的分类。然而该模型只利用到了包中的一条句子信息，忽略了其它句子信息。

对于PCNN+ATT模型，利用分段卷积神经网络得到包内每条句子的表示，然后使用注意力机制为包内每条句子都分配一个权重，每条句子的表示加权求和得到包的表示。然而，在利用包内注意力机制时无法解决噪音包的问题，容易导致整个包都标注错误。

对于PCNN+BAG-ATT模型，也是先利用分段卷积神经网络学习得到包内每条句子的表示，然后利用包内的注意力机制得到包的表示，另外，该方法也使用包间的注意力机制对包的表示加权求和得到组的表示。然而，该模型容易拟合噪音数据，对噪声不鲁棒。

综上，在相关技术中的方法基本上容易忽略包内其它句子的信息，并且对噪音数据不鲁棒，容易拟合噪音数据，造成性能损失。

本申请提供一种信息抽取模型训练和获取知识图谱的方法、装置和设备，提出了一种基于元学习的鲁棒性训练框架来训练得到更加鲁棒的目标信息抽取模型，具体是基于包含噪音样本和非噪音样本的训练样本集，对初始的第一信息抽取模型和初始的第二信息抽取模型进行训练，其中初始的第一信息抽取模型和初始的第二信息抽取模型的参数相同。首先通过噪音样本集合对初始的第一信息抽取模型进行训练，基于元学习的更新方式模拟错误标签影响模型的过程，对第一信息抽取模型进行梯度更新得到第一中间态模型。在此，训练第一信息抽取模型得到第一中间态模型的过程中，是将错误标签作为标注进行训练，因此得到的第一中间态模型还是会拟合噪音数据，所以模型计算得到的多个标签对应的概率值中，对于噪音标签所表示的实体关联信息对应的概率值会偏高，而对于相应的非噪音标签所表示的实体关联信息对应的概率值会偏低；之后基于更新后得到的第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对初始的第一信息抽取模型进行更新，此时，基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果之间存在一定的差异，基于该差异不断调整初始的第一信息抽取模型的参数，以实现增大第一信息抽取模型对正确标签的预测概率，减小第一信息抽取模型对错误标签的预测概率的效果，使得更新后得到的第二中间态模型不再拟合噪音数据，以保证更新后得到的第二中间态模型能够给出和初始的第二信息抽取模型一致的预测结果；之后使用传统的梯度更新方式更新第二中间态模型的参数，得到已训练的参考模型。最后基于平滑系数对参考模型的参数进行调整，得到性能更优的目标信息抽取模型，该目标信息抽取模型也是不拟合噪音数据的，鲁棒性更佳，因而基于该目标信息抽取模型构建得到的知识图谱更加准确。在上述训练过程中，第一信息抽取模型、第一中间态模型、第二中间态模型和参考模型都属于学生模型，第二信息抽取模型和最后得到的目标信息抽取模型属于老师模型，最终以老师模型作为模型使用过程中的已训练好的目标信息抽取模型，这里的老师模型是通过自增强的方式得到的，与学生模型相比预测能力更好。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图2所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220。终端设备210与服务器220之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。终端210以及服务器220可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请实施例中，终端设备210为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通信类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器220连接，服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

其中，目标信息抽取模型可部署于服务器220上进行训练，服务器220中可存储有大量训练样本，包含噪音样本和非噪音样本，用于训练目标信息抽取模型。可选的，在基于本申请实施例中的训练方法训练得到目标信息抽取模型之后，可直接将训练好的目标信息抽取模型部署于服务器220或终端设备210 上。一般情况下都是直接将目标信息抽取模型部署于服务器220上，在本申请实施例中，目标信息抽取模型常用于抽取非结构化的自然语言文本中的实体以及实体之间的关系，进一步可基于该目标信息抽取模型对自然语言文本处理后得到的实体和实体关系构建知识图谱等。

需要说明的是，本申请实施例提供的训练信息抽取模型和获取知识图谱的方法可以应用于广告推荐、图书馆信息检索等场景下。相应的，在不同场景下所使用的训练样本不同。以广告推荐场景为例，所采用的训练样本为广告句子包，广告句子包中包含多条广告语，基于此还可构建广告推荐相关的知识图谱；例如在信息检索的场景下，所采用的训练样本为文献内容等相关的句子包，基于此还可构建文献检索相关的知识图谱。

此外，再进一步细分，针对广告推荐场景，具体可以细分为游戏、音乐、图片等不同内容的广告推荐，针对不同内容的广告推荐，所采用的训练样本也不相同，以游戏广告推荐为例，所采用的训练样本为游戏相关的句子包，例如句子包中可包含多条游戏内容相关的广告语；以音乐广告推荐为例，所采用的训练样本为音乐相关的句子包，例如句子包中可包含多条音乐内容相关的广告语等。

同样的，在使用已训练的目标信息抽取模型抽取待处理文本中的实体关联信息时，在不同的场景下，所使用的待处理文本也不相同，例如在广告推荐场景下，所使用的待处理文本为广告语；在信息检索场景下，所使用的待处理文本可以是文献内容等。

在下文中主要是以构建人物关系知识图谱为例，相应的，所采用的噪音样本或是非噪音样本都是包含人物关系的句子包，待处理文本也是包含人物关系的文本。

参阅图3所示，其为本申请实施例提供的一种训练信息抽取模型的方法的实施流程图，该方法的具体实施流程如下：

步骤S31：获取包含非噪音样本集合和噪音样本集合的训练样本集，其中非噪音样本集合中的每个非噪音样本为已标注非噪音标签的句子包，噪音样本集合中的每个噪音样本为已标注噪音标签的句子包，每个句子包中包括多条用于描述实体与实体之间关联信息的句子，实体关联信息包括实体之间的关系或实体涉及的事件；

在本申请实施例中，信息抽取模型可以是用于抽取实体以及实体之间关系的关系抽取模型，也可以是用于抽取实体以及实体所涉及事件的事件抽取模型，不过这两类模型都需要先抽取出实体，进而才能识别实体关系或事件类型，其中实体的抽取主要包括实体位置和实体类别的识别。

在信息抽取中，事件一般是指事件是指在某个特定的时间片段和地域范围内发生的、由一个或多个角色参与、由一个或多个动作组成的一件事情，一般是句子级的。事件抽取的主要目标是从含有事件信息的文本中抽取出所需的兴趣事件信息，将用自然语言表达的事件以结构化的形式呈现出来。而关系抽取的作用是获取文本中实体之间存在的语法或语义上的联系，也就是进行关系分类。

相应地，在训练信息抽取模型时，作为训练样本的句子包中的句子是指非结构化自然语言文本，例如网络文章正文中的句子，图书馆数据库中的文档摘要中的句子等，且这些句子都是用于描述实体与实体之间的关联信息的。

例如，“小明出生在某城市”这个句子中，“小明”是人物实体，“某城市”是位置实体。关系则是指实体之间的语义关系，例如“朋友”、“坐落于”、“籍贯”等，如在“小明出生在某城市”这个句子中，“小明”和“某城市”这两个实体之间的关系为“出生于”。再比如“A地举办了音乐会”这个句子中，实体为“A地”，所涉及事件为“音乐会”。

在本申请实施例中，训练信息抽取模型时采用的训练样本集包含两种类型的样本，一类是基于远程监督方法获得的非噪音样本，另一类则是基于非噪音样本生成的噪音样本。其中，非噪音样本和噪音样本都是已标注标签的句子包，这里句子包标注的标签表示的是句子包中实体之间的关系，比如父子、母子、师生等，此外，各个标签还包括相应的概率值，概率值表示的是抽取到的实体之间的关系属于该标签所表示关系类型的概率，比如关系类型包括父子、母子、师生、夫妻等，标签所表示的关系类型为父子，则对应的概率值表示两个实体之间的关系属于父子的概率；概率值还可以表示抽取到的实体所涉及的事件属于该标签所表示事件类型的概率，比如事件类型包括音乐会、运动会、游行等，标签所表示的事件类型为音乐会，则相应的概率值表示抽取到的实体所涉及事件属于音乐会的概率。

在噪音样本中，噪音标签为(A,B,父子关系,1)，一般父子关系这一标签是错误的，但是在本申请实施例中，噪音样本只是用于模拟模型在噪音数据下的训练过程，用于训练得到还是会拟合噪音数据的第一中间态模型，因此对应的概率可以用1进行表示(对于该噪音样本，母子关系对应的概率值为0)，但是实际上实体A和实体B之间为母子关系。在非噪音样本中，非噪音标签为 (A,B,母子关系,1)，一般母子关系这一标签是正确的，因此对应的概率可以用1进行表示(对于该非噪音样本，父子关系对应的概率值为0)。

然而，由于非噪音标签是基于远程监督方法获得的，因此不可避免的会存在标注错误的情况，在相关技术中，仅仅依据非噪音样本集合训练得到的信息抽取模型很容易对噪音数据进行过度拟合。而在本申请实施例中，将元学习应用到远程监督关系抽取任务中，依据非噪音样本以及噪音样本对模型进行训练，解决噪音标注的问题。基于本申请实施例中的训练样本集训练得到目标信息抽取模型是不拟合噪音数据的，在数据集有噪音的情况下表现的更加鲁棒。

在基于步骤S31中的训练样本数据集来训练目标信息抽取模型的过程中，采用了两个模型：第一信息抽取模型和第二信息抽取模型，初始化的第一信息抽取模型和初始化的第二信息抽取模型的参数相同。其中，第一信息抽取模型作为学生模型，第二信息抽取模型作为老师模型，第二信息抽取模型用于指导第一信息抽取模型进行训练。本申请实施例通过元学习的更新方式对这两个模型进行训练，使得最终得到的目标信息抽取模型在有噪音的数据下训练之后，不拟合这些噪音数据。

以关系抽取为例，具体的，首先通过噪音样本对初始的第一信息抽取模型进行训练，得到更新后的第一中间态模型，这一过程主要是为了模拟初始的第一信息抽取模型在有噪音数据的情况下的训练过程，由于在训练过程中将标注了噪音标签(相当于错误标签)的噪音样本作为训练数据，因此基于此训练得到的第一中间态模型对噪音标签的预测概率值与实际概率值相比会偏高，而对该噪音标签对应的非噪音标签的预测概率值与实际概率值相比会较低，比如：

对于非噪音样本(句子包B1，母子关系，1)，对应的一个噪音样本为(句子B1，父子关系，1)，实际上，父子关系这一标签对应的实际概率值应该为 0，但是基于该噪音样本(句子包B1，父子关系，1)训练初始的第一信息抽取模型时，标签是错误的，基于错误标签训练得到的第一中间态模型预测得到的多个标签对应的概率值中，对于父子关系对应的概率值会偏高，而对于母子关系对应的概率值会比偏低，最终保证父子关系对应的概率值最大，即模型预测结果表示句子包B1所表示的是父子关系。也就是说，基于该噪音样本训练得到的第一中间态模型还是会拟合噪音数据。比如基于第一中间态模型预测得到的父子关系对应的概率值为0.65，预测得到的母子关系对应的概率值为0.2。

在此基础上，基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，不断调整初始的第一信息抽取模型的参数，以实现增大第一信息抽取模型对正确标签的预测概率，减小第一信息抽取模型对错误标签的预测概率的效果，使得更新后得到的第二中间态模型不再拟合噪音数据，所以基于第二中间态模型预测得到的多个标签对应的概率值中，对于父子关系对应的概率值会降低，对于母子关系对应的概率值会增大，最终保证母子标签的概率值最高。例如基于第二中间态模型预测得到的母子关系对应的概率值为0.9，预测得到的父子关系对应的概率值为0.05。

接下来，采用传统的梯度更新方式，基于非噪音样本对第二中间态模型再次进行更新，得到已训练的参考模型，例如基于参考模型预测得到的母子关系对应的概率值为0.95，预测得到的父子关系对应的概率值为0.01；最终通过自增强的方式对已训练的参考模型进行调整，得到已训练的目标信息抽取模型，例如基于目标信息抽取模型预测得到的母子关系对应的概率值为0.98，预测得到的父子关系对应的概率值为0.001。

下面对上述概括的训练过程进行详细介绍，具体参见步骤S32至步骤S35：

步骤S32：采用噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于第一信息抽取模型对噪音样本的预测结果与噪音样本对应的噪音标签之间的差异，对第一信息抽取模型进行更新，得到第一中间态模型；

步骤S33：基于第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对第一信息抽取模型进行更新，得到第二中间态模型，其中初始的第一信息抽取模型和初始的第二信息抽取模型的参数相同，第二信息抽取模型用于指导第一信息抽取模型进行训练；

步骤S34：基于第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对第二中间态模型进行更新，得到已训练的参考模型；

步骤S35：基于预设平滑系数对已训练的参考模型的参数进行调整，得到用于获得实体关联信息的目标信息抽取模型，其中实体关联信息用于构建知识图谱。

在基于实体和实体关系构建知识图谱时，构建得到的知识图谱主要用于描述各种实体概念及其相互关系，一般由“实体-关系-实体”构成三元组，每个实体拥有其相应的“属性”。例如将实体和实体关系以一个一个的<subject， relation，object>的三元组形式存储起来。subject和object为两个实体，relation 表示这两个实体之间的关系。大规模的知识图谱往往包含数亿实体、数百亿属性和千亿关系，由大量结构化和非结构化数据挖掘而来。基于专用知识图谱及基于它构建的自然语言理解技术，机器可充分发挥推理、判断的系统性能，相对精准的回答问题，延展智能范围。在基于实体和实体所涉及事件构建知识图谱时，构建得到的知识图谱也是类似的道理，可构建描述事件和事件之间关系的知识图谱等。

此外，基于已经获取到实体、关系和事件等信息构建的知识图谱，可用于信息的相互印证，以及异常事件的自动发现，如法律领域中的多级股东信息和合同信息的结合发现关联交易、房产证的证明文档缺失等。知识图谱应用的任务是利用知识图谱，建立基于知识的系统并提供智能的知识服务，是知识图谱建立的终极目标。主要包括：基于知识的互联网资源的信息融合、语义搜索、基于知识的问答系统和基于知识的大数据分析和挖掘。知识图谱不仅提供计算机更好的理解互联网资源的知识内容，同时也提供给计算机更好地组织和管理海量数据资源的结构。

需要说明的是，上述列举的步骤S32至步骤S35是只采用一批非噪音样本，以及与这一批非噪音样本对应的噪音样本的情况下，实际进行训练的过程，如果训练样本有很多时，可将非噪音样本分成很多小批量的样本，针对每一个小批量的样本，都需要执行步骤S32至步骤S35这一过程，对已训练的参考模型进行一次调整，再利用另一小批量样本再次进行训练时，即将已训练的参考模型作为第一信息抽取模型，将已训练的目标信息抽取模型作为第二信息抽取模型，再次重复上述过程，即进行多轮迭代训练。

下面主要以关系抽取为例进行详细介绍，此时目标信息抽取模型为关系抽取模型，句子包中的句子都是用于表示实体之间关系的。

在一种可选的实施方式中，噪音样本集合为M个，M为正整数；对非噪音样本集合中各个非噪音样本的标签进行标签转移获得的M个噪音样本集合时，噪音样本集合中的各个噪音样本可通过下列方式获得：

针对非噪音样本集合中的各个非噪音样本，根据除自身之外的其它非噪音样本的非噪音标签，分别对各个非噪音样本进行M次标签转移，得到各个非噪音样本对应的M个噪音标签；然后分别基于各个非噪音样本包含的句子包，以及各个非噪音样本对应的M个噪音标签，组合生成与各个非噪音样本对应的M 个噪音样本。

比如，某一非噪音样本1为标注父子关系的句子包B1，标签：父子关系，其中句子包B1中包含多条同时包含实体A和实体B的句子，比如A和B是父子，B是A的父亲，A比B高，A和B的户籍都是某城市等。而非噪音样本2 为标注母子关系的句子包B2，标签：母子关系，其中句子包B2中包含多条同时包含实体A和实体C的句子，将句子包B2的标签转移到句子包B1后，得到一个标注母子关系的句子包B1，即与非噪音样本1对应的一个噪音样本。

基于上述方式，最终每个非噪音样本都会对应M个噪音样本，M的最小取值为1。以M＝3为例，对于非噪音样本B₁(句子包)，该句子包的非噪音标签为y₁，则对该非噪音样本进行3次标签转移后，即可得到对应的3个噪音样本，这3个噪音样本都为句子包B1，不同之处在于，这3个噪音样本对应的噪音标签不同，分别为

表1

表1为本申请实施例列举的一种对3个非噪音样本进行3次标签转移的结果示意图，其中，非噪音样本(B1，父子关系)，在进行第一次标签转移后得到的噪音样本1为(B1，母子关系)，在进行第二次标签转移后得到的噪音样本1为(B1，师生关系)，在进行第三次标签转移后得到的噪音样本1为(B1，朋友关系)，该非噪音样本与对应的3个噪音样本包含的句子包相同，都是B1，只是标注的标签不同，其中父子关系属于非噪音标签，而母子关系、师生关系、朋友关系是对应的噪音标签；对于非噪音样本(B2，母子关系)也是同样的道理，得到对应的3个噪音样本分别为(B2，师生关系)、(B2，朋友关系)、 (B2，恋人关系)，包含的句子包都为B2；对于非噪音样本(B3，师生关系)，得到对应的3个噪音样本分别为(B3，朋友关系)、(B3，父子关系)、(B3，夫妻关系)，包含的句子包都为B3。其中，表1中同一行的噪音样本是同一次标签转移得到的，属于同一个噪音样本集合，不同行的噪音样本属于不同的噪音样本集合。

通过上述过程，实际上得到的噪音集合中会包含M批噪音样本，即对非噪音集合中的各个非噪音样本进行M次标签转移得到的，上述过程中的这些噪音样本是仿照原始的非噪音样本的分布生成的。

下面对噪音样本集合中的各个噪音样本的生成过程进行详细介绍。

假设在每一次训练时，首先从非噪音样本集合中采样一小批数据(X,Y)，其中，X＝{B₁,B₂,…,B_k}，包含k个句子包，每个句子包都是由多条用于描述实体之间关系的句子组成的，每个句子包都对应有一个非噪音标签。Y＝ {y₁,y₂,…,y_k}包含k个标签，表示的是每个句子包所应对的非噪音标签。对于X，通过上述方法可生成M批噪音标签，记作

其中

即在第m次标签转移时得到的句子包B_k的噪音标签。下面以

为例详细介绍标签转移的过程，主要列举了两种方式：

方式一、基于随机选择的标签转移。

具体实现方式为，针对任意一个非噪音样本，将除该非噪音样本之外的任意一个其它非噪音样本的非噪音标签，作为对该非噪音样本进行标签转移后得到的噪音标签。

例如，首先从这一小批数据(X,Y)中随机选取5个句子包，针对随机选取的这5个句子包中的任意一个句子包B_i，在对该句子包进行标签转移得到一个噪音标签时，可从除B_i之外剩余的4个句子包中再随机选择一个句子包B_j，用它的非噪音标签y_j作为句子包B_i的一个噪音标签，即

其中i≠j。

方式二、基于相似度的标签转移。

具体实现方式为，针对任意一个非噪音样本，获取该非噪音样本与除非噪音样本之外的其它非噪音样本的相似度，将相似度排序由高到低的前N个其它非噪音样本中，任意一个其它非噪音样本的非噪音标签，作为对该非噪音样本进行标签转移后得到的噪音标签，其中N为正整数。

例如，首先从这一小批数据(X,Y)中随机选取5个句子包，针对随机选取的这5个句子包中的任意一个句子包B_i，首先计算它与其它4个句子包的相似度，然后基于相似度进行排序，最后从距离句子包B_i最近的N个句子包中选择一个句子包B_j，用它的非噪音标签代替句子包B_i的非噪音标签，即可得到一个句子包B_i的噪音标签，即

其中i≠j。

在上述实施方式中，获取到各个非噪音样本对应的噪音标签之后，将各个非噪音样本包含的句子包与噪音标签组合，即可得到标注噪音标签的句子包，也就是噪音样本。由于上述方式中产生的噪音标签来自非噪音样本的邻居，因此基于相似度构造的噪音样本与原始的非噪音样本服从相似的分布。

此外，需要说明的是，在从一小批数据(X,Y)中随机选取多个句子包时，也可结合方式二中的思想，直接选取距离较近的多个句子包，使这些句子包之间都具有邻居关系，进而在进行标签转移时，对于选择的句子包B_i，使用其邻居的标签来代替句子包B_i的标签，该方式下产生的噪音标签都是来自邻居，因此构造的噪音样本与原始的非噪音样本也付出相似的分布，基于这样的训练样本训练得到的模型可以更加精确的分析出相似的样本之间的差异，鲁棒性更高。

其中，句子包之间相似是指句子包的表示比较相近，在本申请实施例中，句子包的表示可以是向量的形式，因此在确定句子包之间的相似度时，可基于欧几里得距离或者余弦距离确定。首先将句子包编码表示为向量形式，之后计算向量之间的欧几里得距离或是余弦距离等，即可确定句子包之间的相似度，也就是非噪音样本之间的相似度，其中距离越近表明非噪音样本之间的相似度越高。

比如N＝3，从数据(X,Y)中随机选取了7个句子包，分别为B₁,B₂,…,B₇，对于B₁，在剩余的6个句子包中，与其相似度最高的前3个句子包分别为 B₂,B₃,B₄,此时若从B₂,B₃,B₄随机选取句子包B₂，将句子包B₂的非噪音标签作为句子包B₁的一个噪音标签，则可得

假设下一次随机选取句子包B₃，将句子包B₃的非噪音标签作为句子包B₁的一个噪音标签，则可得

在本申请实施例中，为了更好地建模标签噪音，重复上述过程M次，则可得到M个小批量的人工产生的噪音标签，记作

其中

表示的是这一批数据中各个非噪音样本对应的一个噪音标签。

在上述实施方式中，通过仿照原始非噪音样本的分布，生成多批噪音样本，样本数量增多时，训练得到的模型的精确度也更高。

在介绍完训练样本集之后，下面结合图4对本申请实施例中的模型训练过程进行详细介绍：

参阅图4所示，其为本申请实施例中的一种基于元学习的远程监督关系抽取模型鲁棒性训练框架，该框架主要包括以下几个模块：

(1)人工噪音标签生成(Generation of Synthetic Noisy Labels，GSNL)模块：仿照原始非噪音样本的分布，生成一些噪音标签，构造噪音样本，用于元学习的梯度更新；

其中，(X,Y)即一小批非噪音样本，而

即通过生产拟合噪音标签得到的一小批噪音样本，基于该模块即可生成步骤S31中的噪音样本集合，其中拟合噪音标签的生成过程即可参照上述实施例中列举的基于随机选择的标签转移方式，基于相似度的标签转移方式等，在此不再赘述。

(2)元训练(Meta-Train)模块：利用生成的人工噪音样本来模拟关系抽取模型在噪音数据下的梯度更新过程；

例如，使用PCNN+ATT作为一个关系抽取模型，叫做第一信息抽取模型(学生模型)，模型的参数为θ，记作f(θ)。基于第一信息抽取模型，利用自集成的方式即可构造第二信息抽取模型(老师模型)，记作

其中，初始的第一信息抽取模型和初始的第二信息抽取模型的参数相同，也就是初始的

初始的θ是通过随机初始化得到的。θ′₁是指基于非噪音样本

对初始的第一信息抽取模型进行梯度更新后得到的一个第一中间态模型。

在本申请实施例中，第一中间态模型是基于上述过程获得的噪音样本，对初始的第一信息抽取模型进行一步梯度更新得到的，目的是为了模拟关系抽取模型在有噪音数据情况下的训练过程。由于上述过程中实际可以得到M批噪音样本，表示为

因此基于噪音样本集合中M批噪音样本对初始的第一信息抽取模型进行训练时，可分批次进行。

在一种可选的实施方式中，初始的第一信息抽取模型对噪音样本的预测结果为第一预测标签，即经过第一信息抽取模型预测得到的标签；在步骤S32中，采用噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于初始的第一信息抽取模型对噪音样本的预测结果与噪音样本对应的噪音标签之间的差异，对初始的第一信息抽取模型进行更新时，可以得到M个第一中间态模型，具体实现方式如下：

将M个噪音样本集合中的噪音样本分批输入初始的第一信息抽取模型，获得初始的第一信息抽取模型输出的M批第一预测标签，其中同一批噪音样本属于相同的噪音样本集合，不同批噪音样本属于不同的噪音样本集合，即将M个噪音样本集合作为M批样本数据，分批输入初始的第一信息抽取模型，基于M 批样本数据即可得到M批预测标签；获得基于每批第一预测标签与相应的噪音样本的噪音标签之间的差异，确定的第一分类损失函数；分别根据每个第一分类损失函数，对初始的第一信息抽取模型进行一次梯度更新，得到M个第一中间态模型。

其中，第一预测标签与相应的噪音样本的噪音标签之间的差异，是基于概率值确定的，在模型输出第一预测标签的同时，还对应输出了相应的概率值，即模型预测得到句子包所表示的实体关系为第一预测标签所表示关系类型的概率。

比如第一预测标签表示句子包中实体1和实体2之间的关系为父子的概率为0.85，对应的噪音标签表示实体1和实体2之间的关系为父子，对应的概率值为1，则基于这两个概率值之间的差异，计算第一分类损失函数，进而对初始的第一信息抽取模型进行一步梯度更新。

具体的，针对任意一批噪音样本

将噪音样本输入初始的第一信息抽取模型之后，基于初始的第一信息抽取模型输出的第一预测标签与噪音样本对应的噪音标签之间的差异，对初始的第一信息抽取模型进行一步梯度更新，由θ变为θ′_m，即第一中间态模型，其中θ′_m可通过如下公式表示：

其中，

表示基于初始的第一信息抽取模型输出的第一预测标签与对应的噪音标签

之间的差异确定的第一分类损失函数，在本申请实施例中采用交叉熵损失函数，α表示步长大小，一般取值为0.01左右。

由于基于每一批噪音样本即可得到一个θ′_m，因此将噪音样本分批输入初始的第一信息抽取模型后，即可得到M个第一中间态模型θ′_m。

在本申请实施例中，初始的学生模型可以是PCNN+ATT、PCNN+BAG-ATT 等可用于关系抽取的神经网络模型，其中PCNN是用于编码句子信息的分段卷积神经网络，这里PCNN还可替换成其他模型，例如LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(GatedRecurrent Unit，门控循环单元)、 Transformer等。

以PCNN+ATT模型为例，当采用该模型对句子包B＝{x₁，x₂，x₃，…，x_n} 进行关系抽取时，具体实现过程参阅图5A所示，首先通过分段卷积神经网络将包内每条句子x表示为向量的形式x，得到包内每条句子的表示，然后使用注意力机制为包内每条句子都分配一个权重α，基于α对每条句子的表示进行加权求和得到包的表示s。

以PCNN+BAG-ATT模型为例，当采用该模型对句子包进行关系抽取时，也是先利用分段卷积神经网络学习得到包内每条句子的表示，参阅图5B所示，其中是采用句子编码器将输入的句子

进行编码，得到每条句子的表示

这里是向量的形式，然后结合关系矩阵R，利用包内注意力机制(intra bag attention)得到包的表示Bⁿ，之后使用包间注意力机制(inter-bag attention) 对包的表示加权求和得到组的表示G，其中包的表示和组的表示都是矩阵的形式。

(3)元测试(Meta-Test)模块：目的是使得关系抽取模型在有噪音的数据下训练之后，不拟合这些噪音数据，即训练θ使得更新后的θ′_m不拟合噪音。为了实现这个目标，本申请实施例中要求更新后的学生模型(第一中间态模型) 给出与老师模型一致的预测。为此，本申请实施例中提出了一个基于KL (Kullback-Leibler)散度(别名：信息散度/相对熵)的一致性损失函数

该函数用来衡量更新后的学生模型的预测与老师模型预测结果的差异性。

在一种可选的实施方式中，第一中间态模型对噪音样本的预测结果为第二预测标签，初始的第二信息抽取模型对非噪音样本的预测结果为第三预测标签；在步骤S33中，基于第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对初始的第一信息抽取模型进行更新，得到第二中间态模型时，具体实现方式如下：

分别将M个噪音样本集合中的噪音样本输入对应的第一中间态模型，得到每个第一中间态模型输出的第二预测标签；以及将非噪音样本集合中的非噪音样本输入初始的第二信息抽取模型，得到初始的第二信息抽取模型输出的第三预测标签；分别根据每批第二预测标签与第三预测标签之间的差异，确定基于 KL散度的一致性损失函数；将M个一致性损失函数求平均，得到融合差异；根据融合差异对初始的第一信息抽取模型进行至少一次梯度更新，得到第二中间态模型，其中第二中间态模型的预测结果与初始的第二信息抽取模型的预测结果的误差在指定范围内。

由于在上述过程中将噪音样本分成了M批次，得到了M个第一中间态模型θ′_m，因此在基于进行元测试时，需要将M批噪音样本分别输入对应的第一中间态模型θ′_m。

其中，与噪音样本对应的第一中间态模型是指θ′_m是与

对应的，比如针对第一批噪音样本

基于该批噪音样本训练得到的第一中间态模型θ′₁，是与该批噪音样本对应的第一中间态模型，同理，针对第二次噪音样本

对应的第一中间态模型为θ′₂，…，以此类推，在获取第一中间态模型输出的第二预测标签时，需要将M批噪音样本分别输入对应的第一中间态模型即可，第一中间态模型输出的第二预测标签可表示为f(X,θ′_m)，表示模型预测得到句子包所表示的实体关系为第二预测标签所表示关系类型的概率。

此外，还需要将非噪音样本(X,Y)输入第二信息抽取模型，获取第二信息抽取模型输出的对各个非噪音样本预测得到的第三预测标签

表示模型预测得到句子包所表示的实体关系为第三预测标签所表示关系类型的概率。

比如，第二预测标签表示句子包中实体1和实体2之间的关系为父子的概率为0.65(预测得到的母子关系对应的概率值为0.2)，对应的第三预测标签表示实体1和实体2之间的关系为父子的概率为0.05(预测得到的母子关系对应的概率值为0.9)，则基于0.65于0.05这两个概率值之间的差异，计算一致性损失函数，以便基于一致性损失函数构建元目标函数后，基于元目标损失函数不断调整第一中间态模型，以减小第二预测标签和第三预测标签之间的差异，是第二预测标签接近第三预测标签，得到更新后的第二中间调模型，在本申请实施例中的元目标损失函数即融合差异，在M＝1时，不需要将一致性损失函数求平均计算融合差异，直接计算一致性损失函数即可。

在本申请实施例中，基于KL散度的一致性损失函数

的具体计算公式如下：

由于上述过程中构造了M批噪音样本，所以需要为M个第一中间态模型θ′_m最小化一致性损失函数，得到元目标函数。其中元目标函数是将M个一致性损失函数求平均得到的，可表示为

定义如下所示：

其中，

在本申请实施例中，基于元目标函数的约束，对第一信息抽取模型(学生模型)进行更新，计算公式如下：

其中，η表示元学习的学习效率，取值范围一般是10^-3。通过梯度下降的方法最小化元目标函数，基于元目标函数的梯度，对初始的第一信息抽取模型进行更新，将

无限趋近于θ时所获得的模型，作为第二中间态模型，也就是更新后的学生模型，参数仍用θ表示。

在上述实施方式中，通过元目标函数的约束，更新后的学生模型(第二中间态模型)可以给出和老师模型一致的预测结果，从而保证了更新后的学生模型没有拟合噪音数据。

在一种可选的实施方式中，第二中间态模型对非噪音样本的预测结果为第四预测标签；在步骤S34中，基于第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对第二中间态模型进行更新，得到已训练的参考模型时，具体过程如下：

将非噪音样本集合中的非噪音样本输入第二中间态模型，获得第二中间态模型输出的第四预测标签；获得基于第四预测标签与相应的非噪音样本的非噪音标签之间的差异，确定的第二分类损失函数；根据第二分类损失函数，对第二中间态模型进行至少一次梯度更新，得到已训练的参考模型，其中已训练的参考模型的预测结果与第二中间态模型的预测结果的误差在指定范围内。

该过程即将原始的非噪音样本对第二中间调模型进行梯度更新的过程，由于在元学习更新之后，得到的第二中间态模型不拟合噪音数据，因此，在此技术上即可采用随机梯度下降的方式最小化利用原始的非噪音样本(X,Y)计算得到的第二分类损失函数，对第二中间态模型进行更新，得到已训练的参考模型。

其中，第二分类损失函数是通过将原始的非噪音样本(X,Y)输入第二中间态模型后预测得到的第四预测标签，与非噪音样本对应的非噪音标签之间的差异确定的，可表示为

其中，第四预测标签表示模型预测得到句子包所表示的实体关系为第四预测标签所表示关系类型的概率，

比如，第四预测标签表示句子包中实体1和实体2之间的关系为父子的概率为0.01，对应的非噪音标签表示实体1和实体2之间的关系为父子的概率为 0(非噪音标签实际表示实体1和实体2之间的关系为母子的概率为1，因此可知实体1和实体2之间的关系为父子的概率为0)，此时第四预测标签已经很接近对应的非噪音标签了，则基于0.01与0这两个概率值之间的差异，计算第二分类损失函数，基于第二分类损失函数不断调整第二中间态模型，以减小第四预测标签和对应的非噪音标签之间的差异，得到已训练的参考模型。

还可以表示为：第四预测标签表示句子包中实体1和实体2之间的关系为母子的概率为0.95，对应的非噪音标签表示实体1和实体2之间的关系为母子的概率为1，则基于0.95和1这两个概率值之间的差异，计算第二分类损失函数，基于第二分类损失函数不断调整第二中间态模型，以减小第四预测标签和对应的非噪音标签之间的差异，得到已训练的参考模型，在计算其他损失函数时也可采用类似的方式。

在本申请实施例中，基于第二分类损失函数对第二中间态模型进行梯度更新的过程可通过如下公式表示：

其中，β表示学习效率，取值范围一般是10^-3，通过对第二分类损失函数求梯度，调整第二中间态模型的参数θ，将

无限趋近于θ时所获得的模型作为已训练的参考模型。

需要说明的是，本申请实施例中的第一分类损失函数和第二分类损失函数都可以采用交叉熵损失函数表示，其中交叉熵损失函数常用来衡量预测结果分布与真实结果分布之间的差异，与其它类型的损失函数相比，采用交叉熵作为损失函数可以避免梯度消散，保证学习速率。

在步骤S35中，基于预设平滑系数对已训练的参考模型的参数进行调整时，可通过指数平均的方式，即根据预设平滑系数对已训练的参考模型的参数进行指数平均，得到关系抽取模型，具体可基于如下公式计算得到：

其中，γ表示平滑系数，取值范围为0～1，在本申请实施例中，一般γ取值在0.999附近。

在上述实施方式中，通过这种自增强的方式得到的老师模型一般比学生模型有更好的预测能力。因此基于预设平滑系数对已训练的参考模型的参数进行调整后得到的关系抽取模型的准确性更高。

在本申请实施例中，仍可采用上述实施例中所列举的任意一种训练信息抽取模型的方法去训练得到不拟合噪音数据的事件抽取模型，训练方式是相同的。例如结合图4所示的架构图，首先通过拟合噪音标签生成模块构建人工噪音样本，之后结合老师模型和学生模型进行元训练以及元测试，通过元学习的方式训练得到不拟合噪音数据的事件抽取模型，具体实现方式可参见上述实施例，在此不再重复赘述。

为了证明本申请的有效性，在相关的远程监督关系抽取数据集上进行了验证，实验结果如下所示：

参阅图6所示，其为本申请实施例中的一种实验结果的示意图，图6中所示的曲线为各个模型的PR曲线，其中P就是指精确率(precision)，R是指召回率(recall)。在图6中，以recall作为横坐标轴，precision作为纵坐标轴，展示了本申请与如下相关的模型的比较结果：

(1)Mintz(一个以人名命名的方法)：一个使用句法和词汇特征的多分类逻辑回归模型；

(2)MultiR(考虑多关系的概率图模型)：一个针对多示例学习的概率图模型；

(3)MIMLRE(基于多示例多标签的关系抽取模型)：一个针对多示例多标签学习的图模型；

(4)PCNN+ONE(选择最可靠样本训练的分段卷积神经网络)：一个使用分段最大池化的卷积神经网络模型；

(5)PCNN+ATT(结合句子级别注意力机制的分段卷积神经网络)：一个基于注意力机制的卷积神经网络模型；

(6)PCNN+ATT+SL(结合注意力机制和软标签的分段卷积神经网络)：一个利用注意力机制和软标签的方法；

(7)BGWA(结合词级别的双向门控循环单元网络)：一个基于词汇级和句子级注意力机制的双向GRU模型；

(8)RESIDE(利用附加信息的关系抽取模型)：一个利用外部知识，并且利用图卷积神经网络编码句法结构的模型；

(9)PCNN+BAG-ATT(结合包级别注意力机制的分段卷积神经网络)：一个基于包内注意力和包间注意力机制的模型；

(10)TFML(基于元学习的训练框架)，基于本申请中的训练方法得到的关系抽取模型。

可以看出，本申请中的模型TFML在相关数据集上的结果优于相关技术中的模型，如图6所示，TFML模型对应的PR曲线在所有相关技术中的模型的上面。

表1：本申请与相关技术中的模型在P@N指标上的对比

其中，P@N是训练样本中前N个句子包的准确率，One表示随机从包里取一条句子进行测试，Two表示从包里取两条句子进行测试，All是利用所有句子进行测试，Mean是100、200、300的平均值，表1讨论了本申请中的目标信息抽取模型与相关技术中的模型在P@N指标上的对比。可以看到，本申请的性能很大程度上优于相关技术中的模型，这也说明了本申请所提出方法的有效性。

表2：本申请和相关技术中的模型在更加有噪的数据下的表现

方法(模型)	r＝0	r＝0.1	r＝0.2	r＝0.3	r＝0.4
						PCNN+ONE	68.7	64.4(-4.3)	60.8(-7.9)	58.1(-10.6)	55.9(-12.8)
PCNN+ATT	72.2	68.1(-4.1)	64.7(-7.5)	62.0(-10.2)	60.1(-12.1)
						BGWA	76.3	72.4(-3.9)	69.1(-7.2)	66.5(-9.8)	64.4(-11.9)
PCNN+BAG-ATT	84.8	81.3(-3.5)	78.2(-6.6)	76.0(-8.8)	74.3(-10.5)
						TMFL	84.0	81.9(-2.1)	80.0(-4.0)	78.3(-5.7)	76.6(-7.4)

其中，表2讨论了本申请中的关系抽取模型和相关技术中的模型在更加有噪的数据下的表现。r表示人为往数据中加入噪音的比例。从上表可以看出，与相关技术中的模型相比，采用本申请的方法训练得到的关系抽取模型在相同噪音情况下，性能表现的更好，受噪音数据影响较小。往数据中加入更大比例噪音时，本申请的性能降低的幅度更小，这说明了本申请所提出的方法的有效性。

参阅图7A所示，为本申请实施例提供的一种获取知识图谱的方法的实施流程图，该方法的具体实施流程如下：

S71：获取待处理文本，其中待处理文本为用于描述实体与实体之间关联信息的非结构化自然语言文本，实体关联信息包括实体之间的关系或实体涉及的事件；

S72：将待处理文本输入已训练的目标信息抽取模型，基于目标信息抽取模型抽取待处理文本中的实体关联信息；

其中，目标信息抽取模型为通过上述任意一种训练目标信息抽取模型的方法训练得到的，例如图3所示的方法。

S73：基于实体关联信息构建知识图谱。

在使用上述方式训练得到的目标信息抽取模型时，以目标信息抽取模型为关系抽取模型为例，具体如图7B所示，将非结构化的自然语言文本输入已训练好的关系抽取模型中，即可识别出该文本中实体所表达的关系类型，并且可以表示成三元组<subject，relation，object>的形式，基于三元组即可构建出知识图谱。相比于相关技术中的方法，本申请实施例可以使得关系抽取模型的参数不拟合噪音数据，因此基于该模型得到的实体和实体关系更加准确，构建出的知识图谱也会更加精确。

此外，目标信息抽取模型也可以是事件抽取模型，主要应用于事件抽取任务，从描述事件信息的待处理文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。具体的，在进行事件抽取时，首先识别出事件及其类型，其次要识别出事件涉及的元素(一般是实体)，最后需要确定每个元素在事件中所扮演的角色。

需要说明的是，基于实体关联信息构建知识图谱的过程可参见上述实施例，重复之处不再赘述。

参阅图8所示，为一种训练信息抽取模型的完整方法流程图。该方法的具体实施流程如下：

步骤S801：随机初始化学生模型(模型参数为θ)；

步骤S802：初始化老师模型(模型参数

)；

步骤S803：从非噪音样本集合中选一小批非噪音样本；

步骤S804：对选取的一小批非噪音样本进行标签转移，生成对应的一批噪音样本；

步骤S805：基于生成的噪音样本对初始的老师模型进行训练，并在训练过程中基于初始的学生模型对噪音样本的预测结果与噪音样本对应的噪音标签之间的差异，对初始的学生模型进行更新，得到第一中间态模型(模型参数为θ′_m)；

步骤S806：基于第一中间态模型对噪音样本的预测结果，与初始的老师模型对非噪音样本的预测结果之间的差异，构建一致性损失函数；

其中，一致性损失函数为：

步骤S807：判断标签转移的次数是否达到M次，如果是，则执行步骤S808，否则，返回步骤S804；

步骤S808：基于获得的M个一致性损失函数构建元目标函数；

其中，元目标函数为：

步骤S809：根据元目标函数对学生模型进行梯度更新得到第二中间态模型；其中，梯度更新时计算公式为：

步骤S810：基于第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对第二中间态模型进行梯度更新，得到已训练的参考模型；

其中，梯度更新时的计算公式为：

步骤S811：基于预设平滑系数对参考模型的参数进行调整，得到更新后的老师模型；

其中，调整参数时的计算公式为：

步骤S812：判断非噪音样本集合中是否还有非噪音样本，如果是，则返回步骤S803，否则，则执行步骤S813；

步骤S813：将最后一次更新后的老师模型作为训练好的目标信息抽取模型。

需要说的是，在上述过程中，初始的学生模型即初始的第一信息抽取模型，初始的老师模型即初始的第二信息抽取模型。

在本申请实施例中，最终使用

(老师模型)进行测试，对自然语言文本进行关系抽取。

基于相同的发明构思，本申请实施例还提供一种训练信息抽取模型的装置，如图9所示，其为训练信息抽取模型的装置900的结构示意图，可以包括：

获取单元901，用于获取包含非噪音样本集合和噪音样本集合的训练样本集，其中非噪音样本集合中的每个非噪音样本为已标注非噪音标签的句子包，噪音样本集合中的每个噪音样本为已标注噪音标签的句子包，每个句子包中包括多条用于描述实体与实体之间关联信息的句子，句子为非结构化自然语言文本，实体关联信息包括实体之间的关系或实体涉及的事件；

第一更新单元902，用于采用噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于初始的第一信息抽取模型对噪音样本的预测结果与噪音样本对应的噪音标签之间的差异，对初始的第一信息抽取模型进行更新，得到第一中间态模型；

第二更新单元903，用于基于第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，对初始的第一信息抽取模型进行更新，得到第二中间态模型，其中初始的第一信息抽取模型和初始的第二信息抽取模型的参数相同，第二信息抽取模型用于指导第一信息抽取模型进行训练；

第三更新单元904，用于基于第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对第二中间态模型进行更新，得到已训练的参考模型；

调整单元905，用于基于预设平滑系数对已训练的参考模型的参数进行调整，得到用于获得实体关联信息的目标信息抽取模型，其中实体关联信息用于构建知识图谱。

可选的，噪音样本集合，是对非噪音样本集合中各个非噪音样本的标签进行标签转移获得的。

可选的，噪音样本集合包括M个，M为正整数，获取单元901具体用于：

针对非噪音样本集合中的各个非噪音样本，根据除自身之外的其它非噪音样本的非噪音标签，分别对各个非噪音样本进行M次标签转移，得到各个非噪音样本对应的M个噪音标签；

可选的，获取单元901具体用于：

获取非噪音样本与除非噪音样本之外的其它非噪音样本的相似度，将相似度排序由高到低的前N个其它非噪音样本中，任意一个其它非噪音样本的非噪音标签，作为对非噪音样本进行标签转移后得到的噪音标签，其中N为正整数。

可选的，初始的第一信息抽取模型对噪音样本的预测结果为第一预测标签；第一更新单元902具体用于：

将M个噪音样本集合中的噪音样本分批输入初始的第一信息抽取模型，获得初始的第一信息抽取模型输出的M批第一预测标签，其中同一批噪音样本属于相同的噪音样本集合，不同批噪音样本属于不同的噪音样本集合；

分别根据每个第一分类损失函数，对初始的第一信息抽取模型进行一次梯度更新，得到M个第一中间态模型；

第二更新模型903具体用于：分别基于每个第一中间态模型对噪音样本的预测结果，与初始的第二信息抽取模型对非噪音样本的预测结果之间的差异，获得融合差异，根据融合差异对初始的第一信息抽取模型进行更新，得到第二中间态模型。

可选的，第一中间态模型对噪音样本的预测结果为第二预测标签，初始的第二信息抽取模型对非噪音样本的预测结果为第三预测标签；第二更新单元 903具体用于：

分别将M个噪音样本集合中的噪音样本输入对应的第一中间态模型，得到每个第一中间态模型输出的第二预测标签；以及将非噪音样本集合中的非噪音样本输入初始的第二信息抽取模型，得到初始的第二信息抽取模型输出的第三预测标签；

分别根据每批第二预测标签与第三预测标签之间的差异，确定基于KL散度的一致性损失函数；

将M个一致性损失函数求平均，得到融合差异；

根据融合差异对初始的第一信息抽取模型进行至少一次梯度更新，得到第二中间态模型，其中第二中间态模型的预测结果与初始的第二信息抽取模型的预测结果的误差在指定范围内。

可选的，第二中间态模型对非噪音样本的预测结果为第四预测标签；第三更新单元904具体用于：

将非噪音样本集合中的非噪音样本输入第二中间态模型，获得第二中间态模型输出的第四预测标签；

获得基于第四预测标签与相应的非噪音样本的非噪音标签之间的差异，确定的第二分类损失函数；

根据第二分类损失函数，对第二中间态模型进行至少一次梯度更新，得到已训练的参考模型，其中已训练的参考模型的预测结果与第二中间态模型的预测结果的误差在指定范围内。

可选的，调整单元905具体用于：

根据预设平滑系数对已训练的参考模型的参数进行指数平均，得到目标信息抽取模型。

基于相同的发明构思，本申请实施例还提供一种获取知识图谱的装置，如图10所示，其为获取知识图谱的装置1000的结构示意图，可以包括：

获取单元1001，用于获取待处理文本，其中待处理文本为用于描述实体与实体之间关联信息的非结构化自然语言文本，实体关联信息包括实体之间的关系或实体涉及的事件；

信息抽取单元1002，用于将待处理文本输入已训练的目标信息抽取模型，基于目标信息抽取模型抽取待处理文本中的实体关联信息，其中目标信息抽取模型为通过上述任意一种训练目标信息抽取模型的方法训练得到的；

构建单元1003，用于基于实体关联信息构建知识图谱。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，本申请实施例还提供一种电子设备，参阅图9 所示，电子设备1100可以至少包括处理器1101、以及存储器1102。其中，存储器1102存储有程序代码，当程序代码被处理器1101执行时，使得处理器1101 执行本说明书上述描述的根据本申请各种示例性实施方式的内容推荐方法中的步骤。例如，处理器1101可以执行如图3或图7A中所示的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的训练信息抽取模型的方法中的步骤或获取知识图谱的方法中的步骤。例如，处理器可以执行如图3或图7A中所示的步骤。

下面参照图12来描述根据本申请的这种实施方式的计算装置120。图12 的计算装置120仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12，计算装置120以通用计算装置的形式表现。计算装置120的组件可以包括但不限于：上述至少一个处理单元121、上述至少一个存储单元122、连接不同系统组件(包括存储单元122和处理单元121)的总线123。

总线123表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元122可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1221和/或高速缓存存储单元1222，还可以进一步包括只读存储器 (ROM)1223。

存储单元122还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置120也可以与一个或多个外部设备124(例如键盘、指向设备等) 通信，还可与一个或者多个使得用户能与计算装置120交互的设备通信，和/ 或与使得该计算装置120能与一个或多个其它计算装置进行通信的任何设备 (例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O) 接口125进行。并且，计算装置120还可以通过网络适配器126与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网) 通信。如图所示，网络适配器126通过总线123与用于计算装置120的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置120使用其它硬件和/ 或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的训练信息抽取模型的方法或获取知识图谱的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的训练信息抽取模型的方法中的步骤或获取知识图谱的方法中的步骤，例如，计算机设备可以执行如图3或图7A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练信息抽取模型的方法，其特征在于，该方法包括：

基于所述第一中间态模型对所述噪音样本的预测结果，与初始的第二信息抽取模型对所述非噪音样本的预测结果之间的差异，对所述第一信息抽取模型进行更新，得到第二中间态模型，其中所述第一信息抽取模型和所述第二信息抽取模型的参数相同，所述第二信息抽取模型用于指导所述第一信息抽取模型进行训练；

2.如权利要求1所述的方法，其特征在于，所述噪音样本集合，是对所述非噪音样本集合中各个非噪音样本的标签进行标签转移获得的。

3.如权利要求2所述的方法，其特征在于，所述噪音样本集合包括M个，M为正整数；

对所述非噪音样本集合中各个非噪音样本的标签进行标签转移获得的M个所述噪音样本集合，具体包括：

针对所述非噪音样本集合中的各个非噪音样本，根据除自身之外的其它非噪音样本的非噪音标签，分别对各个非噪音样本进行M次标签转移，得到各个非噪音样本对应的M个噪音标签；

4.如权利要求3所述的方法，其特征在于，所述针对所述非噪音样本集合中的各个非噪音样本，根据除自身之外的其它非噪音样本的非噪音标签，分别对各个非噪音样本进行M次标签转移，得到与各个非噪音样本对应的M个噪音标签，具体包括：

获取所述非噪音样本与除所述非噪音样本之外的其它非噪音样本的相似度，将相似度排序由高到低的前N个其它非噪音样本中，任意一个其它非噪音样本的非噪音标签，作为对所述非噪音样本进行标签转移后得到的噪音标签，其中N为正整数。

5.如权利3所述的方法，其特征在于，所述第一信息抽取模型对噪音样本的预测结果为第一预测标签；所述采用所述噪音样本集合对初始的第一信息抽取模型进行训练，并在训练过程中基于所述第一信息抽取模型对所述噪音样本的预测结果与所述噪音样本对应的噪音标签之间的差异，对所述第一信息抽取模型进行更新，得到第一中间态模型，具体包括：

所述基于所述第一中间态模型对所述噪音样本的预测结果，与初始的第二信息抽取模型对所述非噪音样本的预测结果之间的差异，对所述第一信息抽取模型进行更新，得到第二中间态模型，具体包括：

分别基于每个第一中间态模型对所述噪音样本的预测结果，与所述第二信息抽取模型对所述非噪音样本的预测结果之间的差异，获得融合差异，根据所述融合差异对所述第一信息抽取模型进行更新，得到所述第二中间态模型。

6.如权利要求5所述的方法，其特征在于，每个第一中间态模型对噪音样本的预测结果为第二预测标签，所述第二信息抽取模型对非噪音样本的预测结果为第三预测标签；所述分别基于每个第一中间态模型对噪音样本的预测结果，与所述第二信息抽取模型对所述非噪音样本的预测结果之间的差异，获得融合差异，根据所述融合差异对所述第一信息抽取模型进行更新，得到所述第二中间态模型，具体包括：

分别根据每批第二预测标签与所述第三预测标签之间的差异，确定基于KL散度的一致性损失函数；

将M个一致性损失函数求平均，得到所述融合差异；

7.如权利要求6所述的方法，其特征在于，所述第二中间态模型对非噪音样本的预测结果为第四预测标签；所述基于所述第二中间态模型对非噪音样本的预测结果与非噪音样本对应的非噪音标签之间的差异，对所述第二中间态模型进行更新，得到已训练的参考模型，具体包括：

8.如权利要求1～7任一项所述的方法，其特征在于，所述基于预设平滑系数对所述已训练的参考模型的参数进行调整，得到用于获得实体关联信息的目标信息抽取模型，具体包括：

9.一种获取知识图谱的方法，其特征在于，该方法包括：

获取待处理文本，其中所述待处理文本为用于描述实体与实体之间关联信息的非结构化自然语言文本，所述关联信息包括实体之间的关系或实体涉及的事件；

将所述待处理文本输入已训练的目标信息抽取模型，基于所述目标信息抽取模型抽取所述待处理文本中的实体关联信息，其中所述目标信息抽取模型为通过权利要求1～8中任一项所述的方法训练得到的；

基于所述实体关联信息构建知识图谱。

10.一种训练信息抽取模型的装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述噪音样本集合，是对非噪音样本集合中各个非噪音样本的标签进行标签转移获得的。

12.如权利要求10或11所述的装置，其特征在于，所述调整单元具体用于：

13.一种获取知识图谱的装置，其特征在于，包括：

信息抽取单元，用于将所述待处理文本输入已训练的目标信息抽取模型，基于所述目标信息抽取模型抽取所述待处理文本中的实体关联信息，其中所述目标信息抽取模型为通过权利要求1～8中任一项所述的方法得到的；

构建单元，用于基于所述实体关联信息构建知识图谱。

14.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～8中任一所述方法的步骤或权利要求9中所述的步骤。

15.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1～8中任一所述方法的步骤或权利要求9中所述的步骤。