CN113971183A

CN113971183A - 实体打标模型训练的方法、装置及电子设备

Info

Publication number: CN113971183A
Application number: CN202010710014.8A
Authority: CN
Inventors: 张浩宇; 龙定坤; 黄非; 徐光伟; 王潇斌; 谢朋峻
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-01-25
Anticipated expiration: 2040-07-22
Also published as: CN113971183B

Abstract

本申请实施例公开了实体打标模型的训练方法、装置及电子设备，所述方法包括：获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立第一实体打标模型；利用所述第一实体打标模型对所述训练样本中的实体进行标签分布预测；利用所述训练样本中的实体的原始标签分布以及所预测出的标签分布中各自包含的正确信息，对所述训练样本中的实体进行重新标注，并根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。通过本申请实施例，能够提升模型的预测准确率。

Description

实体打标模型训练的方法、装置及电子设备

技术领域

本申请涉及实体打标技术领域，特别是涉及实体打标模型的训练方法、装置及电子设备。

背景技术

实体打标任务是指给定实体和实体所在上下文的情况下，基于预先设定的标签集合，给实体打上对应的标签。实体打标是自然语言处理信息抽取的一个重要子任务。例如句子“刘某某是一名香港歌手”中的实体“刘某某”可以标注为“人物/歌手/香港歌手”，标注出的实体标签可以应用到很多下游任务中，例如命名实体识别、关系抽取、知识图谱扩展等。

在实际应用中，基于预先设定的标签集合，实体打标通常视为一个分类问题。随着深度神经网络的兴起，以Bi-LSTM(Long Short-Term Memory，长短期记忆网络，Bi-LSTM是指前向LSTM与后向LSTM组合)为代表的深度学习表示模型在实体打标任务中取得很好的效果。

现有的实体打标模型一般基于远程监督构造的数据集训练模型。远程监督方法通过链接待标注的实体和知识图谱中的实体，并将知识图谱中实体所对应的所有标签集合作为远程监督标注的标签集合。虽然远程监督标注方法非常高效，理论上可以构造无限多的标注数据，但是基于远程监督标注的数据通常含有大量标注不正确数据(噪音数据)，这类不正确的标注数据势必会影响模型的准确率。因此，如何更好的降低噪音数据对模型的负面影响，对提升模型的预测准确率有着重要的意义。

目前在实体打标任务中处理远程监督构造数据中噪音数据的方法中一般进行以下假设：只包含一个标签的训练数据一定是正确的，含有多个标签的数据集是包含噪音的。在该假设的基础上，一类方法是分开处理这两类数据集，例如把含有多个标签的数据作为正则数据。另外也有一些方案对含有多个标签的数据集重新标注，就是在多标签集中选取一个标签作为正确的标签。但是，上述方案的主要问题在于，预先提出的假设存在缺陷，由于知识图谱中的数据可能存在错误等情况，或者，也在链接时出现问题，以至于只有一个标签的训练数据也不是一定正确的，含有多个标签的数据集的标签集中也不一定包含正确的标签。因此，上述方案在最终的预测效果上还是有缺陷的。

为此，如何进一步提升模型的预测准确率，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了实体打标模型训练的方法、装置及电子设备，能够提升模型的预测准确率。

本申请提供了如下方案：

一种实体打标模型的训练方法，包括：

利用包含噪声标签的训练数据对实体打标模型进行训练，并利用训练得到的实体打标模型对所述训练数据中的实体进行标签分布预测；

根据所述训练数据中所包含实体的原始标签分布以及所述实体打标模型预测的标签分布，得到所述实体的伪标签；

利用所述伪标签对所述训练数据中的实体进行重标注，并利用重标注的训练数据对所述实体打标模型进行训练，得到训练后的实体打标模型。

一种实体打标模型的训练方法，包括：

获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立第一实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息；

利用所述第一实体打标模型对所述训练样本中的实体进行标签分布预测；

利用所述训练样本中的实体的原始标签分布以及所预测出的标签分布各自包含的正确信息，对所述训练样本中的实体进行重新标注；

根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。

一种训练样本处理方法，包括：

获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签中包括噪声标签；所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注，生成新的训练样本集。

一种扩展实体标签知识图谱的方法，包括：

获取原始训练样本集，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签信息是根据原始的知识图谱获得的，其中包括噪声标签；

利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注；

如果重新标注的标签不属于对应实体的原始标签，则将该实体与所述重新标注的标签之间的对应关系添加到所述知识图谱中。

一种实体打标模型的训练装置，包括：

第一训练单元，用于利用包含噪声标签的训练数据对实体打标模型进行训练，并利用训练得到的实体打标模型对所述训练数据中的实体进行标签分布预测；

伪标签获得单元，用于根据所述训练数据中所包含实体的原始标签分布以及所述实体打标模型预测的标签分布，得到所述实体的伪标签；

第二训练单元，用于利用所述伪标签对所述训练数据中的实体进行重标注，并利用重标注的训练数据对所述实体打标模型进行训练，得到训练后的实体打标模型。

一种实体打标模型的训练装置，包括：

第一训练单元，用于获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立第一实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息；

预测单元，用于利用所述第一实体打标模型对所述训练样本中的实体进行标签分布预测；

重标注单元，用于利用所述训练样本中的实体的原始标签分布以及所预测出的标签分布各自包含的正确信息，对所述训练样本中的实体进行重新标注；

第二训练单元，用于根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。

一种训练样本处理装置，包括：

训练样本获取单元，用于获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签中包括噪声标签；所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

预测单元，用于利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

重标注单元，用于根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注，生成新的训练样本集。

一种扩展实体标签知识图谱的装置，包括：

训练样本获取单元，用于获取原始训练样本集，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签信息是根据原始的知识图谱获得的，其中包括噪声标签；

训练单元，用于利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

重标注单元，用于根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注；

添加单元，用于如果重新标注的标签不属于对应实体的原始标签，则将该实体与所述重新标注的标签之间的对应关系添加到所述知识图谱中。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，可以首先通过远程监督的方式构造训练样本的原始标签，其中包含有噪声标签，在该状态下，可以直接用于对实体打标模型进行预训练。利用这种方式训练出的实体打标模型进行预测时，虽然可能出现错误的情况，但实际上其中也包含大量的正确的信息。同时，训练样本的原始标签中其实也包含大量的正确信息。因此，本申请实施例可以在充分利用上述两者中的正确信息的基础上，重新对训练样本中的实体进行标注，然后再利用重新标注后的训练样本对实体打标模型进行训练。由于本申请实施例中对训练样本中的实体进行重新标注的过程并不依赖任何的假设，而且能够综合预训练的实体标注模型的预测结果以及原始噪声标签两者中包含的正确的信息，因此，因此，能够对更大范围、更普遍的标签错误进行去噪，具有可扩展性。另外，由于预训练的实体打标模型并不完全模拟训练样本集，因此，可能对于某个实体，在结合其上下文进行标签预测时，原始噪声标签之外的其他标签在预测结果中也可能具有一定正确的概率，在此基础上，通过本申请实施例中的计算，有可能会使得原始噪声标签之外的其他标签的正确概率得到提升，甚至最终被作为正确的标签重新标注给对应的实体。因此，通过本申请实施例的方案，对训练样本中的实体进行重新标注时，不再限于从原始噪声标签中选择其一，因此，对于原始噪声标签存在较大误差，甚至原始噪声标签中不存在正确标签等情形，可以有机会为具体的训练样本重新标注上真正正确的标签，从而提升训练样本的质量，重新对模型进行训练后，可以提升模型的预测准确率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第二方法的流程图；

图4是本申请实施例提供的第三方法的流程图；

图5是本申请实施例提供的第四方法的流程图；

图6是是本申请实施例提供的第一装置的示意图；

图7是本申请实施例提供的第二装置的示意图；

图8是本申请实施例提供的第三装置的示意图；

图9是本申请实施例提供的第四装置的示意图；

图10是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例提供的技术方案，下面首先对基于远程监督构造数据集，并进行实体打标模型训练的过程进行简单介绍。首先，可以提供一个规模比较小的知识图谱，其中可以保存(实体，标签)对，并且同一个实体可能会对应多个标签。然后可以基于该小型的知识图谱构造更多的训练样本，以用于进行实体打标模型的训练。例如，对于“菜鸟”这个实体，在知识图谱中可能存在以下信息(菜鸟，公司，网络公司)，(菜鸟，服务，物流服务商)等。在基于该小型的知识图谱构造更多样本时，假设其中一个样本是“我要去菜鸟驿站取快递”，则首先可以进行分词，并从中进行实体识别，在识别出“菜鸟”这一实体后，可以基于上述知识图谱，确定出对应的标签可能是网络公司或者物流服务商，等等。也就是说，一个实体可能会对应多个标签，其中可能会包括能够反映当前样本上下文场景的正确的标签，也可能包括不正确的标签(称为噪声标签)。之后，现有的处理方式是，从上述多个标签中选择出其中一个作为正确的标签。例如，对于上述例子中的样本，对于“菜鸟”这一实体，可以从网络公司或者物流服务商中选择其中一个标签，对该实体进行重新标注，然后用重新标注后的样本对模型进行训练。

但是，在实际应用中，通过链接知识图谱获得的实体标签存在较大误差的情况，例如，有些实体在知识图谱中的标签可能不准确，或者，在链接时出现错误，或者，收录的场景不够全面，等等，导致通过知识图谱获得的实体的标签，全都不能正确反映其在当前样本上下文中的场景。例如，某样本是“我在某方面还是个菜鸟”，通过链接前述知识图谱，为其中的“菜鸟”这一实体确定出的标签仍然包括网络公司或者物流服务商。此时，按照现有技术中的方案，只能从网络公司或者物流服务商中选择其中一个标签作为上述样本中“菜鸟”这一实体的标签。但是，显然，在该样本中，“菜鸟”这一实体既不是网络公司，也不是物流服务商，而是一个网络流行用语，用于表达在某领域的新人等。而现有技术中的方案则无法为该实体打上“网络流行用语”这一真正正确的标签。

基于上述情况，本申请实施例提供了相应的解决方案。在该方案中，可以首先通过远程监督的方式构造训练样本的原始标签，其中包含有噪声标签，在该状态下，可以直接用于对实体打标模型进行预训练。利用这种方式训练出的实体打标模型进行预测时，虽然可能出现错误的情况，但实际上其中也包含大量的正确的信息。同时，训练样本的原始标签中其实也包含大量的正确信息。因此，本申请实施例可以在充分利用上述两者中的正确信息的基础上，重新对训练样本中的实体进行标注，然后再利用重新标注后的训练样本对实体打标模型进行训练。由于本申请实施例中对训练样本中的实体进行重新标注的过程并不依赖任何的假设，而且能够综合预训练的实体标注模型的预测结果以及原始噪声标签两者中包含的正确的信息，因此，因此，能够对更大范围、更普遍的标签错误进行去噪，具有可扩展性。另外，由于预训练的实体打标模型并不完全模拟训练样本集，因此，可能对于某个实体，在结合其上下文进行标签预测时，原始噪声标签之外的其他标签在预测结果中也可能具有一定正确的概率，在此基础上，通过本申请实施例中的计算，有可能会使得原始噪声标签之外的其他标签的正确概率得到提升，甚至最终被作为正确的标签重新标注给对应的实体。因此，通过本申请实施例的方案，对训练样本中的实体进行重新标注时，不再限于从原始噪声标签中选择其一，因此，对于原始噪声标签存在较大误差，甚至原始噪声标签中不存在正确标签等情形，可以有机会为具体的训练样本重新标注上真正正确的标签。

其中，为了能够利用预测出标签分布(通过预训练出的实体打标模型对训练样本进行预测)以及原始噪声标签分布这两者的信息，可以有多种具体的实现方式。例如，在一种可选的方式下，本申请实施例中提出了伪标签分布的概念。具体的，可以根据样本对应的原始标签分布来初始化伪标签分布，然后，然后构造关于所述伪标签分布、原始标签分布以及预测出的标签分布的目标函数，以便利用模型预测结果以及原始噪声标签中的信息。并且，通过多轮迭代，可以对模型的参数矩阵以及伪标签分布进行更新，使得目标函数的代价值逐渐趋近目标(例如，最小)。之后，可以利用更新后的伪标签分布对样本中的实体进行重新标注。其中，具体在构造目标函数时，可以有多种方式。例如，在一种可选的实现方式下，如图1所示，可以设计出KL距离约束(主要用于限制伪标签分布过于偏离模型预测出的标签分布，以更好的利用模型预测结果)、偏离约束(主要用于限制伪标签分布过于偏离原始标签分布，以更好地利用原始标签信息)、独热约束(主要用于限制正确标签的数量为一个)等三个约束，以上述三个子函数的加权和最小为目标进行迭代，在每次迭代中更新伪标签分布以及模型中的其他参数，最终便可以得到更新后的伪标签分布，进而重新为训练样本中的实体进行标签标注。

下面对本申请实施例提供的具体技术方案进行详细介绍。

实施例一

首先，该实施例一提供了一种实体打标模型训练方法，参见图2，该方法具体可以包括：

S201：获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立第一实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息；

原始训练样本集可以是通过远程监督的方式构造的数据。由于需要训练实体打标模型，因此，每条训练样本可以包括实体，实体关联的文本，以及实体对应的原始标签信息。具体的原始标签信息就可以是通过与知识图谱进行连接而获得的，这种原始标签中通常包括噪声标签，也即标注错误的标签。在本申请实施例中，获得上述原始标签信息后，可以直接用于对实体打标模型进行预训练。

其中，待训练的实体打标模型可以有多种，例如，一种方式下具体可以是NFETC模型。NFETC模型是一个有监督的细粒度实体打标模型，该模型可以被作为整个方法中的基准模型被训练。这种实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签。具体的，对于一个输入文本c＝{w₁,w₂,…,w_n}和实体m＝{w_m1，w_m2，…w_ml}(实体是文本句子中的一段连续字符片段)，实体打标模型NFETC旨在为该实体m打上从候选的标签集合中选择的一个实体标签。标签集合可以是预先设定好的，其中可以对多种可能出现的标签进行列举，例如，某标签集合可能一共包括200个标签(例如，(公司，科技公司)，(明星，歌手)，等等)，则实体打标模型的作用就是，对于某输入的句子中的实体，从这200个标签中为该实体选择其中一个正确的标签。

虽然训练样本中实体对应的原始标签中可能会存在一些噪声信息，但是其中包含正确标签的概率还是比较高的，因此，在对训练样本进行重标注时，可以充分利用这部分信息。具体的，为了利用这部分信息，首先可以确定出训练样本中的实体的原始标签分布。其中，训练样本中的实体对应的原始标签(也即通过远程监督的方式从知识图谱中获得的标签)可能为一个或者多个，并且这些原始标签通常也属于前述标签集合。为了便于计算，对于每个训练样本中的实体的原始标签，可以通过原始标签分布的方式来表达。具体的，这种原始标签分布可以以向量的形式存在，该向量的维度数量可以与标签集合中的标签数量相等，例如，可以是一个200维的向量。其中，对于一个具体的样本的实体，原始标签所在的维度为1，其他维度为0。例如，某样本中的实体对应三个原始标签，分别位于向量的第10、13、14维，则该实体的原始标签分布中，向量的第10、13、14维为1，其他维为0。另外，具体实现时，为了使得原始标签分布中每个维度上的数字能够表达概率，还可以对上述标签分布进行归一化处理，例如，对于前述例子，归一化处理后的向量中，第10、13、14维为0.33，其他维为0，等等。

S202：利用所述第一实体打标模型对所述训练样本中的实体进行标签分布预测；

在训练得到第一实体打标模型后，还可以直接利用第一实体打标模型对每条训练样本中的实体进行标签分布预测。由于训练得到的第一实体打标模型在预测过程中并不完全拟合训练样本中的标注信息，而是会结合具体实体所在的上下文信息等进行全面的分析计算，并最终得出预测结果，因此，其中也包含了大量的正确信息。本申请实施例在对训练样本进行重标注时，除了可以利用原始标签中包含的正确信息，还可以结合预测结果中包含的正确信息。其中，具体进行预测时，可以直接将训练样本中的各条数据(仅包括句子以及实体本身，不包括标注信息)输入到实体打标模型中，实体打标模型即可输出预测结果。具体的预测结果也可以通过向量的形式来表示，向量的维度也可以与标签集合中的标签数量相同，向量中每个维度上的值代表对于当前实体而言，对应维度上的标签的正确概率。

需要说明的是，在利用第一实体打标模型进行预测时，并不完全拟合训练样本数据。例如，如果训练样本集中，包含某实体的句子数量比较少，则在训练过程中，模型从样本的标注信息中学习的信息就会比较少，此时，具体在对这种实体进行预测时，可能会更多的利用实体所在的上下文信息进行预测。进而，就可能使得原始噪声标签之外的其他标签获得一定的正确概率。例如，对于训练样本中的某实体，其原始噪声标签分布在第10、13、14维，各自的概率分别为0.33；但是，利用第一实体打标模型对该实体进行预测时，通过对该实体所在的上下文信息的分析计算，具体的预测结果中，第20维上的标签也存在一定的正确概率，甚至其概率可能还高于原始的第10、13、14维上的概率，等等。

S203：利用所述训练样本中的实体的原始标签分布以及所预测出的标签分布各自包含的正确信息，对所述训练样本中的实体进行重新标注；

在本申请实施例中，可以结合训练样本中的实体对应的原始标签分布以及预训练的模型给出的预测结果中包含的正确的信息，实现对训练样本中的实体的重新标注，进而可以利用重新标注后的训练样本重新对模型进行训练，以此提升模型的预测准确率。

其中，为了在重新标注过程中能够利用上述原始标签分布以及预测出的标签分布信息，可以有多种方式。例如，一种方式下，可以首先根据所述原始标签分布初始化所述训练样本中的实体对应的伪标签分布，之后，构造关于所述伪标签分布、原始标签分布以及预测出的标签分布的目标函数，并通过多轮迭代，对所述伪标签分布进行更新。然后，根据更新后的伪标签分布重新对所述训练样本进行标签标注。

在构造目标函数时，也可以有多种方式。例如，在一种方式下，构造出的目标函数可以保证在更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内。为此，具体的目标函数中可以包括KL距离约束，具体的，KL距离约束可以根据预测出的标签分布与伪标签分布之间的交叉熵来表示，使得伪标签分布相对于预测出的标签分布的偏移量控制在第一目标范围内。其中，KL距离是用于衡量分布之间的相似度的函数，通过设定KL距离约束，可以使得在更新的过程中，伪标签分布不会与预测出的标签分布之间产生过大的偏离。通过该约束，可以使得在最后的预测信息中包含正确标签的比例，大于原始训练集合(基于远程监督构造的训练集合)中包含正确信息的比例。尤其是对于简单的样本，基本能够克服噪声标签的影响。

当然，如果仅通过上述KL距离约束来构造目标函数，则最终重新标注后重新训练的模型的预测结果的准确率是存在一个下限值的，也即，高于原始训练集合中包含正确信息的比例。其中，对于比较简单的样本，重新训练后的准确率可能会得到比较明显的提升，而对于比较复杂的样本，可能仅仅能够略高于原始训练集合中包含正确信息的比例。另外，如果仅设置KL距离约束，也可能会使得伪标签分布过于接近模型预测出的标签分布。因此，在实际应用中，为了进一步提升准确率，也为了平衡伪标签分布与预测结果中的标签分布之间的偏移量，还可以在目标函数中增加其他的约束。

例如，在一种方式下，还可以增加偏移约束，所述偏移约束通过更新后的伪标签分布与初始化的伪标签分布之间的交叉熵进行表达，以使得更新后的伪标签分布与初始化的伪标签分布之间的偏移量在第二目标范围内。也即，通过该约束，可以避免在迭代的过程中，伪标签分布相对于原始标签分布的偏移量过大。这样做的目的是能够充分利用原始标签分布中包含的正确的信息。

通过上述KL距离约束以及偏移约束，可以使得第一实体打标模型预测出的标签分布信息以及原始标签分布信息都能够参与到计算中，从而可以充分利用两者包含的正确的信息，有利于提升重新标注的准确率。

另外，在实际应用中，如果仅设置KL距离约束以及偏移约束，则更新后的伪标签分布中，可能会出现多个标签，各自对应着一个概率值，用于表示对应的标签正确的概率。此时，可以直接用这种概率值对训练样本进行重新标注，或者，在更为优选的方式下，还可以在所述目标函数中添加独热约束，以使得更新后的伪标签分布中只有一个维度上的标签符合目标条件。也就是说，通过增加独热约束，可以使得最终更新后的伪标签分布中仅存在一个维度上的标签，其他维度上的标签均为0，从而使得一个训练样本仅被标注一个标签，并且该标签属于正确标签的概率比较高，因此，在利用这样的重新标注后的样本数据进行模型训练时，可以提升模型的预测准确率。

需要说明的是，由于本申请实施例在对训练样本中的实体进行重新标注时，利用了预训练出的实体打标模型的预测结果以及原始标签分布，而预测结果中的标签分布中，由于可以结合实体所在的上下文信息进行综合的计算，因此，可以使得原始噪声标签之外的其他标签也可能会存在一定的正确概率，从而出现在预测出的标签分布中。本申请实施例在利用该信息进行重新标注的过程中，则可能会使得原始噪声标签之外的其他标签的正确概率得到提升，进而在重新标注时，可能会将该其他标签作为正确的标签标注给对应的训练样本中的实体。可见，通过本申请实施例，具体重新标注的标签可以包括所述原始标签之外的标签，也即不再局限于从原始噪声标签中进行标签选择后重新标注，从而能够对更大范围、更普遍的标签错误进行去噪。另外，由于本申请实施例的重新标注过程不需要进行假设，也不需依赖任何额外标注信息，因此，具有良好的可扩展性。

S204：根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。

在完成对训练样本的重新标注后，可以根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。由于重新标注后的训练样本具有更高的准确性，在可选的方式下，还可以仅对应一个正确率比较高的标签，因此，利用这种样本进行模型训练后，可以为模型获得更高的预测准确率。

总之，通过本申请实施例，可以首先通过远程监督的方式构造训练样本的原始标签，其中包含有噪声标签，在该状态下，可以直接用于对实体打标模型进行预训练。利用这种方式训练出的实体打标模型进行预测时，虽然可能出现错误的情况，但实际上其中也包含大量的正确的信息。同时，训练样本的原始标签中其实也包含大量的正确信息。因此，本申请实施例可以在充分利用上述两者中的正确信息的基础上，重新对训练样本中的实体进行标注，然后再利用重新标注后的训练样本对实体打标模型进行训练。由于本申请实施例中对训练样本中的实体进行重新标注的过程并不依赖任何的假设，而且能够综合预训练的实体标注模型的预测结果以及原始噪声标签两者中包含的正确的信息，因此，因此，能够对更大范围、更普遍的标签错误进行去噪，具有可扩展性。另外，由于预训练的实体打标模型并不完全模拟训练样本集，因此，可能对于某个实体，在结合其上下文进行标签预测时，原始噪声标签之外的其他标签在预测结果中也可能具有一定正确的概率，在此基础上，通过本申请实施例中的计算，有可能会使得原始噪声标签之外的其他标签的正确概率得到提升，甚至最终被作为正确的标签重新标注给对应的实体。因此，通过本申请实施例的方案，对训练样本中的实体进行重新标注时，不再限于从原始噪声标签中选择其一，因此，对于原始噪声标签存在较大误差，甚至原始噪声标签中不存在正确标签等情形，可以有机会为具体的训练样本重新标注上真正正确的标签，从而提升训练样本的质量，重新对模型进行训练后，可以提升模型的预测准确率。

实施例二

在前述实施例一中，对训练样本进行重标注之后，可以利用重新标注后的样本重新进行模型训练，以提升模型的预测准确率，而在其他应用场景中，重新标注后的样本也可以在其他场景中应用，例如，在训练关系提取模型中使用，等等。因此，在该实施例二中，提供了一种训练样本处理方法，参见图3，该方法具体可以包括：

S301：获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签中包括噪声标签；所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

S302：利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

S303：根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注，生成新的训练样本集。

实施例三

如前文所述，在本申请实施例中，对于一训练样本而言，重新标注的标签可能是原始标签之外的其他标签，在这种情况下，还可以用这种重新标注的标签来实现对原始知识图谱的扩展。具体的，该实施例三还提供了一种扩展实体标签知识图谱的方法，参见图4，该方法具体可以包括：

S401：获取原始训练样本集，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签信息是根据原始的知识图谱获得的，其中包括噪声标签；

S402：利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型，所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

S403：利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

S404：根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注；

S405：如果重新标注的标签不属于对应实体的原始标签，则将该实体与所述重新标注的标签之间的对应关系添加到所述知识图谱中。

除了上述实施例二、三所述的应用之外，在具体实现时还可以包括其他应用场景。例如，在商品对象网络销售系统中，商品对象的名称可能会比较长，在对这种名称文本进行处理时，可能需要从中进行实体识别以及标注，此时，便可以利用本申请实施例提供的方案进行实体打标模型的训练，以提高实体打标的准确率，等等。

实施例四

该实施例四从另一个角度提供了一种实体打标模型的训练方法，参见图5，该方法具体可以包括：

S501：利用包含噪声标签的训练数据对实体打标模型进行训练，并利用训练得到的实体打标模型对所述训练数据中的实体进行标签分布预测；

S502：根据所述训练数据中所包含实体的原始标签分布以及所述实体打标模型预测的标签分布，得到所述实体的伪标签；

具体实现时，首先可以根据所述原始标签分布初始化伪标签分布，然后对所述伪标签分布进行更新，更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内，完成更新后，选择更新后的伪标签分布中概率符合条件的标签作为伪标签。

其中，具体实现时，可以根据KL距离约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新；所述KL距离约束通过所述预测出的标签分布与所述伪标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对所述预测出的标签分布的偏移量在第一目标范围内。或者，根据偏移约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新；所述偏移约束通过伪标签分布与原始标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对原始标签分布的偏移量在第二目标范围内。另外，还可以根据独热约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新，以使得更新后的伪标签分布中仅有单个维度上的标签符合目标条件。

S503：利用所述伪标签对所述训练数据中的实体进行重标注，并利用重标注的训练数据对所述实体打标模型进行训练，得到训练后的实体打标模型。

其中，关于实施例二、三、四中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。

与实施例一相对应，本申请实施例还提供了一种实体打标模型的训练装置，参见图6，该装置具体可以包括：

第一训练单元601，用于获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立第一实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息；

预测单元602，用于利用所述第一实体打标模型对所述训练样本中的实体进行标签分布预测；

重标注单元603，用于利用所述训练样本中的实体的原始标签分布以及所预测出的标签分布各自包含的正确信息，对所述训练样本中的实体进行重新标注；

第二训练单元604，用于根据重新标注后的训练样本重新对实体打标模型进行训练，建立第二实体打标模型。

其中，所述第一实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；所述标签分布为：标签在所述标签集合对应的多维向量中的分布情况。

其中，所述重标注单元具体可以包括：

伪标签初始化子单元，用于根据所述原始标签分布初始化所述训练样本中的实体对应的伪标签分布；

伪标签更新子单元，用于构造关于所述伪标签分布、原始标签分布以及预测出的标签分布的目标函数，并通过多轮迭代，对所述伪标签分布进行更新；

重标注子单元，用于根据更新后的伪标签分布重新对所述训练样本进行标签标注。

具体的，更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内。

其中，所述目标函数中包括KL距离约束，所述KL距离约束通过所述预测出的标签分布与所述伪标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对所述预测出的标签分布的偏移量在第一目标范围内。

或者，所述目标函数中包括偏移约束，所述偏移约束通过伪标签分布与原始标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对原始标签分布的偏移量在第二目标范围内。

另外，所述目标函数中还可以包括独热约束，以使得更新后的伪标签分布中仅有单个维度上的标签符合目标条件。

其中，重新标注的标签包括标签集合中所述原始标签之外的标签。

与实施例二相对应，本申请实施例还提供了一种训练样本处理装置，参见图7，该装置具体可以包括：

训练样本获取单元701，用于获取原始训练样本集，并利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型；其中，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签中包括噪声标签；所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

预测单元702，用于利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

重标注单元703，用于根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注，生成新的训练样本集。

与实施例三相对应，本申请实施例还提供了一种扩展实体标签知识图谱的装置，参见图8，该装置可以包括：

训练样本获取单元801，用于获取原始训练样本集，所述原始训练样本集中包括多条训练样本，每条训练样本包括实体，实体关联的文本，以及实体对应的原始标签信息，所述原始标签信息是根据原始的知识图谱获得的，其中包括噪声标签；

训练单元802，用于利用所述原始训练样本集对实体打标模型进行训练，建立实体打标模型所述实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

预测单元803，用于利用所述实体打标模型对所述训练样本中的实体进行标签分布预测；

重标注单元804，用于根据所述训练样本中的实体的原始标签分布以及所预测出的标签分布，对所述训练样本中的实体进行重新标注；

添加单元805，用于如果重新标注的标签不属于对应实体的原始标签，则将该实体与所述重新标注的标签之间的对应关系添加到所述知识图谱中。

与实施例四相对应，本申请实施例还提供了一种实体打标模型的训练装置，参见图9，该装置具体可以包括：

第一训练单元901，用于利用包含噪声标签的训练数据对实体打标模型进行训练，并利用训练得到的实体打标模型对所述训练数据中的实体进行标签分布预测；

伪标签获得单元902，用于根据所述训练数据中所包含实体的原始标签分布以及所述实体打标模型预测的标签分布，得到所述实体的伪标签；

第二训练单元903，用于利用所述伪标签对所述训练数据中的实体进行重标注，并利用重标注的训练数据对所述实体打标模型进行训练，得到训练后的实体打标模型。

其中，所述第二训练单元具体可以包括：

初始化子单元，用于根据所述原始标签分布初始化伪标签分布；

更新子单元，用于对所述伪标签分布进行更新，更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内；

伪标签确定子单元，用于选择更新后的伪标签分布中概率符合条件的标签作为伪标签。

其中，所述更新子单元具体可以用于：

根据KL距离约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新；所述KL距离约束通过所述预测出的标签分布与所述伪标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对所述预测出的标签分布的偏移量在第一目标范围内。

或者，根据偏移约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新；所述偏移约束通过伪标签分布与原始标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对原始标签分布的偏移量在第二目标范围内。

另外，还可以根据独热约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新，以使得更新后的伪标签分布中仅有单个维度上的标签符合目标条件。

此外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图10示例性的展示出了电子设备的架构，具体可以包括处理器1010，视频显示适配器1011，磁盘驱动器1012，输入/输出接口1013，网络接口1014，以及存储器1020。上述处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020之间可以通过通信总线1030进行通信连接。

其中，处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储用于控制电子设备1000运行的操作系统1021，用于控制电子设备1000的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1023，数据存储管理系统1024，以及模型训练处理系统1025等等。上述模型训练处理系统1025就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1013用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1014用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1030包括一通路，在设备的各个组件(例如处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，存储器1020，总线1030等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的实体打标模型的训练方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种实体打标模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据中所包含实体的原始标签分布以及所述实体打标模型预测的标签分布，得到所述实体的伪标签，包括：

根据所述原始标签分布初始化伪标签分布；

对所述伪标签分布进行更新，更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内；

选择更新后的伪标签分布中概率符合条件的标签作为伪标签。

3.根据权利要求2所述的方法，其特征在于，所述对所述伪标签分布进行更新，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述伪标签分布进行更新，包括：

根据偏移约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新；所述偏移约束通过伪标签分布与原始标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对原始标签分布的偏移量在第二目标范围内。

5.根据权利要求2所述的方法，其特征在于，所述对所述伪标签分布进行更新，包括：

根据独热约束构造目标函数，并通过多轮迭代对所述伪标签分布进行更新，以使得更新后的伪标签分布中仅有单个维度上的标签符合目标条件。

6.一种实体打标模型的训练方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，

所述第一实体打标模型用于根据输入的实体以及所关联的文本信息，从候选的标签集合中为实体确定对应的标签；

所述标签分布为：标签在所述标签集合对应的多维向量中的分布情况。

8.根据权利要求6所述的方法，其特征在于，

所述利用所述原始标签分布以及所预测出的标签分布各自包含的正确信息，对所述训练样本中的实体进行重新标注，包括：

根据所述原始标签分布初始化所述训练样本中的实体对应的伪标签分布；

构造关于所述伪标签分布、原始标签分布以及预测出的标签分布的目标函数，并通过多轮迭代，对所述伪标签分布进行更新；

根据更新后的伪标签分布重新对所述训练样本进行标签标注。

9.根据权利要求8所述的方法，其特征在于，

更新过程中所述伪标签分布与所述预测的标签分布以及所述原始标签分布之间的差异保持在预设范围内。

10.根据权利要求9所述的方法，其特征在于，

所述目标函数中包括KL距离约束，所述KL距离约束通过所述预测出的标签分布与所述伪标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对所述预测出的标签分布的偏移量在第一目标范围内。

11.根据权利要求9所述的方法，其特征在于，还包括：

所述目标函数中包括偏移约束，所述偏移约束通过伪标签分布与原始标签分布之间的交叉熵进行表达，以使得在迭代过程中，所述伪标签分布相对原始标签分布的偏移量在第二目标范围内。

12.根据权利要求8所述的方法，其特征在于，还包括：

所述目标函数中包括独热约束，以使得更新后的伪标签分布中仅有单个维度上的标签符合目标条件。

13.根据权利要求6至12任一项所述的方法，其特征在于，

重新标注的标签包括标签集合中所述原始标签之外的标签。

14.一种训练样本处理方法，其特征在于，包括：

15.一种扩展实体标签知识图谱的方法，其特征在于，包括：

16.一种实体打标模型的训练装置，其特征在于，包括：

17.一种实体打标模型的训练装置，其特征在于，包括：

18.一种训练样本处理装置，其特征在于，包括：

19.一种扩展实体标签知识图谱的装置，其特征在于，包括：

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至15任一项所述的方法的步骤。

21.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至15任一项所述的方法的步骤。