CN114724010A

CN114724010A - 一种待训练样本的确定方法、装置、设备及可读存储介质

Info

Publication number: CN114724010A
Application number: CN202210525854.6A
Authority: CN
Inventors: 杨万征; 曲笑辰; 蔡超
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-08
Anticipated expiration: 2042-05-16
Also published as: CN114724010B

Abstract

本申请提供了一种待训练样本的确定方法、装置、设备及可读存储介质，其中，对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组；将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，采用上述方法，通过根据三元组的预测结果对样本中的三元组进行增删，有利于提高使用样本训练得到的模型的有效性。

Description

一种待训练样本的确定方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种待训练样本的确定方法、装置、设备及可读存储介质。

背景技术

现有技术中，在使用训练样本对用于进行知识抽取的模型进行训练时，通常直接使用半监督学习法，即将包含同一实体组的样本作为训练样本进行模型训练，发明人在研究中发现，由于该实体组中的实体之间可能不存在实际的实体关系，从而使得参与模型训练的样本可能出现语义漂移的情况；由于模型训练的过程是一种算法迭代，使用语义漂移的样本对模型进行训练后，容易出现训练得到的模型无法准确的对待抽取样本进行知识抽取，从而降低了使用样本训练得到的模型的有效性。

发明内容

有鉴于此，本发明的目的在于提供一种待训练样本的确定方法、装置、设备及可读存储介质，有利于提高使用样本训练得到的模型的有效性。

第一方面，本申请实施例提供了一种待训练样本的确定方法，所述方法包括：

对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，其中，所述至少一个预测三元组为该候选样本中具有客观关联关系的三元组，所述三元组由具有实体关系的两个实体，以及用于表征所述实体关系的实体关系词组成；

将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，其中，所述待增加三元组为不存在于所述候选样本中的三元组，所述待删除三元组为存在于所述候选样本中的子三元组。

可选地，在对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组前，所述方法还包括：

对于至少一个待训练样本中的每个待训练样本，判断该待训练样本中的待训练实体组是否与该待训练样本所属领域的本领域知识图谱中的三元组中的实体组相同，其中，所述待训练样本包括由具有实体关系的两个实体组成的待训练实体组和描述所述实体关系的待训练实体关系词组成的待训练三元组；

若该待训练样本中的待训练实体组与该待训练样本所属领域的本领域知识图谱中的知识图谱三元组中的实体组相同，则根据该待训练样本中的待训练实体组的信息熵确定该待训练实体组的离散值，其中，所述离散值用于描述该待训练实体组中的两个实体之间离散程度；

判断离散值小于第三预设阈值的待训练实体组归属于的待训练样本中，包含的相同的待训练实体关系词的数量是否小于第四预设阈值，以将数量小于第四预设阈值的相同的待训练实体关系词归属于的待训练三元组从所述离散值小于所述第三预设阈值的待训练实体组归属于的待训练样本中删除后得到候选样本。

可选地，在将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本后，所述方法还包括：

对于每个待训练样本，将该待训练样本输入至用于对样本进行三元组抽取的三元组抽取模型中得到至少一个目标三元组；

将所述至少一个目标三元组与所述至少一个预测三元组进行对比；

当所述至少一个目标三元组存在所述待增加三元组，且不包含所述待删除三元组时，将所述三元组抽取模型进行存储。

可选地，在将所述三元组抽取模型进行存储后，所述方法还包括：

将至少两个待抽取样本输入至所述三元组抽取模型中，以得到至少两组候选三元组，其中，对于每两组候选三元组，该两组候选三元组由第一候选三元组和第二候选三元组组成，对于每两组候选三元组中的每组候选三元组，该候选三元组由候选实体组和候选关系词组成，所述候选实体组包括具有所述候选关系词所表征的实体关系的两个候选实体；

对于每两组候选三元组，将该两组候选三元组中的第一候选三元组中的各个候选实体分别与第二候选三元组中的各个候选实体进行语义相似度计算；

将语义相似度最高的两个候选实体进行组合，以得到组合实体；

根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱。

可选地，在根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱后，所述方法还包括：

响应目标用户对目标知识图谱的查询请求，计算所述候选知识图谱中的候选实体之间的置信度；

将所述目标知识图谱向所述目标用户进行展示，其中，所述目标知识图谱为所述候选知识图谱中的候选实体之间的置信度大于第五预设阈值的知识图谱。

第二方面，本申请实施例提供了一种待训练样本的确定装置，所述装置包括：

预测三元组确定单元，用于对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，其中，所述至少一个预测三元组为该候选样本中具有客观关联关系的三元组，所述三元组由具有实体关系的两个实体，以及用于表征所述实体关系的实体关系词组成；

待训练样本确定单元，用于将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，其中，所述待增加三元组为不存在于所述候选样本中的三元组，所述待删除三元组为存在于所述候选样本中的子三元组。

可选地，所述装置还包括：

第一判断单元，用于在对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组前，对于至少一个待训练样本中的每个待训练样本，判断该待训练样本中的待训练实体组是否与该待训练样本所属领域的本领域知识图谱中的三元组中的实体组相同，其中，所述待训练样本包括由具有实体关系的两个实体组成的待训练实体组和描述所述实体关系的待训练实体关系词组成的待训练三元组；

离散值确定单元，用于若该待训练样本中的待训练实体组与该待训练样本所属领域的本领域知识图谱中的知识图谱三元组中的实体组相同，则根据该待训练样本中的待训练实体组的信息熵确定该待训练实体组的离散值，其中，所述离散值用于描述该待训练实体组中的两个实体之间离散程度；

第二判断单元，用于判断离散值小于第三预设阈值的待训练实体组归属于的待训练样本中，包含的相同的待训练实体关系词的数量是否小于第四预设阈值，以将数量小于第四预设阈值的相同的待训练实体关系词归属于的待训练三元组从所述离散值小于所述第三预设阈值的待训练实体组归属于的待训练样本中删除后得到候选样本。

可选地，所述装置还包括：

目标三元组确定单元，用于在将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本后，对于每个待训练样本，将该待训练样本输入至用于对样本进行三元组抽取的三元组抽取模型中得到至少一个目标三元组；

三元组对比单元，用于将所述至少一个目标三元组与所述至少一个预测三元组进行对比；

抽取模型存储单元，用于当所述至少一个目标三元组存在所述待增加三元组，且不包含所述待删除三元组时，将所述三元组抽取模型进行存储。

可选地，所述装置还包括：

候选三元组确定单元，用于在将所述三元组抽取模型进行存储后，将至少两个待抽取样本输入至所述三元组抽取模型中，以得到至少两组候选三元组，其中，对于每两组候选三元组，该两组候选三元组由第一候选三元组和第二候选三元组组成，对于每两组候选三元组中的每组候选三元组，该候选三元组由候选实体组和候选关系词组成，所述候选实体组包括具有所述候选关系词所表征的实体关系的两个候选实体；

语义相似度确定单元，用于对于每两组候选三元组，将该两组候选三元组中的第一候选三元组中的各个候选实体分别与第二候选三元组中的各个候选实体进行语义相似度计算；

组合实体确定单元，用于将语义相似度最高的两个候选实体进行组合，以得到组合实体；

候选知识图谱构建单元，用于根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱。

可选地，所述装置还包括：

置信度计算单元，用于在根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱后，响应目标用户对目标知识图谱的查询请求，计算所述候选知识图谱中的候选实体之间的置信度；

目标知识图谱展示单元，用于将所述目标知识图谱向所述目标用户进行展示，其中，所述目标知识图谱为所述候选知识图谱中的候选实体之间的置信度大于第五预设阈值的知识图谱。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可选地实施方式中所述的一种待训练样本的确定方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面中任一种可选地实施方式中所述的一种待训练样本的确定方法的步骤。

本申请提供的技术方案包括但不限于以下有益效果：

本发明实施例提供的一种待训练样本的确定方法、装置、设备及可读存储介质，其中，对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，其中，所述至少一个预测三元组为该候选样本中具有客观关联关系的三元组，所述三元组由具有实体关系的两个实体，以及用于表征所述实体关系的实体关系词组成，通过上述步骤，将样本输入至预测模型中得到大致的预测三元组，可以根据预测三元组对样本进行初步筛选；将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，其中，所述待增加三元组为不存在于所述候选样本中的三元组，所述待删除三元组为存在于所述候选样本中的子三元组。采用上述方法，根据预测三元组对样本中的原始三元组进行增删后得到待训练样本，有利于提高使用样本训练得到的模型的有效性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例一所提供的一种待训练样本的确定方法的流程图；

图2示出了本发明实施例一所提供的一种候选语料的确定方法的流程图；

图3示出了本发明实施例一所提供的一种待训练样本的确定系统的结构示意图；

图4示出了本发明实施例二所提供的一种待训练样本的确定装置的结构示意图；

图5示出了本发明实施例三所提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

为便于对本申请进行理解，下面结合图1示出的本发明实施例一所提供的一种待训练样本的确定方法的流程图描述的内容对本申请实施例一进行详细说明。

参见图1所示，图1示出了本发明实施例一所提供的一种待训练样本的确定方法的流程图，所述方法包括步骤S101~S102：

S101：对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，其中，所述至少一个预测三元组为该候选样本中具有客观关联关系的三元组，所述三元组由具有实体关系的两个实体，以及用于表征所述实体关系的实体关系词组成。

具体的，候选样本可以为一个句子、一个段落、或者由多个词组组成的语料，该语料可以具有语义或者不具有语义；在将该候选样本输入至至少一个训练好的用于对语料进行三元组抽取的预测模型中，可以得到至少一个预测得到的三元组，由于预测模型中的算法和收敛程度可能存在差别，所述预测得到的多个三元组可能也会不相同。

所述实体关系为实体联系，即两个实体之间的关联关系或者联系，联系为数据对象（实体）彼此之间相互连接的方式，联系可以分为至少3种类型：一对一联系（例如：一个部门有一个经理，而每个经理只在一个部门任职，则部门与经理的联系是一对一的），一对多联系（例如：某校教师与课程之间存在一对多的联系“教”，即每位教师可以教多门课程，但是每门课程只能由一位教师来教）和多对多联系（例如：学生与课程间的联系“ 学 ”是多对多的，即一个学生可以学多门课程，而每门课程可以有多个学生来学）。

预测模型在对语料进行三元组抽取时，可以使用到公认的用于描述客观实体关系的知识图谱作为依据，将语料中的具有客观关联关系的三元组进行抽取，以将不具有关联关系的实体进行过滤，从而保证了抽取得到的三元组的准确性。

S102：将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，其中，所述待增加三元组为不存在于所述候选样本中的三元组，所述待删除三元组为存在于所述候选样本中的子三元组。

具体的，将该候选样本中原本存在的子三元组与步骤S101得到至少一个预测三元组进行对比，若存在数量大于第一预设阈值的原本不存在于候选样本中的相同的预测三元组，则将该预测三元组加入至该候选预料中作为一个子三元组，若存在数量小于等于第二预设阈值的原本存在于候选样本中的相同的预测三元组，则从候选样本中将于该预测三元组相同的子三元组进行删除。

例如，已知候选语料中原本包括子三元组：三元组B和三元组C，第一预设阈值为2，第二预设阈值为1，将候选预料输入至六个预测模型中，分别得到六个预测三元组：三元组A、三元组B、三元组A、三元组A、三元组C和三元组B，将预测三元组中的相同的三元组的数量与第一预设阈值和第二预设阈值进行比较可知，三元组A的数量大于第一预设阈值，三元组C的数量小于等于第二预设阈值，将三元组A和三元组C与子三元组中的三元组B和三元组C进行比较可知，候选语料中不存在三元组A，存在三元组C，则将三元组A加入至该候选语料中作为一个子三元组，并将与三元组C相同的子三元组中的三元组C进行删除，得到包括三元组A和三元组B的候选语料。

值得注意的是，所述第一预设阈值和所述第二预设阈值也可以被设定为数量占比的范围：将所述至少一个预测三元组中的相同的预测三元组的在所有预测三元组中的占比大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组在所述预测三元组中的占比小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本；具体的第一预设阈值和第二预设阈值可以根据实际需求进行设定，在此不做具体限定。

在一个可行的实施方案中，在将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组前，参见图2所示，图2示出了本发明实施例一所提供的一种候选语料的确定方法的流程图，所述方法包括步骤S201~S204：

S201：对于至少一个待训练样本中的每个待训练样本，判断该待训练样本中的待训练实体组是否与该待训练样本所属领域的本领域知识图谱中的三元组中的实体组相同，其中，所述待训练样本包括由具有实体关系的两个实体组成的待训练实体组和描述所述实体关系的待训练实体关系词组成的待训练三元组。

具体的，从本领域知识图谱中可以获取到多个三元组R（E1，E2），其中，R代表关系，E1、E2代表两个实体；判断该待训练样本中的实体组是否与E1和E2相同，并且共同存在与待训练样本中的语句中，且该语句表达了E1和E2之间的关系R；在这里，由于待训练样本本身包含的实体组是具有实体关系R的，且待训练样本中包括语句，所以直接判断该待训练样本中的待训练实体组是否与该待训练样本所属领域的本领域知识图谱中的三元组中的实体组相同即可。

S202：若该待训练样本中的待训练实体组与该待训练样本所属领域的本领域知识图谱中的知识图谱三元组中的实体组相同，则根据该待训练样本中的待训练实体组的信息熵确定该待训练实体组的离散值，其中，所述离散值用于描述该待训练实体组中的两个实体之间离散程度。

具体的，若该待训练样本中的待训练实体组与该待训练样本所属领域的本领域知识图谱中的知识图谱三元组中的实体组相同，则根据该待训练样本中的待训练实体组中的每个实体的信息熵，使用KL散度（Kullback-Leibler散度）算法（一种信息散度算法）计算该待训练实体组中两个实体间的离散值。

S203：判断离散值小于第三预设阈值的待训练实体组归属于的待训练样本中，包含的相同的待训练实体关系词的数量是否小于第四预设阈值，以将数量小于第四预设阈值的相同的待训练实体关系词归属于的待训练三元组从所述离散值小于所述第三预设阈值的待训练实体组归属于的待训练样本中删除后得到候选样本。

具体的，首先判断所述至少一个待训练样本中的每个待训练样本中的待训练实体组的离散值是否小于第三预设阈值，将离散值小于第三预设阈值的待训练实体组归属于的待训练样本确定为第二待训练样本；然后判断第二待训练样本中的包含的相同的待训练实体关系词的数量是否小于第四预设阈值，将第二待训练样本中的包含的相同的待训练实体关系词的数量小于第四预设阈值的待训练实体关系词归属于的待训练三元组，从该第二待训练样本中删除，以得到候选样本。

在一个可行的实施方案中，在将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本后，所述方法还包括：

对于每个待训练样本，将该待训练样本输入至用于对样本进行三元组抽取的三元组抽取模型中得到至少一个目标三元组；将所述至少一个目标三元组与所述至少一个预测三元组进行对比。

具体的，将步骤S102得到的至少一个待训练样本中的每个待训练样本输入至三元组抽取模型中得到至少一个抽取出来的目标三元组，并将所述至少一个目标三元组中的每个目标三元组与步骤S101中得到的至少一个预测三元组进行比较。

具体的，当所述至少一个目标三元组中存在步骤S102中得到的待增加三元组但不包含所述待删除三元组时，可以视为目标三元组为符合抽取要求的三元组，则可以将得到该目标三元组的三元组抽取模型视为满足收敛要求，并将该训练好的三元组抽取模型进行存储后发布。

在一个可行的实施方案中，在将所述三元组抽取模型进行存储后，所述方法还包括：

将至少两个待抽取样本输入至所述三元组抽取模型中，以得到至少两组候选三元组，其中，对于每两组候选三元组，该两组候选三元组由第一候选三元组和第二候选三元组组成，对于每两组候选三元组中的每组候选三元组，该候选三元组由候选实体组和候选关系词组成，所述候选实体组包括具有所述候选关系词所表征的实体关系的两个候选实体。

具体的，在得到训练好的三元组抽取模型后，将用户提供的或者从其他平台上采集到的至少两个待抽取样本输入至三元组抽取模型中，得到至少两组候选三元组，对于至少两组候选三元组中的每两组候选三元组，该两组候选三元组由第一候选三元组和第二候选三元组组成。

例如，用户提供了两个待抽取样本，待抽取样本A和待抽取样本B，将该两个待抽取样本输入至三元组抽取模型中得到候选三元组A和候选三元组B，将候选三元组A和候选三元组B作为每两组候选三元组，所述候选三元组A作为第一候选三元组，所述候选三元组B作为第二候选三元组。

对于每两组候选三元组，将该两组候选三元组中的第一候选三元组中的各个候选实体分别与第二候选三元组中的各个候选实体进行语义相似度计算。

具体的，计算方法包括但不限于余弦相似度的计算。

例如，候选三元组A中包括候选实体A和候选实体B，候选三元组中包括候选实体C和候选实体D，计算候选实体A和候选实体C之间的语义相似度AC，计算候选实体A和候选实体D之间的语义相似度AD，计算候选实体B和候选实体C之间的语义相似度BC，计算候选实体B和候选实体D之间的语义相似度BD。

将语义相似度最高的两个候选实体进行组合，以得到组合实体。

具体的，将计算得到的所有语义相似度进行比较，可以得到最高的语义相似度，然后将该语义相似度最高的两个候选实体进行合并。

例如，将语义相似度AC、语义相似度AD、语义相似度BC和语义相似度BD进行比较后得到语义相似度BC最高，则将语义相似度BC归属于的候选实体B 和候选实体C进行合并。

具体的，在将两个候选实体进行合并后，根据其中一个候选实体原本归属于的候选三元组中的另一个实体，以及原始候选三元组中与另一个实体的实体关系构建候选知识图谱。

例如，第一候选三元组A-R1-B中的候选实体A和候选实体B原本的实体关系为R1，第二候选三元组C-R2-D中的候选实体C和候选实体D原本的实体关系为R2，在将候选实体B和候选实体C进行合并后得到候选实体BC，则根据第一候选三元组和第二候选三元组构建得到的候选知识图谱中的实体和实体关系为A-R1-BC-R2-D。

在一个可行的实施方案中，在根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱后，所述方法还包括：

响应目标用户对目标知识图谱的查询请求，计算所述候选知识图谱中的候选实体之间的置信度。

具体的，候选知识图谱中包括多个实体，每两个实体间都有直接（一级关系）或者间接（二级关系、三级关系…N级关系）的实体关系，分别计算存在实体关系的候选知识图谱中的实体之间的置信度。

具体的，由于置信度表示了知识图谱中实体关系的真实度和关联程度，置信度的大小与真实度成正相关，所以可以根据置信度的大小，选取知识图谱中置信度满足预设阈值的三元组或者具有实体关系的实体和该实体关系作为目标知识图谱（候选知识图谱中的一部分）向目标用户进行展示。

也可以将置信度小于某一预设阈值的知识图谱进行验证，验证方法包括对该部分知识图谱中的待验证三元组与公认的知识图谱中的三元组进行对比，以确定该待验证三元组的正确性。

在本申请提供的一种待训练样本的确定方法的基础上，本申请还提供了一种待训练样本的确定系统300，参见图3所示，图3示出了本发明实施例一所提供的一种待训练样本的确定系统的结构示意图，其中，所述系统包括：

数据采集模块301，用于采集目标用户输入的种子数据和语料数据，其中，所述种子数据包括种子实体和种子三元组。

所述系统还包括：数据构建模块302，所述数据构建模块302包括数据清洗模块3021、自动标注模块3022、句法验证模块3023、质量评估模块3024和样本筛选模块3025。

所述数据清洗模块3021用于对待清洗样本进行数据清洗后得到待标注数据，其中，所述待清洗样本包括目标用户提供的种子数据和语料集，所述数据清洗方法包括停用词过滤、分词过滤。

所述自动标注模块3022用于将待标注数据与预设的本领域知识图谱中的三元组进行比较，若待标注数据中包括知识图谱中的三元组，且该三元组中的两个实体同时存在于所述待标注数据中，且所述待标注数据表达了两个实体之间的实体关系，则将所述待标注数据作为训练正例进行标注。

句法验证模块3023用于将所有所述训练正例中与预设句法结构不相同的训练正例进行删除，以得到待评估数据，其中，所述预设句法结构包括但不限于动名结构。

质量评估模块3024用于根据所述待评估数据计算首尾实体间的离散度，将离散度高的待评估数据进行删除，得到第二待评估数据，将所述第二待评估数据中具有相同句法结构的数量小于预设阈值的数据进行删除，以得到待筛选样本。

样本筛选模块3025用于将该待筛选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，统计至少一个预测三元组中相同的预测三元组的数量，将数量大于某一预设阈值的不存在于待筛选样本中的预测三元组加入至待筛选三元组，将数量小于某一预设阈值的存在于待筛选样本中的预测三元组从所述待筛选样本中删除，以得到待训练样本。

所述系统还包括：模型构建与训练模块303，用于使用所述待训练样本对待训练模型进行模型训练，直至模型收敛得到知识抽取模型。

所述系统还包括：知识抽取模块304，用于使用所述知识抽取模型对目标用户输入的语料进行知识抽取，以得到知识数据，并判断是否存在数量大于某一预设阈值的不存在于所述知识数据中的预测三元组，以及是否存在数量小于某一预设阈值的存在于所述知识数据中的预测三元组，若存在任意一种情况，则所述知识数据输入至样本筛选模块3025，以将数量大于某一预设阈值的不存在于所述知识数据中的预测三元组加入至待筛选三元组，同时，将数量小于某一预设阈值的存在于所述知识数据中的预测三元组从所述知识数据中删除，以得到第二待训练样本，将所述第二待训练样本输入所述模型构建与训练模块303中进行模型训练，若都不存在，则将所述知识数据输入至知识校验模块305。

所述系统还包括：知识校验模块305，所述知识校验模块305包括知识补全模块3051、知识清洗模块3052、知识探索模块3053、知识统计模块3054、知识合并模块3055和置信度计算模块3056。

所述知识补全模块3051用于基于预设的补全规则，采用句法、词法等结构对所述知识数据进行验证补全得到待清洗知识。

所述知识清洗模块3052用于采用停用词过滤、词性过滤、无异议词汇过滤以及预设规则进行对所述待清洗知识进行清洗得到待探索知识。

所述知识探索模块3053用于对所述待探索知识中的实体对的实体关系进行统计，选取实体关系数量高于某一预设阈值的实体关系作为关系模板，根据所述关系模板在预设的知识图谱中的采集具有相同关系模板的知识三元组。

所述知识统计模块3054，用于将所述知识三元组中实体数量小于某一预设阈值的知识三元组删除，以得到目标知识。

所述知识合并模块3055，用于计算目标知识中每两个实体之间的语义相似度，将语义相似度高于预设阈值的两个实体进行合并，得到组合三元组。

所述置信度计算模块3056，用于计算所护组合三元组中每两个实体之间的置信度。

所述系统还包括：知识图谱可视化模块306，用于将置信度高于某一预设阈值的三元组形成可视化的知识图谱，向所述目标用户进行展示。

实施例二

参见图4所示，图4示出了本发明实施例二所提供的一种待训练样本的确定装置的结构示意图，其中，如图4所示，本发明实施例二所提供的一种待训练样本的确定装置400包括：

预测三元组确定单元401，用于对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组，其中，所述至少一个预测三元组为该候选样本中具有客观关联关系的三元组，所述三元组由具有实体关系的两个实体，以及用于表征所述实体关系的实体关系词组成；

待训练样本确定单元402，用于将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本，其中，所述待增加三元组为不存在于所述候选样本中的三元组，所述待删除三元组为存在于所述候选样本中的子三元组。

在一个可行的实施方案中，所述装置还包括：

第一判断单元403，用于在对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组前，对于至少一个待训练样本中的每个待训练样本，判断该待训练样本中的待训练实体组是否与该待训练样本所属领域的本领域知识图谱中的三元组中的实体组相同，其中，所述待训练样本包括由具有实体关系的两个实体组成的待训练实体组和描述所述实体关系的待训练实体关系词组成的待训练三元组；

离散值确定单元404，用于若该待训练样本中的待训练实体组与该待训练样本所属领域的本领域知识图谱中的知识图谱三元组中的实体组相同，则根据该待训练样本中的待训练实体组的信息熵确定该待训练实体组的离散值，其中，所述离散值用于描述该待训练实体组中的两个实体之间离散程度；

第二判断单元405，用于判断离散值小于第三预设阈值的待训练实体组归属于的待训练样本中，包含的相同的待训练实体关系词的数量是否小于第四预设阈值，以将数量小于第四预设阈值的相同的待训练实体关系词归属于的待训练三元组从所述离散值小于所述第三预设阈值的待训练实体组归属于的待训练样本中删除后得到候选样本。

在一个可行的实施方案中，所述装置还包括：

目标三元组确定单元406，用于在将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本后，对于每个待训练样本，将该待训练样本输入至用于对样本进行三元组抽取的三元组抽取模型中得到至少一个目标三元组；

三元组对比单元407，用于将所述至少一个目标三元组与所述至少一个预测三元组进行对比；

抽取模型存储单元408，用于当所述至少一个目标三元组存在所述待增加三元组，且不包含所述待删除三元组时，将所述三元组抽取模型进行存储。

在一个可行的实施方案中，所述装置还包括：

候选三元组确定单元409，用于在将所述三元组抽取模型进行存储后，将至少两个待抽取样本输入至所述三元组抽取模型中，以得到至少两组候选三元组，其中，对于每两组候选三元组，该两组候选三元组由第一候选三元组和第二候选三元组组成，对于每两组候选三元组中的每组候选三元组，该候选三元组由候选实体组和候选关系词组成，所述候选实体组包括具有所述候选关系词所表征的实体关系的两个候选实体；

语义相似度确定单元410，用于对于每两组候选三元组，将该两组候选三元组中的第一候选三元组中的各个候选实体分别与第二候选三元组中的各个候选实体进行语义相似度计算；

组合实体确定单元411，用于将语义相似度最高的两个候选实体进行组合，以得到组合实体；

候选知识图谱构建单元412，用于根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱。

在一个可行的实施方案中，所述装置还包括：

置信度计算单元413，用于在根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱后，响应目标用户对目标知识图谱的查询请求，计算所述候选知识图谱中的候选实体之间的置信度；

目标知识图谱展示单元414，用于将所述目标知识图谱向所述目标用户进行展示，其中，所述目标知识图谱为所述候选知识图谱中的候选实体之间的置信度大于第五预设阈值的知识图谱。

实施例三

基于同一申请构思，参见图5所示，图5示出了本发明实施例三所提供的一种计算机设备的结构示意图，其中，如图5所示，本申请实施例三所提供的一种计算机设备500包括：

处理器501、存储器502和总线503，所述存储器502存储有所述处理器501可执行的机器可读指令，当计算机设备500运行时，所述处理器501与所述存储器502之间通过所述总线503进行通信，所述机器可读指令被所述处理器501运行时执行上述实施例一所示的一种待训练样本的确定方法的步骤。

实施例四

基于同一申请构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例中任一项所述的一种待训练样本的确定方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例所提供的进行待训练样本的确定的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的一种待训练样本的确定装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种待训练样本的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在对于每个候选样本，将该候选样本输入至至少一个训练好的三元组预测模型中得到至少一个预测三元组前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在将所述至少一个预测三元组中的相同的预测三元组的数量大于第一预设阈值的待增加三元组加入至该候选样本以作为该候选样本中的子三元组，同时，将所述至少一个预测三元组中的相同的预测三元组的数量小于等于第二预设阈值的待删除三元组从该候选样本中删除，以得到待训练样本后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在将所述三元组抽取模型进行存储后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在根据所述组合实体与所述组合实体中的候选实体在该两组候选三元组中具有的实体关系构建用于描述该两组候选三元组中候选实体之间的实体关系的候选知识图谱后，所述方法还包括：

6.一种待训练样本的确定装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5中任一所述的待训练样本的确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5中任意一项所述的待训练样本的确定方法的步骤。