CN114996472A

CN114996472A - 一种基于关系抽取模型的样本优化方法及系统

Info

Publication number: CN114996472A
Application number: CN202210581933.9A
Authority: CN
Inventors: 宋佳祥; 杨雅婷; 许娟; 朱宁; 白焜太; 刘硕
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-02

Abstract

从本申请提出一种基于关系抽取模型的样本优化方法及系统，属于数据处理技术领域，方法包括：获取训练样本集，所述训练样本集包括M条样本，每条样本由多个已标记的实体以及实体之间的关系组成；构建已知实体的关系列表；根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集；在新的训练样本集中取出任一样本，将任一样本改造成正样本与负样本的集合，所有样本均经过阈值处理，得到最终的输入样本。本申请在训练结果的精度不产生影响的前提下，降低了“关系抽取”的硬件资源消耗，提高计算效率。

Description

一种基于关系抽取模型的样本优化方法及系统

技术领域

本申请属于数据处理技术领域，具体涉及一种基于关系抽取模型的样本优化方法及系统。

背景技术

关系抽取是构建知识图谱的一个重要环节，通过关系抽取，可以确定知识图谱的节点和边，图谱节点表示概念和实体，边表示属性和关系。例如，对于疾病预测相关的知识图谱，通过抽取疾病、症状、多发群体以及它们之间的关系，能够根据一个患者的症状预测是否患有该种疾病的可能性。如图7所示为从一句医学表述中抽取知识图谱的实体及关系的图示。所抽取的实体为：小细胞肺癌、老年吸烟者、咳嗽、胸痛、咯血、呼吸困难和体重减轻，其中，小细胞肺癌为一种疾病的名称，老年吸烟者为多发群体，咳嗽、胸痛、咯血、呼吸困难和体重减轻为对应这种疾病的症状。通过抽取小细胞肺癌、老年吸烟者、咳嗽、胸痛、咯血、呼吸困难和体重减轻各个实体之间的关系，构建知识图谱，若知道一个患者的症状，便可以预测出该患者是否患有小细胞肺癌这种疾病的可能性。可见关系抽取在知识图谱的构建及其应用过程中有着重要的作用。

但是现有技术存在如下问题：关系抽取的硬件资源消耗非常高，针对中等规模的数据，在GPU型号为Tesla V100，内存为16G时，一次关系提取通常会运行几个小时至十几个小时，这严重影响关系抽取模型在医疗领域中的应用。

故，如何在不影响关系抽取精度的前提下，降低关系抽取的硬件资源消耗，提高计算效率是目前需要迫切解决的技术问题，

发明内容

基于以上技术问题，本申请提出一种基于关系抽取模型的样本优化方法及系统，在保证不影响识别准确度的前提下，能够大幅度降低关系抽取模型的运行时间。

第一方面，本申请提出一种基于关系抽取模型的样本优化方法，包括如下步骤：

步骤S1：获取训练样本集，所述训练样本集包括M条样本，每条样本由多个已标记的实体以及实体之间的关系组成；

步骤S2：构建已知实体的关系列表，即针对每两个已知实体进行排列组合，得到所有已知实体对，将所有已知实体对以及已知实体对之间的关系保存到关系列表中；

步骤S3：根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集；

步骤S4：在新的训练样本集中取出任一样本，将任一样本改造成正样本与负样本的集合，即针对任一样本中每两个已标记实体进行排列组合，若负样本超出设定阈值，则阻止已标记实体与其他已标记实体进行组合，得到已标记实体之间的排列组合以及对应关系类型；

步骤S5：直到新的训练样本集中的所有样本均经过步骤S4的阈值处理，得到最终的输入样本。

所述根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集，包括如下步骤：

步骤S3.1：遍历训练样本集中的M条样本；

步骤S3.2：遍历每一条样本中的已标记实体以及已标记实体之间的关系；

步骤S3.3：判断已标记实体以及已标记实体之间的关系是否存在于已知实体的关系列表中；

步骤S3.4：若已标记实体以及已标记实体之间的关系存在于已知实体的关系列表中，则保留该已标记实体以及已标记实体之间的关系；

步骤S3.5：若已标记实体以及已标记实体之间的关系不存在于已知实体的关系列表中，则删除该已标记实体以及已标记实体之间的关系的对应标记。

所述正样本，定义为在所取的任一样本中若已标记实体之间存在关系，即关系类型为存在关系，则称该已标记实体对的排列组合以及对应关系类型为正样本；所述负样本，定义为在所取的任一样本中若已标记实体之间不存在关系，即关系类型为不存在关系，则称该已标记实体对的排列组合以及对应关系类型为负样本。

所述在新的训练样本集中取出任一样本，将任一样本改造成正样本与负样本的集合，包括如下步骤：

步骤S4.1：在任一样本中，针对任一样本中每两个已标记实体对进行排列组合；

步骤S4.2：当已标记实体与实体进行排列组合时，识别二者之间在所述任一样本中是否存在关系；

步骤S4.3：如果存在关系，则将该已标记实体之间的排列组合以及对应关系类型保存为正样本；

步骤S4.4：如果不存在关系，判断此时在所述任一样本中负样本数量是否超过设定阈值；

步骤S4.5：若超过设定阈值，则阻止所述该已标记实体与其他已标记实体进行组合；

步骤S4.6：若未超过设定阈值，则允许所述已标记实体继续与其他已标记实体进行组合，并将该已标记实体之间的排列组合以及对应关系类型保存为负样本。

所述负样本与所述正样本的数量总和为：N×(N-1)，其中，N表示所取的任一样本中已标记实体个数。

所述最终的输入样本为关系抽取模型的输入样本。

第二方面，本申请提出一种基于关系抽取模型的样本优化系统，包括：样本集获取模块、实体对组合模块、新样本集获取模块、阈值处理模块、输入样本获取模块；

所述样本集获取模块、实体对组合模块、新样本集获取模块、阈值处理模块、输入样本获取模块依次顺序相连接；

所述样本集获取模块用于获取训练样本集，所述训练样本集包括M条样本，每条样本由多个已标记的实体以及实体之间的关系组成；

所述实体对组合模块用于构建已知实体的关系列表，即针对每两个已知实体进行排列组合，得到所有已知实体对，将所有已知实体对以及已知实体对之间的关系保存到关系列表中；

所述新样本集获取模块用于根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集；

所述阈值处理模块用于在新的训练样本集中取出任一样本，将任一样本改造成正样本与负样本的集合，即针对任一样本中每两个已标记实体进行排列组合，若负样本超出设定阈值，则阻止已标记实体与其他已标记实体进行组合，得到已标记实体之间的排列组合以及对应关系类型；

所述输入样本获取模块用于直到新的训练样本集中的所有样本均经过所述阈值处理模块的阈值处理，得到最终的输入样本。

所述阈值处理模块中所述正样本，定义为在所取的任一样本中若已标记实体之间存在关系，即关系类型为存在关系，则称该已标记实体对的排列组合以及对应关系类型为正样本；所述负样本，定义为在所取的任一样本中若已标记实体之间不存在关系，即关系类型为不存在关系，则称该已标记实体对的排列组合以及对应关系类型为负样本。

所述新样本集获取模块包括遍历单元、处理单元；

所述遍历单元与所述处理单元相连接；

所述遍历单元用于遍历训练样本集中的M条样本，遍历每一条样本中的已标记实体以及已标记实体之间的关系，并将每一条样本中的已标记实体以及已标记实体之间的关系发送到所述处理单元；

所述处理单元用于判断已标记实体以及已标记实体之间的关系是否存在于已知实体的关系列表中；若已标记实体以及已标记实体之间的关系存在于已知实体的关系列表中，则保留该已标记实体以及已标记实体之间的关系；若已标记实体以及已标记实体之间的关系不存在于已知实体的关系列表中，则删除该已标记实体以及已标记实体之间的关系的对应标记，得到新的训练样本集。

所述阈值处理模块包括：排列组合单元、识别单元、正样本保存单元、负样本处理单元；

所述排列组合单元、识别单元、正样本保存单元、负样本处理单元依次顺序相连接；

所述排列组合单元用于在任一样本中，针对任一样本中每两个已标记实体对进行排列组合；

所述识别单元用于当已标记实体与实体进行排列组合时，识别二者之间在所述任一样本中是否存在关系；

所述正样本保存单元用于判断如果存在关系，则将该已标记实体之间的排列组合以及对应关系类型保存为正样本；

所述负样本处理单元用于判断如果不存在关系，判断此时在所述任一样本中负样本数量是否超过设定阈值；若超过设定阈值，则阻止所述该已标记实体与其他已标记实体进行组合；若未超过设定阈值，则允许所述已标记实体继续与其他已标记实体进行组合，并将该已标记实体之间的排列组合以及对应关系类型保存为负样本。

所述阈值处理模块中所述负样本与所述正样本的数量总和为：N×(N-1)，其中，N表示所取的任一样本中已标记实体个数。

所述输入样本获取模块中最终的输入样本为关系抽取模型的输入样本。

第三方面，本申请提出一种计算机装置，计算机装置包括：处理器；

所述处理器用于执行存储器中存储的计算机程序时实现所述基于关系抽取模型的样本优化方法的步骤。

第四方面，本申请提出一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现所述基于关系抽取模型的样本优化方法的步骤。

有益技术效果：

本申请提出一种基于关系抽取模型的样本优化方法及系统，在训练结果的精度不产生影响的前提下，提升了模型训练效率，大幅度缩短了模型训练的时间，降低了“关系抽取”的硬件资源消耗，提高计算效率。

附图说明

图1为本申请实施例的一种基于关系抽取模型的样本优化方法流程图；

图2为本申请实施例的得到新的训练样本集流程图；

图3为本申请实施例的阈值处理流程图；

图4为本申请实施例的一种基于关系抽取模型的样本优化系统原理框图；

图5为本申请实施例的新样本集获取模块内部结构原理框图；

图6为本申请实施例的阈值处理模块内部结构原理框图；

图7为实体与关系举例示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本申请提出一种基于关系抽取模型的样本优化方法及系统，在保证不影响识别准确度的前提下，能够大幅度降低关系抽取模型的运行时间。

关系抽取模型的任务是判断两个实体之间的关系类型，所述关系类型包括有关系和没有关系两种关系，如果关系类型为有关系，则所述两个实体构成正样本；如果关系类型为没有关系，则所述两个实体构成负样本。例如，当前有A、B、C、D、E五种实体类型，关系类型只有两种：有关系、没有关系，关系抽取模型在构建输入时候，会将实体全部排列组合出来，因其关系类型造成正负样本不均衡。单条样本如表1所示：

表1：A～E实体对的排列组合

由此可见，正负样本总数量由公式N×(N-1)可得(N表示单条样本已标记的实体类型个数)，正样本数量5个，负样本15个，负样本数量远远多余正样本，随着实体类型增加，正负样本比例差距会越来越大，加大模型的训练负荷。

从上述问题发现，如果能去除一些负样本，而且对训练结果不产生影响，这样大大提升了模型的训练效率，避免占用过程的硬件资源。因此，通过以下方式进行负采样优化：

第一方面，本申请提出一种基于关系抽取模型的样本优化方法，如图1所示，包括如下步骤：

在步骤S3中所述根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集，如图2所示，包括如下步骤：

步骤S3.1：遍历训练样本集中的M条样本；

在步骤S4中所述在新的训练样本集中取出任一样本，将任一样本改造成正样本与负样本的集合，如图3所示，包括如下步骤：

通过步骤S3，剩余的负样本数量还是远大于正样本的数量，于是，再次经过步骤S4和步骤S5进行处理，具体实施例如下：设定一个阈值，当单条样本中已标记A实体与其他已标记实体的关系类型排列组合时候，如果是正样本，不进行处理，如果是负样本，根据设定的阈值大小，超过阈值，不再让A和其他实体进行组合，开始进行B实体和其他实体组合，按照A的组合方式，超过阈值，再进行C，以此类推，最后获取最终的输入样本，即关系抽取模型的输入样本。与原始的关系抽取模型的输入样本相比，经过上述步骤S1～S5处理后的关系抽取模型的输入样本，其数据量远小于原始关系抽取模型的输入样本数据量，从而模型训练时间得到了提升。

实验结果：

以下为真实样本做的一些实验数据，如表2所示：

表2：实验结果数据

其中，表2中，Negative sampling/3代表负样本为3个，Negative sampling/ALL代表负样本为所有负样本；从表2中能够清晰地看到，当抽样中包括了所有负样本的时候，其训练时间最长(对于癌症数据训练时间为31276s，对于头部疾患数据训练时间为110054s)，准确度也比较高(对于癌症数据为95.94％，对于头部疾患数据为84.03％)，当采用本申请的方法去掉其中的一些负样本后，其训练时间大幅度降低(当使用3个负样本时，对于癌症数据训练时间为5935s，对于头部疾患数据训练时间为2830s)，这将导致大幅度降低所占用的硬件资源，并且其准确度影响不大(癌症数据中，当使用3个负样本时，准确度为95.15％，与使用全部负样本的时候仅差0.75％)，甚至比使用所有负样本的时候准确度更高(头部疾患数据中，当使用3个负样本时，准确度为88.35％，比采用全部负样本时高4.32％)。

第二方面，本申请提出一种基于关系抽取模型的样本优化系统，如图4所示，包括：样本集获取模块、实体对组合模块、新样本集获取模块、阈值处理模块、输入样本获取模块；

所述新样本集获取模块，如图5所示，包括遍历单元、处理单元；

所述遍历单元与所述处理单元相连接；

所述阈值处理模块，如图6所示，包括：排列组合单元、识别单元、正样本保存单元、负样本处理单元；

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于关系抽取模型的样本优化方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于关系抽取模型的样本优化方法，其特征在于，所述根据已知实体的关系列表，在训练样本集中，若实体以及实体之间的关系不存在于已知实体的关系列表中，则删除训练样本集中该实体以及实体之间的关系，得到新的训练样本集，包括如下步骤：

步骤S3.1：遍历训练样本集中的M条样本；

3.如权利要求1所述的基于关系抽取模型的样本优化方法，其特征在于，所述正样本，定义为在所取的任一样本中若已标记实体之间存在关系，即关系类型为存在关系，则称该已标记实体对的排列组合以及对应关系类型为正样本；所述负样本，定义为在所取的任一样本中若已标记实体之间不存在关系，即关系类型为不存在关系，则称该已标记实体对的排列组合以及对应关系类型为负样本。

4.如权利要求1所述的基于关系抽取模型的样本优化方法，其特征在于，

5.如权利要求3所述的基于关系抽取模型的样本优化方法，其特征在于，所述负样本与所述正样本的数量总和为：N×(N-1)，其中，N表示所取的任一样本中已标记实体个数。

6.一种基于关系抽取模型的样本优化系统，其特征在于，包括：样本集获取模块、实体对组合模块、新样本集获取模块、阈值处理模块、输入样本获取模块；

7.如权利要求6所述的基于关系抽取模型的样本优化系统，其特征在于，所述新样本集获取模块包括遍历单元、处理单元；

所述遍历单元与所述处理单元相连接；

8.如权利要求6所述的基于关系抽取模型的样本优化系统，其特征在于，所述阈值处理模块包括：排列组合单元、识别单元、正样本保存单元、负样本处理单元；

9.一种计算机装置，其特征在于，计算机装置包括：处理器；

所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1-5中任意一项所述方法的步骤。