CN115687932A

CN115687932A - 多元组数据标注方法、模型训练方法、装置、设备和介质

Info

Publication number: CN115687932A
Application number: CN202211659979.4A
Authority: CN
Inventors: 马瑞祥; 张�浩; 马朋坤; 鲁新新; 李天宁
Original assignee: Ali Health Technology China Co ltd
Current assignee: Ali Health Technology China Co ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-02-03
Anticipated expiration: 2042-12-23
Also published as: CN115687932B

Abstract

本说明书实施方式提供了一种多元组数据标注方法、模型训练方法、装置、设备和介质。所述方法包括基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。可以通过提升对于多元组数据的标注效率，实现提升知识图谱的构建效率。

Description

多元组数据标注方法、模型训练方法、装置、设备和介质

技术领域

本说明书中实施方式涉及知识图谱数据处理领域，具体涉及一种多元组数据标注方法、模型训练方法、装置、设备和介质。

背景技术

知识图谱可以将知识数据可视化，以便于对于知识数据的学习和使用。具体的，例如，知识图谱在医学知识领域得到了较多的使用。如此，可以促进医学领域的知识研究。

现有技术中，知识图谱的构建，主要是基于专家人工处理。具体的，可以收集某一个领域的相关医学知识，该领域的专家人员依照经验，构建多元组数据，进而基于多元组数据建立知识图谱。

然而，这种知识图谱的构建方式，需要耗费大量人力，导致效率较低。

发明内容

本说明书中多个实施方式提供一种多元组数据标注方法、模型训练方法、装置、设备和介质。可以一定程度上，提升知识图谱的构建效率。

本说明书的一个实施方式提供一种多元组数据标注方法，所述多元组数据包括概念值、属性关系值和属性值；所述方法包括：基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

本说明书的一个实施方式提供一种多元组数据标注模型的训练方法，所述方法包括：获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值；将所述样本数据中的多元组数据输入所述标注模型，以使所述标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系；在所述标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述标注模型。

本说明书的一个实施方式提供一种多元组数据标注装置，所述多元组数据包括概念值、属性关系值和属性值；所述多元组数据标注装置包括：构建模块，用于基于输入的多元组数据构建所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立模块，建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；生成模块，用于根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

本说明书的一个实施方式提供一种多元组数据标注模型的训练装置，所述训练装置包括：获取模块，用于获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值；输入模块，用于将所述样本数据中的多元组数据输入所述标注模型，以使所述标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系；计算模块，用于在所述标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述标注模型。

本说明书的一个实施方式提供一种电子设备，所述电子设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现前述所述的多元组数据标注方法，或者使所述一个或多个处理器实现前述所述的多元组数据标注模型的训练方法。

本说明书的一个实施方式提供一种计算机存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的多元组数据标注方法，或者实现上述所述的多元组数据标注模型的训练方法。

本说明书提供的多个实施方式，通过生成多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量，如此，建立所述联合向量与所述属性值向量之间的演变向量，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异，该差异可以用于表示联合向量与属性值向量之间的演变过程。如此，通过将该演变向量与全连接向量结合，最终使用所述全连接向量和所述演变向量生成的所述多元组数据的标注数据，可以较为准确的表示多元组数据中概念值和属性值之间，是否符合属性关系值表示的关联关系。如此，可以较为快速的组件多元组数据，进而提升了构建知识图谱的效率。

附图说明

图1所示为本说明书的一个实施方式提供的多元组数据标注模型的示意图。

图2所示为本说明书的一个实施方式提供的多元组数据标注方法的流程图。

图3所示为本说明书的一个实施方式提供的多元组数据标注模型的训练方法的流程图。

图4所示为本说明书的一个实施方式提供的多元组数据标注装置的模块示意图。

图5所示为本说明书的一个实施方式提供的多元组数据标注模型的训练装置的模块示意图。

图6所示为本说明书的一个实施方式提供的电子设备示意图。

具体实施方式

请参阅图1。本说明书实施方式提供一种多元组数据标注方法的应用场景示例。在该应用场景示例中，用于构建医学知识领域的知识图谱。可以通过搜集医学知识领域的相关语料，进行加工整理，并通过机器学习模型，生成多个多元组数据。具体的，以三元组数据为例，每个三元组数据可以包括概念值、属性关系值和属性值。概念值可以用于表示该三元组数据所针对的知识概念，属性值用于表示知识属性，属性关系值用于表示所述知识属性与所述知识概念之间的关联关系。具体的，例如，一个医学知识领域的三元组数据（呼吸系统疾病、病位、小肠结构）。

获取三元组数据之后，可以对三元组数据进行数据清理，以对三元组数据中的数据进行规范化。具体的，可以去除三元组数据中空格，一些不应该出现的符号，比如空格，或者，进行格式上的进行统一，例如将“x射线”和“X射线”，统一成“X射线”。

可以采用多元组数据标注模型判断处理之后的三元组数据是否成立。具体的，可以将该三元组数据输入至所述多元组数据标注模型的输入层。该输入层可以将三元组数据的全部数据连接形成全连接数据“呼吸系统疾病&病位&小肠结构”，将概念值和属性关系值连接形成联合数据“呼吸系统疾病&病位”，提取所述三元组数据中的属性值“小肠结构”作为独立数据。其中，可以设置有连接符，以保留响应数据的边界。具体的，连接符可以为“&”。当然，连接符除了“&”，还可以为其它字符，不再赘述。

分别将所述全连接数据、所述联合数据和所述属性值，输入至向量生成层，以对应所述全连接数据生成全连接向量Vec_hrt，对应所述联合数据生成联合向量Vec_hr，以及对应所述属性值生成属性值向量Vec_t。具体的，向量生成层可以基于多层Transformer网络构建，例如可以使用6层经过医学领域的样本数据训练过的Transformer网络。

分别将所述全连接向量Vec_hrt、联合向量Vec_hr和属性值向量Vec_t，输入至融合处理层。所述融合处理层可以将所述联合向量Vec_hr映射至属性值向量Vec_t的向量空间。具体的，经过向量生成层输出的联合向量Vec_hr和属性值向量Vec_t，可以具有不相同的向量维数。通过将联合向量Vec_hr映射至属性值向量Vec_t的向量空间，得到映射之后的转换向量TransVec_hr。

进一步的，融合处理层可以使用转换向量TransVec_hr与属性值向量Vec_t，生成表征所述转换向量TransVec_hr和属性值向量Vec_t之间的差异的演变向量E_hrtot。当然，所述演变向量E_hrtot也可以表示转换向量TransVec_hr向着属性值向量Vec_t演变的演变路径。具体的，可以将转换向量TransVec_hr与属性值向量Vec_t之间对位作差，如此得到演变向量E_hrtot。融合处理层将演变向量E_hrtot与全连接向量Vec_hrt进行融合，最终得到目标向量E_target。

将目标向量E_target输入至全连接网络输出层，由所述全连接网络输出层做分类预测，得到输出的标注数据。所述标注数据可以包括0和1两个取值，其中，取值0可以用于表示所述三元组数据不成立，即概念值与属性值之间不存在属性关系值表示的关联关系。取值1可以用于表示三元组数据成立，即概念值与属性值之间存在属性关系值表示的关联关系。具体的，将三元组数据（呼吸系统疾病、病位、小肠结构）的目标向量E_target输入至全连接网络输出层得到的标注数据为取值0，表示三元组数据（呼吸系统疾病、病位、小肠结构）不成立。

进一步的，可以将具有标注数据的三元组数据提供给工作人员的审核账户，由工作人员进行人工审核。

请参阅图1和图2。本说明书的一个实施方式提供一种多元组数据标注方法。所述多元组数据标注方法可以应用于多元组标注模型。所述多元组标注模型可以布置在计算机设备中。计算机设备可以是具有一定运算处理能力的电子设备。所述多元组数据可以包括概念值、属性关系值和属性值。概念值可以用于表示该多元组数据所针对的知识概念，属性值用于表示知识属性，属性关系值用于表示所述知识属性与所述知识概念之间的关联关系。所述多元组数据标注方法可以包括以下步骤。

步骤S110：基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量。

在本实施方式中，多元组标注模型可以接收多元组数据。并进一步，针对多元组数据进行处理，以生成全连接向量、联合向量和属性值向量。

可以将多元组数据中包括的全部数据，进行顺次拼接形成全连接数据。如此，可以针对该全连接数据生成全连接向量。可以将概念值和属性关系值进行拼接形成联合数据，可以针对该联合数据生成联合向量。具体的，例如，多元组数据可以为（消化系统疾病、病位、肺部结构），形成的全连接数据可以为“消化系统疾病&病位&肺部结构”，形成的联合数据可以为“消化系统疾病&病位”。

在本实施方式中，多元组数据标注模型可以包括有向量生成层。该向量生层用于将接收的数据生成向量。具体的，向量生成层可以包括多层Transformer网络。具体的，例如，向量生成层可以包括6层Transformer网络。进一步的，可以对该向量生成层采用医学领域的样本数据进行训练，以使向量生成层生成的向量可以较为准确的表征相应的输入数据。当然，向量生成层并不限于采用Transformer网络，还可以采用其它向量生成模型。具体的，例如，向量生成层还可以使用DNN网络、LSTM网络等。

在本实施方式中，通过将一个多元组数据拼接成多个差异化的数据，如此，使得该多个数据输入向量生成层之后，可以对应生成多个不同的向量。进而可以通过该多个向量携带的存在差异性的信息量，针对该多元组数据进行标注，由于前述多个向量之间的差异性，使得可以提升标注的准确性。

在一些实施方式中，可以将所述概念值、所述属性关系值和所述属性值组成第一输入值，所述概念值和所述属性关系值组成第二输入值，所述属性值作为第三输入值，分别输入同一向量生成模型，得到对应所述第一输入值的全连接向量，对应所述第二输入值的联合向量，和对应所述第三输入值的属性值向量。

在本实施方式中，可以将全连接数据作为第一输入值，将联合数据作为第二输入值和将属性值数据作为第三输入值分别输入同一个向量生成模型。如此，使得生成的全连接向量、联合向量和属性值向量，都是采用相同的特征提取方式，得到的多个向量之间具有较好的一致性，如此为进一步的分析处理提供基础。避免，因多个向量之间的生成逻辑的差异性，导致进一步运算过程中，导致的信息量的损耗。

步骤S112：建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异。

在一些情况下，一个多元组数据能够成立，可以理解为根据同一个多元组数据生成的联合向量和属性值向量之间，存在一定的演变关系。

在本实施方式中，可以通过构建演变向量，以表征联合向量与属性值向量之间的差异。所述差异可以用于表示联合向量和属性值向量之间的演变关系。演变向量可以携带有表示联合向量与属性值向量演变的信息。通过，建立该演变向量便于进一步结合该演变向量，准确的为多元组数据添加标注数据。

在本实施方式中，建立联合向量与属性值向量之间的演变向量的方式，可以包括：将所述联合向量与所述属性值向量做差值运算，得到演变向量；或者，将属性值向量与联合向量做差值运算；或者，可以基于深度学习算法构建机器学习模型，并采用明确构成多元组数据的联合向量和属性值向量训练该机器学习模型，使得该机器学习模型可以根据输入的联合向量和属性值向量输出演变向量。

在本实施方式中，多元组标注模型可以具有融合处理层，通过该融合处理层为联合向量和属性值向量建立演变向量。

在一些实施方式中，所述联合向量与所述属性值向量具有不同的向量维数。建立所述联合向量与所述属性值向量之间的演变向量，可以包括：将所述联合向量映射至与所述属性值向量相同的向量维数，得到联合映射向量；将所述联合映射向量与所述属性值向量做向量差运算，得到所述演变向量。或者，将所述属性值向量映射值与所述联合向量相同的向量维数，得到属性映射向量；将所述联合向量与所述属性映射向量做向量差运算，得到所述演变向量。

在一些情况下，联合向量和属性值向量在生成过程中，依照联合数据和属性值数据本身的数据量不同，使得相应生成的联合向量和属性值向量之间，也存在一定的差异。

在本实施方式中，可以先将联合向量和属性值向量映射到同一个向量空间中，如此，可以使用处于同一个向量空间中的联合向量和属性值向量，以生成演变向量。具体的，一个向量空间可以具有固定的向量维数，不同的向量空间的向量维数不同。具体的，例如，可以将联合向量映射至属性值向量的向量空间，得到对应联合向量的联合映射向量，以将联合映射向量和属性值向量做向量差运算，得到演变向量。当然，还可以将属性值向量映射至联合向量的向量空间得到属性映射向量。以将联合向量和属性映射向量做向量差运算，得到演变向量。

步骤S114：根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

在一些实施方式中，向多元组数据标注模型输入的多元组数据，概念值与属性值之间，并不必然具有属性关系值表示的关联关系。通过使用全连接向量和演变向量，便可以使用该全连接向量和演变向量进行标注，生成标注数据，以通过标注数据指示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

在本实施方式中，多元组数据标注模型可以设置有输出层，该输出层可以被构建为一个分类器。并可以，基于输入的全连接向量和演变向量，做出针对多元组数据的分类预测，并将分类预测的结果作为多元组数据的标注数据。具体的，例如，输出层可以是一个全连接网络输出层。当然，输出层并不限于全连接网络输出层的实施方式，还可以采用其他的作为分类器的技术方案。

标注数据可以表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。标注数据可以具有多个取值，通过取值来区分所表示的关联关系。具体的，标注数据的取值可以包括表示概念值与属性值之间存在属性关系值表示的关联关系的第一取值，以及，表示概念值与属性值之间不存在属性关系值表示的关联关系的第二取值。例如，第一取值可以为1，第二取值可以为0。当然，第一取值也可以为“成立”，第二取值也可以为“不成立”。

在一些实施方式中，可以将所述演变向量拼接至所述全连接向量得到目标向量；将所述目标向量输入至全连接网络输出层，得到所述全连接网络输出层输出的标注数据。

在本实施方式中，目标向量是将演变向量拼接至全连接向量得到的，使得目标向量可以通过包括的全连接向量全面表征多元组数据本身，并进一步的，通过演变向量可以表征多元组数据中概念值和属性关系值，与属性值之间的知识演变路径。如此，可以将目标向量输入至全连接网络输出层，由全连接网络输出层使用目标向量输出标注数据。

本说明书实施方式提供的多元组数据标注方法，可以通过生成多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量，如此，建立所述联合向量与所述属性值向量之间的演变向量，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异，该差异可以用于表示联合向量与属性值向量之间的演变过程。如此，通过将该演变向量与全连接向量结合，最终使用所述全连接向量和所述演变向量生成的所述多元组数据的标注数据，可以较为准确的表示多元组数据中概念值和属性值之间，是否符合属性关系值表示的关联关系。如此，可以较为快速的组件多元组数据，进而提升了构建知识图谱的效率。

请参阅图3。本说明书实施方式还提供一种多元组数据标注模型的训练方法。所述多元组数据标注模型的训练方法可以应用于电子设备。所述多元组数据标注模型的训练方法可以包括以下步骤。

步骤S210：获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值。

步骤S212：将所述样本数据中的多元组数据输入所述多元组数据标注模型，以使所述多元组数据标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

步骤S214：在所述多元组数据标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述多元组数据标注模型。

在本实施方式中，样本数据包括标注数据和多元组数据。其中，样本标注数据与多元组数据之间存在对应关系。多元组数据对应的样本标注数据可以用于表示所述多元组数据中，概念值与属性值之间是否存在属性关系值表示的关联关系。具体的，样本标注数据可以包括第一取值和第二取值。其中，第一取值可以用于表示概念值与属性值之间存在属性关系值表示的关联关系，第二取值可以用于表示概念值与属性值之间不存在属性关系值表示的关联关系。

在本实施方式中，可以将多元组数据标注模型输出的标注数据与样本标注数据进行比较，如此可以根据指定的损失函数，计算差异损失，进而可以根据差异损失修正所述多元组数据标注模型。具体的，例如，损失函数可以是交叉熵函数，如下。

公式1

其中，公式1中，

表示预测结果为正样本数据的概率，1-

表示预测结果为负样本数据的概率。y是样本标注数据，正样本数据可以用1表示，负样本数据可以用0表示。当然，所属领域技术人员可以根据实际需要，设置差异损失的计算方式，本实施方式不做赘述。

在一些实施方式中，所述样本数据可以包括正样本数据和负样本数据；其中，所述正样本数据包括的样本标注数据为正样本标注数据，所述负样本数据包括的样本标注数据为负样本标注数据；所述正样本标注数据表示正样本数据中多元组数据的概念值和属性值之间，存在属性关系值表示的关联关系；所述负样本标注数据表示负样本数据中多元组数据的概念值和属性值之间，不存在属性关系值表示的关联关系。

在本实施方式中，可以依照样本标注数据的取值，将样本数据划分为正样本数据和负样本数据。具体的，将样本标注数据的取值为所述第一取值的样本数据作为正样本数据，将样本标注数据的取值为所述第二取值的样本数据作为负样本数据。

在本实施方式中，可以基于源于知识图谱的多个多元组数据构建正样本数据；其中，所述知识图谱对多元组数据划分有多个知识类别；根据所述知识图谱的多个多元组数据生成负样本数据的方式，包括以下至少之一：在源于所述知识图谱的多个多元组数据中选择第一指定多元组数据，在所述多个多元组数据中选择不属于第一指定多元组数据的属性值，将选择的属性值与所述第一指定多元组数据的概念值和属性关系值组成多元组数据，使用所述多元组数据构建负样本数据；在源于所述知识图谱的多个多元组数据中选择第二指定多元组数据，在所述第二指定多元组数据属于的知识类别的父级类别的多元组数据中，选择概念值和属性关系值，与所述第二指定多元组数据的属性值组成多元组数据，使用所述多元组数据构建负样本数据；在源于所述知识图谱的多个多元组数据中选择第三指定多元组数据，在所述多元组数据中选择不属于所述第三指定多元组数据的属性关系值，将所述属性关系值与所述第三指定多元组数据的概念值和属性值组成多元组数据，使用所述多元组数据构建负样本数据。

在一些情况下，多元组数据可以用于构建知识图谱。多元组数据标注模型可以用于针对多元组数据进行数据标注，可以从大量的多元组数据中，快速筛选出符合使用需求的多元组数据。具体的，可以通过多元组数据标注模型针对多个多元组数据进行标注，剔除标注数据的取值为第二取值的多元组数据。如此，可以在模型训练过程中，构建符合该知识图谱的样本数据，如此训练得到的多元组数据标注模型，可以更加符合使用需求。

在本实施方式中，可以使用源于知识图谱的多元组数据形成正样本数据。并进一步的可以使用源于知识图谱的多元组数据生成负样本数据。如此，基于包括正样本数据和负样本数据的样本数据训练得到的多元组数据标注模型，可以具有较好的标注准确性。再者，通过将源于知识图谱的多元组数据生成负样本数据，实现可以大批量的机器产生负样本数据，避免了人工生成负样本数据带来的工作量大，且生成的负样本数据的数量少的问题。

在本实施方式中，采用了多个维度生成的负样本数据。具体的，在源于所述知识图谱的多个多元组数据中选择第一指定多元组数据，在所述多个多元组数据中选择不属于第一指定多元组数据的属性值，将选择的属性值与所述第一指定多元组数据的概念值和属性关系值组成多元组数据，使用所述多元组数据构建负样本数据。可以实现，固定概念值和属性关系值，改变属性值。以使得概念值和属性关系值是正确的，即概念值存在属性关系值表示的属性维度，但属性值错误。可以使得根据该负样本数据训练得到的多元组数据标注模型

再者，可以在源于所述知识图谱的多个多元组数据中选择第二指定多元组数据，在所述第二指定多元组数据属于的知识类别的父级类别的多元组数据中，选择概念值和属性关系值，与所述第二指定多元组数据的属性值组成多元组数据，使用所述多元组数据构建负样本数据。可以实现固定属性值，改变第二指定多元组数据的概念值和属性关系值，并且根据第二指定多元组数据生成的负样本数据中，概念值和属性关系值源于与第二指定多元组数据的父级类别。使得，根据第二指定多元组数据生成的负样本数据中，概念值、属性关系值和属性值，在取值形式上，会存在一定的相似性。通过该负样本数据训练多元组数据标注模型，使得得到的多元组数据标注模型可以较为准确的区分形式上相似的多元组数据。

进一步的，可以在源于所述知识图谱的多个多元组数据中选择第三指定多元组数据，在所述多元组数据中选择不属于所述第三指定多元组数据的属性关系值，将所述属性关系值与所述第三指定多元组数据的概念值和属性值组成多元组数据，使用所述多元组数据构建负样本数据。可以实现固定概念值和属性值，改变属性关系值形成负样本数据。在该负样本数据中，概念值表示的概念会存在属性值表示的属性，但并不具有属性关系值表达的关联关系。使用该负样本数据训练多元组数据标注模型之后，可以使得到的多元组数据标注模型可以较为准确识别出属性关系值存在错误的多元组数据。

本说明书的一个实施方式还提供一种所述多元组数据标注模型的应用对比结果。具体的，使用CCT-V3测试集，以基于Bert表征的MLP作为对比模型。得到如下表1的对比结果。

表1

其中，假设TP(真正例)表示将正样本数据预测为正样本数据；FN(假反例)表示将正样本数据预测为负样本数据；FP(假正例)表示将负样本数据预测为正样本数据；TN(真反例)将负样本数据预测为负样本数据。其中，准确率Precision=TP/(TP+FP)，其可以表示预测为正样本数据实际为正样本数据的概率。召回率Recall=TP/(TP+FN)，其可以表示为实际为正样本数据预测为正样本数据的概率。F1=2*Precision*Recall/(Precision+Recall)，其意义是Precision和Recall的调和均值，用来整体衡量Precision和Recall的效果。

表2

其中，检错正确率，可以表示为预测为负样本数据实际为负样本数据的概率；层级关系检错正确率，可以表示层级关系中预测为负样本数据实际为负样本数据的概率；非层级关系检错正确率可以表示非层级关系中预测为负样本数据实际为负样本数据的概率。检错召回率，可以表示为实际为负样本数据中预测为负样本数据的概率。其中，层级关系可以用于表示数据之间的上下级关系。非层级关系可以用于表示概念值与属性值之间的属性关系，可以用于属性关系值表示。

可以明显得出，本说明书实施方式提供的多元组数据标注模型相较于现有技术，取得了明显的进步。

请参阅图4，本说明书的一个实施方式还提供一种多元组数据标注装置，所述多元组数据包括概念值、属性关系值和属性值；所述多元组数据标注装置包括：构建模块，用于基于输入的多元组数据构建所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立模块，建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；生成模块，用于根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

关于多元组数据标注装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述多元组数据标注装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图5。本说明书的一个实施方式还提供一种多元组数据标注模型的训练装置，所述训练装置包括：获取模块，用于获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值；输入模块，用于将所述样本数据中的多元组数据输入所述多元组数据标注模型，以使所述标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系；计算模块，用于在所述多元组数据标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述多元组数据标注模型。

关于多元组数据标注模型的训练装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述多元组数据标注模型的训练装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图6，本说明实施方式可以提供一种电子设备，所述电子设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，该指令被该一个或多个处理器执行，以使该一个或多个处理器实现上述任一实施方式中的方法。

所述电子设备可以包括被系统总线连接的处理器、非易失性存储介质、内存储器、通信接口、显示装置和输入装置。所述非易失性存储介质可以存储有操作系统和相关的计算机程序。

本说明书实施方式还提供一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序用于被处理器执行时实现上述任一实施方式中的方法。

本说明书实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的方法。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式，而非限制本发明的范围。再者，本说明书记载的多个实施方式之间可以互相对照解释。

可以理解，在本说明书中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施方式的实施过程构成任何限定。

可以理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本说明书实施方式对此并不限定。

除非另有说明，本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本说明书实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本说明书所提供的几个实施方式中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本说明书的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多元组数据标注方法，其特征在于，所述多元组数据包括概念值、属性关系值和属性值；所述方法包括：

基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；

建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；

根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

2.根据权利要求1所述的方法，其特征在于，基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量的步骤，包括：

将所述概念值、所述属性关系值和所述属性值组成第一输入值，所述概念值和所述属性关系值组成第二输入值，所述属性值作为第三输入值，分别输入同一向量生成模型，得到对应所述第一输入值的全连接向量，对应所述第二输入值的联合向量，和对应所述第三输入值的属性值向量。

3.根据权利要求1所述的方法，其特征在于，所述联合向量与所述属性值向量具有不同的向量维数；建立所述联合向量与所述属性值向量之间的演变向量的步骤，包括：

将所述联合向量映射至与所述属性值向量相同的向量维数，得到联合映射向量；

将所述联合映射向量与所述属性值向量做向量差运算，得到所述演变向量；

或者，

将所述属性值向量映射值与所述联合向量相同的向量维数，得到属性映射向量；

将所述联合向量与所述属性映射向量做向量差运算，得到所述演变向量。

4.根据权利要求1所述的方法，其特征在于，根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据的步骤，包括：

将所述演变向量拼接至所述全连接向量得到目标向量；

将所述目标向量输入至全连接网络输出层，得到所述全连接网络输出层输出的标注数据。

5.一种多元组数据标注模型的训练方法，其特征在于，所述方法包括：

获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值；

将所述样本数据中的多元组数据输入所述标注模型，以使所述标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系；

在所述标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述标注模型。

6.根据权利要求5所述的方法，其特征在于，所述样本数据包括正样本数据和负样本数据；其中，所述正样本数据包括的样本标注数据为正样本标注数据，所述负样本数据包括的样本标注数据为负样本标注数据；所述正样本标注数据表示正样本数据中多元组数据的概念值和属性值之间，存在属性关系值表示的关联关系；所述负样本标注数据表示负样本数据中多元组数据的概念值和属性值之间，不存在属性关系值表示的关联关系；

获取样本数据的步骤，包括：

基于源于知识图谱的多个多元组数据构建正样本数据；其中，所述知识图谱对多元组数据划分有多个知识类别；

根据所述知识图谱的多个多元组数据生成负样本数据的方式，包括以下至少之一：

在源于所述知识图谱的多个多元组数据中选择第一指定多元组数据，在所述多个多元组数据中选择不属于第一指定多元组数据的属性值，将选择的属性值与所述第一指定多元组数据的概念值和属性关系值组成多元组数据，使用所述多元组数据构建负样本数据；

在源于所述知识图谱的多个多元组数据中选择第二指定多元组数据，在所述第二指定多元组数据属于的知识类别的父级类别的多元组数据中，选择概念值和属性关系值，与所述第二指定多元组数据的属性值组成多元组数据，使用所述多元组数据构建负样本数据；

在源于所述知识图谱的多个多元组数据中选择第三指定多元组数据，在所述多元组数据中选择不属于所述第三指定多元组数据的属性关系值，将所述属性关系值与所述第三指定多元组数据的概念值和属性值组成多元组数据，使用所述多元组数据构建负样本数据。

7.一种多元组数据标注装置，其特征在于，所述多元组数据包括概念值、属性关系值和属性值；所述多元组数据标注装置包括：

构建模块，用于基于输入的多元组数据构建所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；

建立模块，建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；

生成模块，用于根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系。

8.一种多元组数据标注模型的训练装置，其特征在于，所述训练装置包括：

获取模块，用于获取样本数据；其中，所述样本数据包括样本标注数据和多元组数据；所述多元组数据包括概念值、属性关系值和属性值；

输入模块，用于将所述样本数据中的多元组数据输入所述标注模型，以使所述标注模型基于输入的多元组数据生成所述多元组数据的全连接向量、所述概念值与所述属性关系值的联合向量，和所述属性值的属性值向量；建立所述联合向量与所述属性值向量之间的演变向量；其中，所述演变向量用于表征所述联合向量与所述属性值向量之间的差异；根据所述全连接向量和所述演变向量生成所述多元组数据的标注数据；其中，所述标注数据用于表示所述概念值与所述属性值之间，存在或不存在所述属性关系值表示的关联关系；

计算模块，用于在所述标注模型输出的标注数据与所述样本标注数据不相同的情况下，计算差异损失，以基于所述差异损失修正所述标注模型。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，以及与所述存储器通信连接的一个或多个处理器；

所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现如权利要求1至4任一项所述的多元组数据标注方法，或者使所述一个或多个处理器实现如权利要求5或6所述的多元组数据标注模型的训练方法。

10.一种计算机存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至4中任一项所述的多元组数据标注方法，或者实现上述权利要求5或6所述的多元组数据标注模型的训练方法。