CN114330717A

CN114330717A - 数据处理方法以及装置

Info

Publication number: CN114330717A
Application number: CN202111397648.3A
Authority: CN
Inventors: 李元龙; 乔红麟
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-04-12

Abstract

本说明书实施例提供数据处理方法以及装置，其中所述数据处理方法包括：获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系，对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果，获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

Description

数据处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。

背景技术

随着计算机以及互联网的发展，可以用作研究和分析的数据量呈现指数级增长态势，大数据时代也随之到来，大数据是数量巨大、结构复杂、类型众多的数据结构的数据集合，其中的数据反映了客观世界的信息，因此，通过对大数据的分析，能够从中获取到大量有用的信息。为了从海量的数据中提取到有用的信息，使得大数据得到充分利用，人工智能等先进的数据分析技术创新也日趋活跃，而人工智能的基础是知识图谱的构建。

知识图谱是利用结构化可视化的图谱方式展示自然语言中的实体信息的自然语言处理技术，常常用于处理包含繁多复杂的关系，并且需要进行逻辑推理的NLP(NaturalLanguage Processing，自然语言处理)任务，形成形象的知识宏观联系。

但目前多通过人工的方式构建知识图谱，随着数据更新速度的加快，人工处理数据不仅需要耗费大量的时间精力，而且会带来信息更新延迟。因此，如何实现数据抽取自动化对于构建知识图谱非常重要，即亟需一种有效的方法以解决此类问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系；

对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果；

获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值；

根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

可选地，所述对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，包括：

基于所述待处理关键词构建待处理语句，并将所述待处理语句输入预测模型进行预测，获得所述待处理关键词之间的预测层级关系。

可选地，所述基于所述待处理关键词构建待处理语句，并将所述待处理语句输入预测模型进行预测，获得所述待处理关键词之间的预测层级关系，包括：

结合所述待处理关键词的第一排序关系及遮蔽标识符，构建所述待处理关键词对应的第一待处理语句，并将所述第一待处理语句输入预测模型进行预测，获得所述待处理关键词之间的第一预测层级关系；

结合所述待处理关键词的第二排序关系及遮蔽标识符，构建所述待处理关键词对应的第二待处理语句，并将所述第二待处理语句输入预测模型进行预测，获得所述待处理关键词之间的第二预测层级关系。

可选地，所述对所述预测层级关系进行准确性评估，生成对应的评估结果，包括：

基于所述待处理关键词及所述预测层级关系构建待评估语句，并将所述待评估语句输入评估模型进行准确性评估，生成所述预测层级关系分别对应的评估结果。

基于所述待处理关键词及所述预测层级关系构建待评估语句，并将所述待评估语句输入评估模型进行准确性评估，生成所述预测层级关系分别对应的评估结果；

相应的，生成对应的评估结果之后，还包括：

根据预设评估规则，确定所述第一预测层级关系和/或所述第二预测层级关系对应的特征值，并根据所述评估结果对所述特征值进行更新。

可选地，所述根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，包括：

确定所述数据图表中与所述待处理关键词间的语义相似度大于预设相似度阈值的概念词；

获取所述数据图表中与所述概念词所在节点存在连接关系的父节点和子节点；

基于所述父节点的节点数量及节点信息，确定所述父节点的第一重合比率，并基于所述子节点的节点数量及节点信息，确定所述子节点的第二重合比率；

根据所述第一重合比率及所述第二重合比率，确定用于评估所述初始层级关系准确性的第一评估指标的指标值。

可选地，所述待处理关键词包括第一待处理关键词和第二待处理关键词；

相应的，所述根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，包括：

确定所述数据图表中与所述第一待处理关键词间的语义相似度大于预设相似度阈值的第一概念词，并确定所述数据图表中与所述第二待处理关键词间的语义相似度大于预设相似度阈值的第二概念词；

获取所述数据图表中与所述第一概念词所在节点存在连接关系的第一父节点和第一子节点，并获取所述数据图表中与所述第二概念词所在节点存在连接关系的第二父节点和第二子节点；

基于所述第一父节点及所述第二父节点的节点数量及节点信息，确定第一重合比率，并基于所述第一子节点及所述第二子节点的节点数量及节点信息，确定第二重合比率；

根据所述第一重合比率及所述第二重合比率确定用于评估所述初始层级关系准确性的第一评估指标的指标值。

可选地，所述基于所述第一父节点及所述第二父节点的节点数量及节点信息，确定第一重合比率，包括：

确定所述第一父节点的第一节点数量、所述第二父节点的第二节点数量，以及所述第一父节点与所述第二父节点中，存在重叠的节点的第三节点数量；

在确定所述第三节点数量与所述第一节点数量间的第一比值小于预设阈值，且所述第一节点数量大于等于所述第二节点数量的情况下，确定所述第一比值与所述第一节点数量的乘积，并判断所述乘积与所述第二节点数量的第二比值是否大于等于所述预设阈值；

若是，则确定所述第二比值与所述预设阈值间的第三比值，并将所述第三比值与预设比率系数的乘积作为第一重合比率。

确定所述数据图表中与所述第一待处理关键词间的语义相似度大于预设相似度阈值的多个第一概念词，并确定所述数据图表中与所述第二待处理关键词间的语义相似度大于预设相似度阈值的多个第二概念词；

对所述多个第一概念词进行编码处理，生成第一编码向量集合，以及对所述多个第二概念词进行编码处理，生成第二编码向量集合；

基于所述第一编码向量集合中的多个编码向量构建第一节点簇，并确定所述第一节点簇中的第一中心点，基于所述第二编码向量集合中的多个编码向量构建第二节点簇，并确定所述第二节点簇中的第二中心点；

计算所述第一中心点与所述第二中心点间的距离，并将所述距离作为用于评估所述初始层级关系准确性的第二评估指标的指标值。

可选地，所述生成第二编码向量集合之后，还包括：

分别对所述第一编码向量集合及所述第二编码向量集合中的多个编码向量进行降维处理，并根据处理结果确定所述第一编码向量集合及所述第二编码向量对应的目标主轴；

根据所述第一编码向量集合及所述第二编码向量集合中的多个编码向量在所述目标主轴的投影坐标，计算所述第一编码向量与所述第二编码向量间的重叠比率，以将所述重叠比率作为用于评估所述初始层级关系准确性的第三评估指标的指标值。

可选地，所述根据处理结果确定所述第一编码向量集合及所述第二编码向量对应的目标主轴，包括：

根据处理结果确定所述第一编码向量集合对应的第一主轴向量，及所述第二编码向量对应的第二主轴向量；

将所述第一主轴向量与所述第二主轴向量的和向量所在方向作为所述第一编码向量集合及所述第二编码向量对应的目标主轴。

可选地，所述根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，包括：

根据所述预测层级关系、所述评估结果及所述指标值确定所述初始层级关系的准确率；

在所述准确率大于预设准确率阈值的情况下，将所述初始层级关系作为所述待处理关键词间的目标层级关系。

根据本说明书实施例的第二方面，提供了一种数据处理装置，包括：

获取模块，被配置为获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系；

评估模块，被配置为对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果；

确定模块，被配置为获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值；

更新模块，被配置为根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述数据处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。

本说明书一个实施例通过获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系，对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果，获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

本说明书实施例通过对待处理关键词间的层级关系进行预测，并基于目标数据源的数据图表对初始知识图谱中，待处理关键词间的初始层级关系进行准确性评估，以根据预测结果和准确性评估结果确定待处理关键词间的目标层级关系，再基于目标层级关系对初始知识图谱进行优化更新，有利于保证知识图谱构建结果的准确性。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的流程图；

图2是本说明书一个实施例提供的一种投影结果的示意图；

图3是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；

图4是本说明书一个实施例提供的一种数据处理装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

知识图谱：从学术的角度，知识图谱本质上是语义网络(Semantic Network)的知识库。从实际应用的角度出发可以把知识图谱理解成多关系图(Multi-relationalGraph)。

行业领域知识图谱(Domain Knowledge Graph,DKG)：是指局限在某一个特定领域的知识图谱，要求的概念准确性更高，专业性更强。

带专业概念层级关系的领域知识图谱：特别关注领域内涉及的专业概念搭建层级关系的图谱，如计算机科学-人工智能；金属-铁；水果-苹果等，要求层级关系准确符合专业知识。

Bert预训练模型：Bert模型是一种自然语言预训练模型。

在本说明书中，提供了一种数据处理方法，本说明书同时涉及一种数据处理装置，一种计算设备，一种计算机可读存储介质，以及一种计算机程序，在下面的实施例中逐一进行详细说明。

目前，学术领域知识图谱(行业领域知识图谱)的构建中，通常采用的方法是：对从不同科技文献中提取的关键词，分析构建一个层级关系树，例如“计算机科学”，下有子类“计算机应用”，然后基于“计算机科学”与“计算机应用”间的关系构建层级关系树。这一过程的实现是对知识的一种抽象和归纳。同样的，这样一个抽象和归纳过程，对于行业领域知识图谱的构建，也是一个关键的问题。当前该问题的求解方案，主要是利用概念分层算法；然而该算法需要一个非常全面细致整理的专业数据相关文本，并且需要人工打标数据来训练类型识别模型。这样的算法不利于实际的行业领域知识图谱的快速、低成本、准确的构建。

基于此，本说明书实施例在前述概念分层算法的基础上，提出了基于可低成本获得的预训练Bert模型和中文wiki数据集的关键词层级关系确定方法，构建了基于Bert MLM模型、wiki子图映射距离等4种有效评估指标，可以实现对关键词层级关系噪音的快速剔除，从而保证确定的关键词间层级关系的准确性。并且，在利用公开的测试数据集进行测试获得的测试结果表明，通过本方案确定关键词间的层级关系，可以实现80％的准确率，以及约80％的召回率。

图1示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，具体包括以下步骤。

步骤102，获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系。

具体的，初始知识图谱，即已有的知识图谱，初始知识图谱中包含多个节点，每个节点的节点名称即可作为本说明书实施例所述的待处理关键词，而初始知识图谱中，若两个节点间存在连接关系，则可将该连接关系作为存在连接关系的两个节点所对应的两个待处理关键词间的初始层级关系，所述初始层级关系用于表征在该初始知识图谱中，两个待处理关键词间存在上下位的层级关系。

其中，由于初始知识图谱中包含多个节点，不同节点对应的待处理关键词间存在的关系所对应的关系类型可能不同，而层级关系则是多种关系类型中的一种，待处理关键词间的层级关系可表征二者的包含关系，例如，若A概念是B概念的一个子类(A概念包含B概念)，则基于A概念和B概念构建的知识图谱中，A概念与B概念存在连接关系，且A概念位于B概念的上一层级。

因此，不同待处理关键词间准确的层级关系的提取，可以实现对不同领域知识的逻辑结构搭建。而本说明书实施例在确定两个待处理关键词间的初始层级关系后，即可对该初始层级关系进行评估，以确定该初始层级关系的准确性，从而根据评估结果对初始知识图谱进行优化。

步骤104，对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果。

具体的，确定两个待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估的第一种方式，即重新对两个待处理关键词间的层级关系进行预测，然后对预测获得的预测层级关系进行准确性评估，从而得到对应的评估结果。

具体实施时，对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，即基于所述待处理关键词构建待处理语句，并将所述待处理语句输入预测模型进行预测，获得所述待处理关键词之间的预测层级关系。

进一步的，基于所述待处理关键词构建待处理语句，并将所述待处理语句输入预测模型进行预测，获得所述待处理关键词之间的预测层级关系，包括：

具体的，所述预测模型即可以是Bert MLM模型；所述遮蔽标识符即可以是[mask]。

由于Bert模型在预训练中，常采用的训练模式为将一个完整的句子中的一些字去掉(替换为特定的mask标志符号)，并利用替换生成的句子进行模型训练(训练目标为预测这些缺失词的准确性)，获得Bert MLM模型(Masked Language Model)。

因此，本说明书实施例在获取待处理关键词后，可先基于待处理关键词构建待处理语句，并将待处理语句输入Bert MLM模型进行预测，获得所述待处理关键词之间的预测层级关系。

其中，在获取初始知识图谱中存在连接关系即层级关系的两个待处理关键词后，基于待处理关键词构建待处理语句，即利用待处理语句与遮蔽标识符构建待处理语句，由于构建待处理语句过程中，考虑到两个待处理语句间的排序关系不唯一，而基于不同排序关系进行预测得到的预测层级关系也可能会存在差异。因此，本说明书实施例利用两个待处理关键词间的两种排序关系及遮蔽标识符分别构建两个待处理语句，并分别将两个待处理语句输入Bert MLM模型，以由Bert MLM模型对遮蔽标识符所遮蔽的词进行预测，获得对应的两组预测结果(预测层级关系)。

实际应用中，若两个待处理关键词分别为key_child和key_parent，则结合待处理关键词的第一排序关系及遮蔽标识符，构建的第一待处理语句即可以是key_child[mask]key_parent，将其输入Bert MLM模型进行预测，获得模型输出的被mask掉的词的备选集合m1；结合待处理关键词的第二排序关系及遮蔽标识符，构建的第二待处理语句即可以是key_parent[mask]key_child，将其输入Bert MLM模型进行预测，获得模型输出的被mask掉的词的备选集合m2。

其中，m1和m2中分别包含一个或至少两个预测层级关系，并且预测层级关系包括但不限于“属于”、“包含”、“与”、“或”、“vs”、“/”、“：”等。

或者，Bert MLM模型对第一待处理语句和第二待处理语句进行处理，生成备选集合m1和备选集合m2后，可根据预先建立的特征值评估规则，结合备选集合m1和m2，对两个待处理关键词的预测层级关系所对应的特征值进行评估，获得对应的评估结果。

实际应用中，特征值评估规则可以是：若m1中包含“属于”，则特征值为1、若m2中包含“包含”，则特征值为1、m1或者m2中包含“vs”或者“+”，则特征值为-1、若m1中包含“、”，则特征值为0.1、其他情况，则特征值为0.5。根据特征值评估规则对两个待处理关键词的预测层级关系所对应的特征值进行评估，即可从上述4个维度中选择与m1和m2中预测层级关系相符的一个维度的特征值，作为评估结果。

本说明书实施例仅以上述特征值评估规则为例进行说明，实际应用中，特征值评估规则可根据实际需求确定，在此不做限制。

具体实施时，在利用Bert MLM模型对待处理关键词间的层级关系进行预测，获得预测层级关系之后，对所述预测层级关系进行准确性评估，生成对应的评估结果，具体可基于所述待处理关键词及所述预测层级关系构建待评估语句，并将所述待评估语句输入评估模型进行准确性评估，生成所述预测层级关系分别对应的评估结果。

具体的，所述评估模型可以是electra预训练模型。

在预测获得待处理关键词间的预测层级关系之后，可基于待处理关键词和预测层级关系构建待评估语句，并将该待评估语句输入electra预训练模型，以由electra预训练模型对待处理语句中的预测层级关系的准确性进行评估，生成对应的评估结果。

沿用上例，若两个待处理关键词分别为key_child和key_parent，备选集合m1中包含的预测层级关系为“属于”，备选集合m2中包含的预测层级关系为“包含”，则基于待处理关键词和预测层级关系构建的待评估语句可以是“key_child属于key_parent”和“key_parent包含key_child”，然后将待评估语句输入electra预训练模型，即可获得待处理语句中的预测层级关系的准确性评估结果。

基于此，生成对应的评估结果之后，还包括：

具体的，本说明书实施例除上述Bert MLM模型外，还引入electra预训练模型，electra预训练模型与Bert MLM模型类似，但不是直接输出mask备选词，而是输出一句话中包含的预测层级关系的准确性或合理性评估值，例如，可输出“key_child属于key_parent”中“属于”的评估值，也可输出“key_child是key_parent的一种”中“是”和“一种”的评估值的均值，并且，当其输出的关于预测层级关系的评估值，小于等于前述Bert MLM模型输出的两个待处理关键词的预测层级关系所对应的特征值的情况下，则可不对前述特征值进行处理；而在electra预训练模型输出的关于预测层级关系的评估值，大于前述Bert MLM模型输出的预测层级关系所对应的特征值的情况下，则需对前述特征值进行更新，具体可将该特征值更新为1。

步骤106，获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值。

具体的，所述目标数据源可以是中文百科，或者也可以是其他可提供某种所需要数据的器件或原始媒体。

由于在进行待处理关键词间上下位层级关系的判定时，若将待处理关键词具体到某一特定领域，则该领域中的语料通常是非常有限的，而为保证判定结果的准确性，本说明书实施例中，可使用一些公开的数据源，或者说公开的文本作为补充，来确定待处理关键词间的目标层级关系。

实际应用中，在使用公开的数据源，即目标数据源确定待处理关键词间的目标层级关系的过程中，可先基于目标数据源构建数据图表。由于目前整个开源的目标数据源中，可以包含多个不同的概念词(如：计算机科学、金属、水果)，以及与每个概念词相对应的描述文本，在构建数据图表时，可获取概念词以及与该概念词对应的描述文本，然后再获取该描述文本中包含的其他多个概念词，并建立该概念词与其他多个概念词之间的连接关系，然后将概念词作为节点，概念词间的连接关系作为边，以生成该数据图表。

具体实施时，获取数据图表后，根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，包括：

具体的，在确定待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估的第二种方式，即在数据图表中查找与该待处理关键词相对应的概念词，具体可查找数据图表中与待处理关键词间的语义相似度大于预设相似度阈值的概念词，然后查找数据图表中，与该概念词所在节点存在连接关系的上下层级的父节点和子节点，然后基于父节点的节点数量及节点信息，确定父节点的第一重合比率，基于所述子节点的节点数量及节点信息，确定子节点的第二重合比率；再根据第一重合比率及第二重合比率，确定用于评估初始层级关系准确性的第一评估指标的指标值。

或者，在无法直接从数据图表中获取与待处理关键词对应的概念词的情况下，可对该待处理关键词进行拆解，并从数据图表中获取与拆解后的关键词对应的概念词，然后查找数据图表中，与该概念词所在节点存在连接关系的上下层级的父节点和子节点，并进一步确定用于评估初始层级关系准确性的第一评估指标的指标值。

进一步的，待处理关键词包括第一待处理关键词和第二待处理关键词；

相应的，根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，包括：

具体的，若待处理关键词包括第一待处理关键词和第二待处理关键词，则在确定两个待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估，即可即在数据图表中查找与这两个待处理关键词相对应的概念词，具体可查找数据图表中与第一待处理关键词间的语义相似度大于预设相似度阈值的第一概念词，再查找数据图表中与第二待处理关键词间的语义相似度大于预设相似度阈值的第二概念词；然后查找数据图表中，与第一概念词所在节点存在连接关系的上下层级的第一父节点和第一子节点，以及与第二概念词所在节点存在连接关系的上下层级的第二父节点和第二子节点；接着可基于第一父节点和第二父节点的节点数量及节点信息，确定父节点的第一重合比率，基于第一子节点和第二子节点的节点数量及节点信息，确定子节点的第二重合比率；再根据第一重合比率及第二重合比率，确定用于评估初始层级关系准确性的第一评估指标的指标值。其中，第一父节点的节点信息即可用于表征该第一父节点与第一概念词所在节点间的连接关系或层级关系。

或者，在无法直接从数据图表中获取与第一待处理关键词和第二待处理关键词对应的概念词的情况下，可对第一待处理关键词和第二待处理关键词进行拆解，并从数据图表中获取与拆解后的关键词对应的概念词，然后查找数据图表中，与该概念词所在节点存在连接关系的上下层级的父节点和子节点，并进一步确定用于评估初始层级关系准确性的第一评估指标的指标值。

更进一步的，基于所述第一父节点及所述第二父节点的节点数量及节点信息，确定第一重合比率，包括：

具体的，若两个待处理关键词为key_child和key_parent，数据图表中与key_child相对应的概念词w1，其所在节点为节点A1，数据图表中与节点A1存在连接关系的上一层级的第一父节点为节点A2、节点A3、节点A4、节点A5，与节点A1存在连接关系的下一层级的第一子节点为节点A6、节点A7；数据图表中与key_parent相对应的概念词w2，其所在节点为节点B1，数据图表中与节点B1存在连接关系的上一层级的第二父节点为节点B2、节点B3，与节点B1存在连接关系的下一层级的第二子节点为节点B4、节点B5、节点B6。

由此可知，与节点A1存在连接关系的上一层级的第一父节点的节点数量N1等于4，与节点B1存在连接关系的上一层级的第二父节点的节点数量N2等于2。

另外，由于节点A1和节点B1均可能存在一个或至少两个，且节点A1和节点B1可能相同也可能不同，因此，可先确定节点A1与节点B1之间的交集，并确定交集中的节点数量M(第一父节点和第二父节点中，存在重叠的节点的第三节点数量)，在节点数量M与第一父节点的节点数量N1间的第一比值r小于预设阈值的情况下，可进一步判断第一父节点的节点数量N1与第二父节点的节点数量N2间的大小，以及第一比值r和节点数量N1的乘积与节点数量N2的比值与预设阈值的大小，若第一父节点的节点数量N1大于等于第二父节点的节点数量N2，且第一比值r和节点数量N1的乘积与节点数量N2的第二比值大于等于预设阈值，即N1≥N2，且r*N1/N2≥T，则可确定第二比值与预设阈值间的第三比值，并将第三比值与预设比率系数的乘积作为第一重合比率。

实际应用中，所述预设比率系数可以是0.5，因此，第一重合比率即为r*N1/N2/T*0.5。

基于第一父节点和第二父节点的节点数量及节点信息，确定第一重合比率后，还可基于第一子节点和第二子节点的节点数量和节点信息，确定第二重合比率。

本说明书仅对第一重合比率的计算过程进行详细说明，第二重合比率的计算过程与第一重合比率的计算过程类似，具体可参见第一重合比率的计算过程，在此不再赘述。

另外，本说明书实施例中，在确定第一待处理关键词对应的第一概念词以及第二待处理关键词对应的第二概念词，并在数据图表中查找到第一概念词和第二概念词所在节点的父节点或子节点后，若两个待处理关键词所在节点的父节点中，存在重叠的节点的第三节点数量越多，则两个待处理关键词同类型的概率越高，而在确定两个待处理关键词存在初始层级关系，即初始知识图谱中，两个待处理关键词已存在连接关系的情况下，若确定其属于同类型，则可进一步确定其连接关系的准确性。

因此，在计算获得第一重合比率和第二重合比率后，可将二者进行比较，并将比较结果中较大的值作为用于评估初始层级关系准确性的第一评估指标的指标值，该第一评估指标即为重合比率，指标值即为重合比率的具体数值。

或者，在无法直接从数据图表中获取与待处理关键词对应的概念词的情况下，可对待处理关键词key_child和key_parent进行拆解，取拆解后的关键词中存在于数据图表中的概念词，得到集合key_set_child和key_set_parent，然后查找数据图表中，与集合中的概念词所在节点存在连接关系的上下层级的父节点和子节点，即分别获取key_set_child以及key_set_parent在数据图表中的子节点集合key_succ_child和key_succ_parent，以及父节点集合key_pred_child和key_pred_parent，然后通过上述计算方式计算key_succ_child和key_succ_parent的重合比率，以及key_pred_child和key_pred_parent的重合比率，并且取其中较大值作为用于评估初始层级关系准确性的第一评估指标的指标值。

另外，待处理关键词包括第一待处理关键词和第二待处理关键词；

具体的，在确定两个待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估的第三种方式，即确定数据图表中与待处理关键词对应的概念词，并计算概念词间的距离，以将距离作为用于评估所述初始层级关系准确性的第二评估指标的指标值。

若待处理关键词包括第一待处理关键词和第二待处理关键词，则在确定两个待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估，即可即在数据图表中查找与这两个待处理关键词相对应的概念词，具体可查找数据图表中与第一待处理关键词间的语义相似度大于预设相似度阈值的多个第一概念词，再查找数据图表中与第二待处理关键词间的语义相似度大于预设相似度阈值的多个第二概念词；然后对多个第一概念词和第二概念词进行编码处理，以根据编码结果计算概念词间的距离。

其中，由于与第一待处理关键词间的语义相似度大于预设相似度阈值的多个第一概念词，其类型与第一待处理关键词的类型更为相近，并且各第一概念词间的类型同样较为相近；而与第二待处理关键词间的语义相似度大于预设相似度阈值的多个第二概念词，其类型与第二待处理关键词的类型更为相近，且各第二概念词间的类型同样更为相近。

因此，在将第一概念词和第二概念词进行编码处理，生成对应的编码向量，并基于编码向量将多个第一概念词和多个第二概念词映射至坐标系后，映射结果中，多个第一概念词对应的编码向量之间的距离较短，映射节点较为密集，会聚合为第一节点簇，而多个第二概念词对应的编码向量之间的距离较短，会聚合为另一个第二节点簇，这种情况下，可通过确定两个节点簇的中心点，并通过计算两个中心点之间距离的方式，对第一待处理关键词与第二待处理关键词之间的类型进行评估，并可将距离作为用于评估所述初始层级关系准确性的第二评估指标的指标值。其中，所述第二评估指标即为距离，指标值即为距离的具体数值。

除此之外，生成第二编码向量集合之后，还包括：

其中，根据处理结果确定所述第一编码向量集合及所述第二编码向量对应的目标主轴，包括：

具体的，在确定两个待处理关键词间的初始层级关系后，对该初始层级关系进行准确性评估的第四种方式，即确定数据图表中与待处理关键词对应的概念词，并对概念词进行编码处理，然后对编码向量进行降维处理，以根据降维处理结果确定编码向量的重叠比率。

其中，可采用主成分分析方法PCA(Principal Component Analysis)对第一编码向量集合和第二编码向量集合中的多个编码向量进行降维处理，并基于降维处理结果确定第一编码向量集合对应的第一主轴向量，以及第二编码向量集合对应的第二主轴向量；然后将第一主轴向量与第二主轴向量的和向量所在方向作为第一编码向量集合及第二编码向量对应的目标主轴。

确定目标主轴后，可将第一编码向量集合和第二编码向量集合中的多个编码向量分别投影到目标主轴，以根据投影结果确定第一编码向量集合中多个编码向量在目标主轴的投影距离，与第二编码向量集合中多个编码向量在目标主轴的投影距离间的重叠比率，并将该重叠比率作为用于评估所述初始层级关系准确性的第三评估指标的指标值。其中，所述第三评估指标即为重叠比率，指标值即为重叠比率的具体数值。

本说明书实施例提供的投影结果的示意图如图2所示，其中，坐标点a和坐标点b之间的距离L1即代表第一编码向量集合中多个编码向量在目标主轴的投影距离，坐标点a和坐标点b为第一编码向量集合中两个编码向量在目标主轴的投影坐标；坐标点c和坐标点d之间的距离L2即代表第而二编码向量集合中多个编码向量在目标主轴的投影距离，坐标点c和坐标点d为第二编码向量集合中两个编码向量在目标主轴的投影坐标。

基于此，第一编码向量与所述第二编码向量间的重叠比率即可通过公式1计算获得。

R＝L3/L1-L3/L2 公式1

其中，L1表示坐标点a和坐标点b之间的距离，L2表示坐标点c和坐标点d之间的距离，L3表示坐标点b和坐标点c之间的距离。

通过前述方式获得预测层级关系的准确性评估结果、第一评估指标、第二评估指标、第三评估指标的指标值后，即可基于这4个维度的评估结果确定待处理关键词间的目标层级关系，以对初始知识图谱进行优化。

步骤108，根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

具体实施时，根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，包括：

具体的，在获得预测层级关系的准确性评估结果F1、第一评估指标F2、第二评估指标F3以及第三评估指标的指标值F4后，可基于这4个评估结果确定待处理关键词间初始层级关系的准确率。

实际应用中，若上述4个评估结果满足：((F1>0.5&F2>0.2)or(F2>T1&F1>-1))&(F3<T2or(F4>T3&F3<0.04))，即可确定待处理关键词间初始层级关系的准确率大于预设准确率阈值，这种情况下，可将初始层级关系作为待处理关键词间的目标层级关系。其中，T1取值0.6、T2取值0.0035、T3取值0.3的情况下，可以取得较好的准确率与召回的平衡，但T1、T2、T3的取值具体可根据实际需求确定，在此不做限制。

而在上述4个评估结果不满足条件的情况下，确定待处理关键词间的初始层级关系不准确，可重新确定待处理关键词间的目标层级关系，并基于目标层级关系更新初始知识图谱。

下述结合附图3，以本说明书提供的数据处理方法在知识图谱构建过程的应用为例，对所述数据处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，具体包括以下步骤。

步骤302，获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系。

步骤304，基于所述待处理关键词构建待处理语句，并将所述待处理语句输入Bert预训练模型进行预测，获得所述待处理关键词之间的预测层级关系。

步骤306，基于所述待处理关键词及所述预测层级关系构建待评估语句，并将所述待评估语句输入electra预训练模型进行准确性评估，生成所述预测层级关系分别对应的评估结果。

步骤308，根据预设评估规则，确定所述预测层级关系对应的特征值，并根据所述评估结果对所述特征值进行更新。

步骤310，获取基于目标数据源构建的数据图表。

步骤312，确定所述数据图表中与所述待处理关键词间的语义相似度大于预设相似度阈值的概念词。

步骤314，获取所述数据图表中与所述概念词所在节点存在连接关系的父节点和子节点。

步骤316，基于所述父节点的节点数量及节点信息，确定所述父节点的第一重合比率，并基于所述子节点的节点数量及节点信息，确定所述子节点的第二重合比率。

步骤318，根据所述第一重合比率及所述第二重合比率，确定用于评估所述初始层级关系准确性的第一评估指标的指标值。

步骤320，确定所述数据图表中与所述第一待处理关键词间的语义相似度大于预设相似度阈值的多个第一概念词，并确定所述数据图表中与所述第二待处理关键词间的语义相似度大于预设相似度阈值的多个第二概念词。

步骤322，对所述多个第一概念词进行编码处理，生成第一编码向量集合，以及对所述多个第二概念词进行编码处理，生成第二编码向量集合。

步骤324，基于所述第一编码向量集合中的多个编码向量构建第一节点簇，并确定所述第一节点簇中的第一中心点，基于所述第二编码向量集合中的多个编码向量构建第二节点簇，并确定所述第二节点簇中的第二中心点。

步骤326，计算所述第一中心点与所述第二中心点间的距离，并将所述距离作为用于评估所述初始层级关系准确性的第二评估指标的指标值。

步骤328，分别对所述第一编码向量集合及所述第二编码向量集合中的多个编码向量进行降维处理，并根据处理结果确定所述第一编码向量集合及所述第二编码向量对应的目标主轴。

步骤330，根据所述第一编码向量集合及所述第二编码向量集合中的多个编码向量在所述目标主轴的投影坐标，计算所述第一编码向量与所述第二编码向量间的重叠比率，以将所述重叠比率作为用于评估所述初始层级关系准确性的第三评估指标的指标值。

步骤332，根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

本说明书实施例在目前的概念分层算法的基础上，提出了基于可低成本获得的预训练Bert模型和中文wiki数据集的关键词层级关系确定方法，构建了基于Bert MLM模型、wiki子图映射距离等4种有效评估指标，可以实现对关键词层级关系噪音的快速剔除，从而保证确定的关键词间层级关系的准确性。并且，在利用公开的测试数据集进行测试获得的测试结果表明，通过本方案确定关键词间的层级关系，可以实现80％的准确率，以及约80％的召回率。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图4示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取初始知识图谱中存在层级关系的待处理关键词以及所述待处理关键词的初始层级关系；

评估模块404，被配置为对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，并对所述预测层级关系进行准确性评估，生成对应的评估结果；

确定模块406，被配置为获取基于目标数据源构建的数据图表，并根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值；

更新模块408，被配置为根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，并基于所述目标层级关系更新所述初始知识图谱。

可选地，所述评估模块404，进一步被配置为：

可选地，所述评估模块404，还被配置为：

相应的，所述数据处理装置，还包括：

处理模块，被配置为根据预设评估规则，确定所述第一预测层级关系和/或所述第二预测层级关系对应的特征值，并根据所述评估结果对所述特征值进行更新。

可选地，所述确定模块406，还被配置为：

相应的，所述确定模块406，进一步被配置为：

可选地，所述确定模块406，进一步被配置为：

可选地，所述数据处理装置，还包括降维处理模块，被配置为：

可选地，所述降维处理模块，进一步被配置为：

可选地，所述更新模块408，进一步被配置为：

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的数据处理方法，所述对所述待处理关键词之间的层级关系进行预测，获得预测层级关系，包括：

3.根据权利要求2所述的数据处理方法，所述基于所述待处理关键词构建待处理语句，并将所述待处理语句输入预测模型进行预测，获得所述待处理关键词之间的预测层级关系，包括：

4.根据权利要求1至2任意一项所述的数据处理方法，所述对所述预测层级关系进行准确性评估，生成对应的评估结果，包括：

5.根据权利要求3所述的数据处理方法，所述对所述预测层级关系进行准确性评估，生成对应的评估结果，包括：

相应的，生成对应的评估结果之后，还包括：

6.根据权利要求1所述的数据处理方法，所述根据所述数据图表及所述待处理关键词，确定用于评估所述初始层级关系准确性的评估指标的指标值，包括：

7.根据权利要求1所述的数据处理方法，所述待处理关键词包括第一待处理关键词和第二待处理关键词；

8.根据权利要求7所述的数据处理方法，所述基于所述第一父节点及所述第二父节点的节点数量及节点信息，确定第一重合比率，包括：

9.根据权利要求1所述的数据处理方法，所述待处理关键词包括第一待处理关键词和第二待处理关键词；

10.根据权利要求9所述的数据处理方法，所述生成第二编码向量集合之后，还包括：

11.根据权利要求10所述的数据处理方法，所述根据处理结果确定所述第一编码向量集合及所述第二编码向量对应的目标主轴，包括：

12.根据权利要求10所述的数据处理方法，所述根据所述初始层级关系、所述预测层级关系、所述评估结果及所述指标值，确定所述待处理关键词间的目标层级关系，包括：

13.一种数据处理装置，包括：

14.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述数据处理方法的步骤。

15.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述数据处理方法的步骤。