CN111274407B

CN111274407B - 知识图谱中三元组置信度计算方法和装置

Info

Publication number: CN111274407B
Application number: CN202010041583.8A
Authority: CN
Inventors: 李舰; 李双婕; 史亚冰; 蒋烨; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-07-07
Anticipated expiration: 2040-01-15
Also published as: CN111274407A

Abstract

本申请公开了知识图谱中三元组置信度计算方法和装置，涉及人工智能领域。具体实现方案为：根据知识图谱中目标三元组，确定待搜索的查询语句；获取与查询语句对应的网络搜索结果；根据网络搜索结果，确定与目标三元组对应的第一特征；根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征；利用预设的网络模型，对第一特征及第二特征进行编码解码处理，确定目标三元组的置信度。该方法通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

Description

知识图谱中三元组置信度计算方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及一种知识图谱中三元组置信度计算方法和装置。

背景技术

知识图谱中的三元组(包括主体、客体、主体与客体之间的关系)在实体问答、实体推荐等各应用场景中有着重要的作用。三元组的准确性直接影响各应用的准确性。目前，为了提高三元组的准确性，通常通过对挖掘源的质量进行控制，或者由人工对全量数据进行标注、挖掘的方法。

但是，由于高质量的挖掘源数量有限，因此限制挖掘源会直接影响知识图谱的覆盖率，而通过人工的方式进行标注、挖掘，标注成本高。

发明内容

本申请提出一种知识图谱中三元组置信度计算方法和装置，用于解决相关技术中，通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法，存在知识图谱覆盖率低、人工标注成本高的问题。

本申请一方面实施例提出了一种知识图谱中三元组置信度计算方法，包括：

根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系；

获取与所述查询语句对应的网络搜索结果；

根据所述网络搜索结果，确定与所述目标三元组对应的第一特征；

根据所述第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定所述目标三元组的第二特征；

利用预设的网络模型，对所述第一特征及第二特征进行编码解码处理，确定所述目标三元组的置信度。

本申请实施例的知识图谱中三元组置信度计算方法，通过首先根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系，然后获取与查询语句对应的网络搜索结果，之后根据网络搜索结果，确定与目标三元组对应的第一特征，根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征，再利用预设的网络模型，对第一特征及第二特征进行编码解码处理，确定目标三元组的置信度。由此，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

本申请另一方面实施例提出了一种知识图谱中三元组置信度计算装置，包括：

第一确定模块，用于根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系；

第一获取模块，用于获取与所述查询语句对应的网络搜索结果；

第二确定模块，用于根据所述网络搜索结果，确定与所述目标三元组对应的第一特征；

第三确定模块，用于根据所述第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定所述目标三元组的第二特征；

第四确定模块，用于利用预设的网络模型，对所述第一特征及第二特征进行编码解码处理，确定所述目标三元组的置信度。

本申请实施例的知识图谱中三元组置信度计算装置，通过首先根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系，然后获取与查询语句对应的网络搜索结果，之后根据网络搜索结果，确定与目标三元组对应的第一特征，根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征，再利用预设的网络模型，对第一特征及第二特征进行编码解码处理，确定目标三元组的置信度。由此，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

本申请另一方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的知识图谱中三元组置信度计算方法。

本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的知识图谱中三元组置信度计算方法。

上述申请中的实施例具有如下有益效果：上述通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高。因为采用通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定目标三元组的置信度的技术手段，所以克服了通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法，存在知识图谱覆盖率低、人工标注成本高的技术问题，进而达到不受挖掘源的限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种知识图谱中三元组置信度计算方法的流程示意图；

图2为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图；

图3为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图；

图4为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图；

图5为本申请实施例提供的一种知识图谱中三元组置信度计算装置的结构示意图；

图6为根据本申请实施例的知识图谱中三元组置信度计算方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的知识图谱中三元组置信度计算方法和装置。

本申请实施例，针对相关技术中，通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法，存在知识图谱覆盖率低、人工标注成本高的问题，提出一种知识图谱中三元组置信度计算方法。

本申请实施例的知识图谱中三元组置信度计算方法，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

图1为本申请实施例提供的一种知识图谱中三元组置信度计算方法的流程示意图。

本申请实施例的知识图谱中三元组置信度计算方法，可由本申请实施例提供的知识图谱中三元组置信度计算装置执行，该装置可配置于电子设备中，以实现根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定目标三元组的置信度。

如图1所示，该知识图谱中三元组置信度计算方法包括：

步骤101，根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系。

三元组包括主体、客体和主体与客体之间的关系。为了便于描述，本实施例中，目标三元组包括第一主体、第一客体及第一关系，其中，第一关系表示第一主体与第一客体之间的关系。

本实施例中，可根据目标三元组，得到待搜索的查询语句。具体地，可以是将目标三元组包括的第一主体、第一客体及第一关系进行拼接，生成查询语句。在拼接时，可以是第一主体、第一客体及第一关系依次进行拼接，也可以是按照第一主体、第一关系和第一客体的关系进行拼接等等。

步骤102，获取与查询语句对应的网络搜索结果。

在根据目标三元组，确定待搜索的查询语句后，可在搜索引擎中输入查询语句进行搜索，从而获取与查询语句对应的网络搜索结果。其中，网络搜索结果为包括多个网页的列表。

比如，查询语句为A的妻子B,那么通过搜索引擎可以获取与该查询语句相关的网页。

步骤103，根据网络搜索结果，确定与目标三元组对应的第一特征。

本实施例中，第一特征可用于表征目标三元组在网页数据中的特征，比如第一主体、第一客体及第一关系的共同出现的次数、共同出现时的距离等等。

为了提高了计算的效率和准确率，在具体实现时，可以选取网络搜索结构中选取前预设数量的网页，根据前预设数量的网页，确定与目标三元组对应的第一特征。比如，选取前10个网页，用于确定第一特征。

具体地，可确定搜索结果中每个网页对应的特征，然后根据每个网页对应的特征，确定与目标三元组对应的第一特征。

步骤104，根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征。

由于知识图谱中三元组的准确率较高，因此，可基于预设知识图谱确定目标三元组的特征。具体地，根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征。其中，第二特征用于表征目标三元组在预设知识图谱中的出现情况。

比如，预设知识图谱中是否存在主体与客体，与第一主体和第一客体相同的三元组，若存在，可确定第二特征值为1，若不存在可确定第二特征值为0。又如，预设知识图谱中是否存在主体与关系，与第一主体和第一关系相同的三元组，若存在，可确定第二特征值为1，若不存在可确定第二特征值为0。

需要说明的是，可以先执行步骤103再执行步骤104，也可以先执行步骤104再执行步骤103，也可以是同时执行，本实施例对上述步骤103与步骤104的执行顺序不作限定。

步骤105，利用预设的网络模型，对第一特征及第二特征进行编码解码处理，确定目标三元组的置信度。

本实施例中，可以通过预先训练得到用于确定目标三元置信度的网络模型。其中，预设的网络模型的输入为三元组的特征，输出为置信度。

在确定目标三元组的第一特征和第二特征后，可将第一特征和第二特征输入至预设的网络模型中，网络模型对第一特征及第二特征进行编码解码处理，最后输出目标三元组的置信度。或者，也可将第一特征与第二特征对应的向量进行融合，比如拼接或者进行求和运算等等，得到特征向量，将特征向量输入预设的网络模型中。

其中，置信度越高说明目标三元组的准确率越高，置信度越小说明目标三元组的准确率越低。由此，根据置信度可以挖掘高质量的三元组。

在具体地实现时，预设的网络模型可以选梯度下降树(Gradient BoostingDecision Tree，简称GBDT)模型。GBDT模型是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。使用GBDT作为预测模型，具有较好的泛化性能，并且对于不同类型的特征项无需预处理就可以进行模型的训练、预测。

本申请实施例的三元组置信度计算方法，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

为了进一步提高置信度的准确性，在本申请的一个实施例中，在根据第一特征和第二特征确定目标三元组的置信度之前，还可基于知识图谱中统计得到目标三元的特征，可将该特征也用于确定目标三元组的置信度。下面结合图2进行说明，图2为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。

如图2所示，该知识图谱中三元组置信度计算方法包括：

步骤201，根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系。

步骤202，获取与查询语句对应的网络搜索结果。

步骤203，根据网络搜索结果，确定与目标三元组对应的第一特征。

步骤204，根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征。

本实施例中，步骤201-步骤204与上述步骤101-步骤104类似，故在此不再赘述。

步骤205，判断预设知识图谱中每个参考三元组包含的第二主体和第二客体，是否分别与第一主体和第一客体相同。

本实施例中，预设知识图谱中包含多个三元组，这里称为参考三元组，为了便于区分，参考三元组包含的主体称为第二主体，包含的客体称为第二客体，第二主体与第二客体之间的关系，称为第二关系。

针对预设知识图谱中每个参考三元组，比较参考三元组中的第二主体和第二客体，是否分别与目标三元中的第一主体和第一客体相同，即比较第二主体是否与第一主体相同，第二客体与第一客体相同。

步骤206，若第一参考三元组包含的第二主体与第一主体相同、且第一参考三元组中的第二客体与第一客体相同，则确定第一参考三元组中的第二关系与第一关系的相似度。

若某参考三元组包含的第二主体与第一主体相同、且第一参考三元组中的第二客体与第一客体相同，这里称该参考三元组为第一参考三元组。也就是，若第一参考三元组包含的第二主体与第一主体相同、且第一参考三元组中的第二客体与第一客体相同，则确定第一参考三元组中的第二关系与第一关系的相似度。

比如，目标三元组用SPO表示，第一参考三元组表示为SP₁O，计算P与P₁的相似度。

其中，第二关系与第一关系的相似度，可以根据第二关系与第一关系分别对应的字符串之间的余弦距离计算得到，也可以通过其他计算文本相似度的方式计算。

步骤207，根据相似度，确定目标三元组的第三特征。

本实施例中，在计算出第二关系与第一关系之间的相似度后，可用向量的形式表示相似度，以得到目标三元的第三特征。比如，第三特征具有4维，可用4维表示相似度，从而得到第三特征。

步骤208，利用预设的网络模型，对第一特征、第二特征及第三特征进行编码解码处理，确定目标三元组的置信度。

在确定第一特征、第二特征和第三特征后，将第一特征、第二特征和第三特征输入至预设的网络模型中，利用预设的网络模型，对第一特征、第二特征和第三特征进行编码解码处理，得到目标三元组的置信度。或者，与可将第一特征、第二特征和第三特征融合后，输入至预设的网络模型中。

本申请实施例中，通过基于预设知识图谱统计得到目标三元组的规则特征即第三特征，将第三特征与第一特征、第二特征一同用于确定目标三元组的置信度，由此，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征和第三特征，确定的三元组的置信度准确率高，以此挖掘高质量的三元组，不受挖掘源的限制，从而提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

在本申请的一个实施例中，上述在确定标三元组对应的第一特征时，可根据所述第一主体、第一客体及第一关系，在搜索结果中的共现频次及共现距离，确定目标三元组对应的第一特征。

具体地，可根据第一主体、第一客体及第一关系，在搜索结果中的共现频次及共现距离，确定目标三元组对应的第一特征。

其中，共现频次是指目标三元组包括的第一主体、第一客体及第一关系，在搜索结果中的网页中依次出现的频次；共现距离是指第一主体、第一客体及第一关系共同出现时，第一主体与第一关系之间的文本长度，加上第一关系与第一客体之间的文本长度。

更具体地，可先确定第一主体、第一客体及第一关系，在搜索结果的每个网页上的共现频次及共现距离，然后计算每个网页对应的共现频次之和，以及每个网页对应的共现距离之和，之后根据共现频次之和和共现距离之和，确定第一特征。

或者，确定每个网页对应的共现频次和共现距离后，对每个网页对应的共现频次和共现距离进行运行算，然后对每个网页对应的运行结果求和，根据求和结果，得到第一特征。

第一特征可以用向量表示，具体地，可用全部维数表示共现频次和共现距离。或者，也可是预设数量的维数与共现频次及共现距离相关。比如，设第一特征有共有N维，共现频次和共现距离各占一维，剩余的维数上元素值为零，或者所有维数表示共现频次和共现距离。

本申请实施例中，基于第一主体、第一客体和第一关系，在网页数据中的共现信息，确定目标三元组的第一特征，由于网页库中文本粒度的三元组共现信息与人工判定更加相符，从而基于该第一特征得到的置信度的准确率较高，那么基于该置信度可挖掘高质量的三元组。

在基于第一主体、第一客体和第一关系在网络数据中的共现信息，确定目标三元组的第一特征之后，在本申请的一个实施例中，还可根据网络搜索结果是否有与第一主体或第一客体相同指代的实体页面，对第一特征进行更新。下面结合图3进行说明，图3为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。

如图3所示，上述根据第一主体、第一客体及第一关系，在搜索结果中的共现频次及共现距离，确定目标三元组对应的第一特征之后，还可包括：

步骤301，根据每个网络搜索结果的标题，确定每个网络搜索结果对应的第一实体。

其中，实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。

本实施例中，可对每个网络搜索结果的标题进行实体抽取，确定每个网络搜索结果对应的实体，这里称为第一实体。其中，实体抽取方法可以采用基于规则的方法、基于统计的方法等等。

若网络搜索结果包括多个网页，则根据每个网页的标题，确定每个网页的标题对应的第一实体。比如，网页标题为A获得选美比赛第一名，可确定A为第一实体。

步骤302，获取第一实体与第一主体或第一客体的第一相似度。

在获取第一实体后，计算第一实体与目标三元组中的第一主体或第一客体的相似度，这里称为第一相似度。其中，可通过计算第一实体与第一主体或第一客体之间的余弦距离，得到第一相似度，或者其他计算文本相似度的方法。

步骤303，根据第一相似度，对第一特征进行更新。

在确定每个网络搜索结果对应的第一相似度后，计算所有第一相似度之和，根据求和结果计算第一相似度的平均值，根据平均值对第一特征进行更新。或者，也可以选取值最大的第一相似度，用于对第一特征进行更新。

这里的更新可以是将第一相似度与第一特征进行运算，比如加权求和、加权求和再计算平均值等，以对第一特征进行更新，也可以是将第一相似度添加到第一特征对应的向量中，对应维数上。

比如，第一特征为8维的向量，其中，前2维用于表示基于共现频次和共现距离得到的特征，在更新前第一特征除前两维外剩余的元素值均为0，在根据第一相似度对第一特征进行更新时，可用第3维和第4维表示第一相似度，从而对第一特征进行更新。

在利用第二特征和更新后的第一特征，确定目标三元组的置信度。

本申请实施例中，基于每个网络搜索结果对应的第一实体与第一主体或第一客体的相似度，对第一特征进行更新，从而使得三元组的第一特征更加精准，由此得到的三元组的置信度更加准确。

在基于第一主体、第一客体和第一关系在网络数据中的共现信息，确定目标三元组的第一特征之后，在本申请的一个实施例中，也可根据每个网络搜索结果的标题与查询语句的第二相似度，对第一特征进行更新。

具体地，可计算每个网络搜索结果的标题与查询语句的第二相似度，然后计算每个网络搜索结果的标题对应的第二相似度之和，之后计算第二相似度的平均值，根据第二相似度的平均值，更新第一特征值。具体地更新方式，可参见上述实施例，在此不再赘述。

本申请实施例中，基于根据每个网络搜索结果的标题与查询语句的第二相似度，对第一特征进行更新，从而使得三元组的第一特征更加进准，由此得到的三元组的置信度更加准确。

在实际应用中，网页的站点价值越高，该站点返回的搜索结果中该网页的可信度也越高。基于此，在基于第一主体、第一客体和第一关系在网络数据中的共现信息，确定目标三元组的第一特征之后，也可根据每个网络搜索结果的可信度，对第一特征进行更新。

本实施例中，可预先设置各个站点的可信度，并根据预先设置各个站点的可信度，确定每个网络搜索结果对应的站点，进而根据预先设置各个站点的可信度，确定每个网络搜索结果的可信度。

在确定每个网络搜索结果的可信度后，可计算所有网络搜索结果的可信度的均值，根据可信度的均值更新第一特征。具体地更新方式，可参见上述实施例，在此不再赘述。

本申请实施例中，在基于第一主体、第一客体和第一关系在网络数据中的共现频次和共现距离，确定目标三元组的第一特征之后，通过根据每个网络搜索结果的可信度，对第一特征进行更新，从而使得三元组的第一特征更加进准，由此得到的三元组的置信度更加准确。

需要说明的是，在实际应用中，在基于第一主体、第一客体和第一关系在网络数据中的共现频次和共现距离，确定目标三元组的第一特征之后，不仅可以根据第一相似度、第二相似度和网络搜索结果的可信度中的一种，对第一特征进行更新，也可以根据其中任意两种对第一特征进行更新，当然也可以根据三种对第一特征进行更新。

在本申请的一个实施例中，在确定第二特征时，也可如下方式确定。具体地，将目标三元组与预设知识图谱中的参考三元组进行比较，确定预设的知识图谱中是否存在与目标三元组匹配的参考三元组。

如果目标三元组与预设的知识图谱中的第二参考三元组匹配，也即预设的知识图谱中出现了目标三元组，则确定第二特征值为1；如果目标三元组与预设的知识图谱中的任一参考三元组均未匹配，即目标三元组没有出现在预设的知识图谱中，则确定第二特征值为0。

本申请实施例中，通过基于预设的知识图谱，通过根据目标三元组是否已经存在于预设的知识图谱中，确定目标三元组的实体共现特征，将该特征用于确定目标三元组的置信度，可以提高置信度的准确性，由此可以挖掘高质量的三元组。

进一步地，为了进一步提高第一特征的准确性，在本申请的一个实施例中，在根据上述方式确定第二特征后，还可根据第一主体、第一客体所对应实体是否有共现，对第二特征更新，即预设知识图谱是否已经存在目标三元组，以及第一主体、第一客体所对应实体是否有共现两个维度确定第二特征。

具体地，将第一主体和第一客体，与预设知识图谱中的实体进行比较，判断预设的知识图谱中是否存在与第一主体相同的实体，以及是否存在与第一客体相同的实体。

若预设的知识图谱中的第二实体与第一主体相同，则根据第二实体对应的描述文本中是否包含第一客体，对第二特征进行更新。其中，实体对应的描述文本是指用于描述实体的文本。比如，实体a对应的描述文本：b的妻子。

举例而言，当第二实体对应的描述文本中包含第一客体时，对应的值为1，当第二实体对应的描述文本中不包含第一客体时，对应的值为0，可根据得到的值，对第二特征值进行更新。

若预设的知识图谱中的第三实体与第一客体相同，则根据第三实体对应的描述文本中是否包含第一主体，对第二特征进行更新。比如，当第三实体对应的描述文本中含第一主体时，对应的值为1，当第三实体对应的描述文本中不包含第一主体时，对应的值为0，可根据得到的值，对第二特征值进行更新。

具体的更新方式，可参见第一特征的更新方式，在此不再赘述。

可以理解的是，若预设的知识图谱中的存在第一主体，也存在第一客体时，根据第二实体对应的描述文本中是否包含第一客体，以及第三实体对应的描述文本中是否包含第一主体，可依次对第二特征值进行更新。或者，也可以是，根据第二实体对应的描述文本中是否包含第一客体，且第三实体对应的描述文本包含第一主体，对第二特征值进行更新。

比如，若预设的知识图谱中的第二实体与第一主体相同，第三实体与第一客体相同的，当第二实体对应的描述文本中包含第一客体，且第三实体对应的描述文本中是否包含第一主体时，对应的值为1,否则，对应的值为0，然后根据得到的值，对第二特征进行更新。

本申请实施例中，在根据预设的知识图谱中是否存在与目标三元组匹配的参考三元组，确定第二特征后，还可根据第一主体、第一客体在预设的知识图谱中是否共现这个维度，对第二特征进行更新，从而提高了第二特征的准确性，在根据更新后的第二特征，确定目标三元组的置信度时，可以提高置信度的准确率，由此可以挖掘高质量的三元组，不会受挖掘源的限制，从而提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

在本申请的一个实施例中，在利用预设的网络模型，对第一特征及第二特征进行编码解码处理之前，可先确定正样本数据和负样本数据，并根据正样本数据和负样本数据，通过对预设网络模型进行训练得到预设的网络模型。下面结合图4进行说明，图4为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。

如图4所示，上述利用预设的网络模型，对第一特征及第二特征进行编码解码处理之前，该方法还包括：

步骤401，从预设的知识图谱中的每个关系数据集中进行随机采样，生成正样本数据，其中，每个正样本数据中包括第三主体、第三关系及第三客体约束条件。

本实施例中，关系数据集是指具有相同关系的主体-客体对。比如，预设的知识图谱中一共有100种关系，每种关系对应多个主体-客体对，那么每种关系对应主体-客体对集合为关系数据集，那么该知识图谱共有100个关系数据集。

由于每种关系对应的主体-客体对的数量可能不同，比如，有的关系对应的主体-客体对可能有上千个，而有的关系可能对应的主体-客体对只有一百个左右。为了保证对每个关系都进行采样，因此，对每个关系数据集进行随机采样，得到主体-客体对，结合关系数据集对应的关系，生成正样本数据。

其中，每个正样本数据中包括第三主体、第三关系及第三客体约束条件。其中，第三客体约束条件是指第三客体要满足的条件。

步骤402，根据每个正样本数据第三主体和第三关系构成的查询语句，获取负样本候选集。

在确定正样本数据后，基于正样本数据得到负样本候选集。具体地，对每个正样本数据包含的第三主体和第三关系进行拼接，得到查询语句。然后，根据查询语句在搜索引擎中进行搜索，获取该查询语句对应的搜索结果。

之后，从搜索结果中确定出实体，根据第三主体、第三关系以及确定的实体，生成负样本候选集。其中，负样本候选集中包含多对三元组。

步骤403，根据第三客体约束条件，从负样本候选集中抽取负样本数据。

在获取负样本候选集后，根据第三客体约束条件，从负样本候选集中抽取满足第三约束条件的客体对应的三元组，作为负样本数据。

步骤404，利用正样本数据及负样本数据，对初始网络模型进行训练，生成预设的网络模型。

在获取正样本数据和负样本数据后，可利用正样本数据及负样本数据，对初始网络模型进行训练。具体地，对每个样本数据进行特征计算，比如计算每个样本数据的第一特征、第二特征和第三特征，然后利用计算的特征进行模型训练，直到模型的损失值满足条件，生成预设的网络模型。

本申请实施例中，通过预设的知识图谱中每种关系数据集进行随机抽样，得到正样本数据，然后基于正样本数据得到负样本数据，利用正样本数据及负样本数据，对初始网络模型进行训练，生成预设的网络模型，由此，对每种关系数据进行抽样，以及利用正样本数据及负样本数据进行训练，可以提高模型的准确性。

为了实现上述实施例，本申请实施例还提出一种知识图谱中三元组置信度计算装置。图5为本申请实施例提供的一种知识图谱中三元组置信度计算装置的结构示意图。

如图5所示，该知识图谱中三元组置信度计算装置500包括：第一确定模块510、第一获取模块520、第二确定模块530、第三确定模块540、第四确定模块550。

第一确定模块510，用于根据知识图谱中目标三元组，确定待搜索的查询语句，其中，目标三元组中包括第一主体、第一客体及第一关系；

第一获取模块520，用于获取与查询语句对应的网络搜索结果；

第二确定模块530，用于根据网络搜索结果，确定与目标三元组对应的第一特征；

第三确定模块540，用于根据第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定目标三元组的第二特征；

第四确定模块550，用于利用预设的网络模型，对第一特征及第二特征进行编码解码处理，确定目标三元组的置信度。

在本申请实施例一种可能的实现方式中，该装置还可包括：

判断模块，用于判断预设知识图谱中每个参考三元组包含的第二主体和第二客体，是否分别与第一主体和第一客体相同；

第五确定模块，用于当第一参考三元组包含的第二主体与第一主体相同、且第一参考三元组中的第二客体与第一客体相同时，确定第一参考三元组中的第二关系与第一关系的相似度；

第六确定模块，用于根据相似度，确定目标三元组的第三特征；

上述第四确定模块550，具体用于：

利用预设的网络模型，对第一特征、第二特征及第三特征进行编码解码处理，确定目标三元组的置信度。

在本申请实施例一种可能的实现方式中，上述第一确定模块510，具体用于：

将第一主体、第一客体及第一关系进行拼接，生成查询语句。

在本申请实施例一种可能的实现方式中，上述第二确定模块530，具体用于：

根据第一主体、第一客体及第一关系，在搜索结果中的共现频次及共现距离，确定目标三元组对应的第一特征。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第七确定模块，用于根据每个网络搜索结果的标题，确定每个网络搜索结果对应的第一实体；

第二获取模块，用于获取第一实体与第一主体或第一客体的第一相似度；

第一更新模块，用于根据第一相似度，对第一特征进行更新。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第二更新模块，用于根据每个网络搜索结果的标题与查询语句的第二相似度，对第一特征进行更新。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第三更新模块，用于根据每个网络搜索结果的可信度，对第一特征进行更新。

在本申请实施例一种可能的实现方式中，上述第三确定模块540，具体用于：

若目标三元组与预设的知识图谱中的第二参考三元组匹配，则确定第二特征值为1；

或者，

若目标三元组与预设的知识图谱中的任一参考三元组均未匹配，则确定第二特征值为0。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第四更新模块，用于当预设的知识图谱中的第二实体与第一主体相同时，根据第二实体对应的描述文本中是否包含第一客体，对第二特征进行更新；

当预设的知识图谱中的第三实体与第一客体相同，则根据第三实体对应的描述文本中是否包含第一主体时，对第二特征进行更新。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第一生成模块，用于从预设的知识图谱中的每个关系数据集中进行随机采样，生成正样本数据，其中，每个正样本数据中包括第三主体、第三关系及第三客体约束条件；

第三获取模块，用于根据每个正样本数据第三主体和第三关系构成的查询语句，获取负样本候选集；

抽取模块，用于根据第三客体约束条件，从负样本候选集中抽取负样本数据；

第二生成模块，用于利用正样本数据及负样本数据，对初始网络模型进行训练，生成预设的网络模型。

需要说明的是，前述知识图谱中三元组置信度计算方法实施例的解释说明，也适用于该实施例的知识图谱中三元组置信度计算装置，故在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的知识图谱中三元组置信度计算方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的知识图谱中三元组置信度计算方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的知识图谱中三元组置信度计算方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的知识图谱中三元组置信度计算方法对应的程序指令/模块(例如，附图5所示的第一确定模块510、第一获取模块520、第二确定模块530、第三确定模块540、第四确定模块550)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的知识图谱中三元组置信度计算方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据知识图谱中三元组置信度计算电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至知识图谱中三元组置信度计算方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

知识图谱中三元组置信度计算方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与知识图谱中三元组置信度计算方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过根据网络搜索结果得到的第一特征，和根据预设知识图谱得到的第二特征，确定的置信度准确率较高，以此挖掘高质量的三元组，不受挖掘源限制，提高了知识图谱的覆盖率，且无需人工参与，降低了三元组的挖掘成本。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种知识图谱中三元组置信度计算方法，其特征在于，包括：

获取与所述查询语句对应的网络搜索结果；

根据所述第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定所述目标三元组的第二特征，其中，所述预设知识图谱包括参考三元组，所述参考三元组包含第二主体、第二客体及所述第二主体与所述第二客体之间的关系；

利用预设的网络模型，对所述第一特征及第二特征进行编码解码处理，确定所述目标三元组的置信度；

所述根据知识图谱中目标三元组，确定待搜索的查询语句，包括：

将所述第一主体、第一客体及第一关系进行拼接，生成所述查询语句。

2.如权利要求1所述的方法，其特征在于，所述确定所述目标三元组的置信度之前，还包括：

判断所述预设知识图谱中每个参考三元组包含的第二主体和第二客体，是否分别与所述第一主体和第一客体相同；

若第一参考三元组包含的第二主体与所述第一主体相同、且所述第一参考三元组中的第二客体与所述第一客体相同，则确定所述第一参考三元组中的第二关系与所述第一关系的相似度；

根据所述相似度，确定所述目标三元组的第三特征；

所述确定所述目标三元组的置信度，包括：

利用预设的网络模型，对所述第一特征、第二特征及第三特征进行编码解码处理，确定所述目标三元组的置信度。

3.如权利要求1所述的方法，其特征在于，所述根据所述网络搜索结果，确定与所述目标三元组对应的第一特征，包括：

根据所述第一主体、第一客体及第一关系，在搜索结果中的共现频次及共现距离，确定所述目标三元组对应的第一特征。

4.如权利要求3所述的方法，其特征在于，所述确定所述目标三元组对应的第一特征之后，还包括：

根据每个网络搜索结果的标题，确定每个网络搜索结果对应的第一实体；

获取所述第一实体与所述第一主体或第一客体的第一相似度；

根据所述第一相似度，对所述第一特征进行更新。

5.如权利要求3所述的方法，其特征在于，所述确定所述目标三元组对应的第一特征之后，还包括：

根据每个网络搜索结果的标题与所述查询语句的第二相似度，对所述第一特征进行更新。

6.如权利要求3所述的方法，其特征在于，所述确定所述目标三元组对应的第一特征之后，还包括：

根据每个网络搜索结果的可信度，对所述第一特征进行更新。

7.如权利要求1-6任一所述的方法，其特征在于，根据所述第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定所述目标三元组的第二特征，包括：

若所述目标三元组与所述预设的知识图谱中的第二参考三元组匹配，则确定所述第二特征值为1；

或者，

若所述目标三元组与所述预设的知识图谱中的任一参考三元组均未匹配，则确定所述第二特征值为0。

8.如权利要求7所述的方法，其特征在于，所述确定所述目标三元组的第二特征之后，还包括：

若所述预设的知识图谱中的第二实体与所述第一主体相同，则根据所述第二实体对应的描述文本中是否包含所述第一客体，对所述第二特征进行更新；

若所述预设的知识图谱中的第三实体与所述第一客体相同，则根据所述第三实体对应的描述文本中是否包含所述第一主体，对所述第二特征进行更新。

9.如权利要求1-6任一所述的方法，其特征在于，所述利用预设的网络模型，对所述第一特征及第二特征进行编码解码处理之前，还包括：

从所述预设的知识图谱中的每个关系数据集中进行随机采样，生成正样本数据，其中，每个正样本数据中包括第三主体、第三关系及第三客体约束条件；

根据每个正样本数据第三主体和第三关系构成的查询语句，获取负样本候选集；

根据所述第三客体约束条件，从所述负样本候选集中抽取负样本数据；

利用所述正样本数据及所述负样本数据，对初始网络模型进行训练，生成所述预设的网络模型。

10.一种知识图谱中三元组置信度计算装置，其特征在于，包括：

第三确定模块，用于根据所述第一主体、第一客体及第一关系分别与预设知识图谱中各信息的匹配度，确定所述目标三元组的第二特征，其中，所述预设知识图谱包括参考三元组，所述参考三元组包含第二主体、第二客体及所述第二主体与所述第二客体之间的关系；

第四确定模块，用于利用预设的网络模型，对所述第一特征及第二特征进行编码解码处理，确定所述目标三元组的置信度；

所述第一确定模块，具体用于：

11.如权利要求10所述的装置，其特征在于，还包括：

判断模块，用于判断所述预设知识图谱中每个参考三元组包含的第二主体和第二客体，是否分别与所述第一主体和第一客体相同；

第五确定模块，用于当第一参考三元组包含的第二主体与所述第一主体相同、且所述第一参考三元组中的第二客体与所述第一客体相同时，确定所述第一参考三元组中的第二关系与所述第一关系的相似度；

第六确定模块，用于根据所述相似度，确定所述目标三元组的第三特征；

所述第四确定模块，具体用于：

12.如权利要求10所述的装置，其特征在于，所述第二确定模块，具体用于：

13.如权利要求12所述的装置，其特征在于，还包括：

第二获取模块，用于获取所述第一实体与所述第一主体或第一客体的第一相似度；

第一更新模块，用于根据所述第一相似度，对所述第一特征进行更新。

14.如权利要求12所述的装置，其特征在于，还包括：

第二更新模块，用于根据每个网络搜索结果的标题与所述查询语句的第二相似度，对所述第一特征进行更新。

15.如权利要求12所述的装置，其特征在于，还包括：

第三更新模块，用于根据每个网络搜索结果的可信度，对所述第一特征进行更新。

16.如权利要求10-15任一所述的装置，其特征在于，所述第三确定模块，具体用于：

或者，

17.如权利要求16所述的装置，其特征在于，还包括：

第四更新模块，用于当所述预设的知识图谱中的第二实体与所述第一主体相同时，根据所述第二实体对应的描述文本中是否包含所述第一客体，对所述第二特征进行更新；

当所述预设的知识图谱中的第三实体与所述第一客体相同，则根据所述第三实体对应的描述文本中是否包含所述第一主体时，对所述第二特征进行更新。

18.如权利要求10-15任一所述的装置，其特征在于，还包括：

第一生成模块，用于从所述预设的知识图谱中的每个关系数据集中进行随机采样，生成正样本数据，其中，每个正样本数据中包括第三主体、第三关系及第三客体约束条件；

抽取模块，用于根据所述第三客体约束条件，从所述负样本候选集中抽取负样本数据；

第二生成模块，用于利用所述正样本数据及所述负样本数据，对初始网络模型进行训练，生成所述预设的网络模型。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的知识图谱中三元组置信度计算方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的知识图谱中三元组置信度计算方法。