CN111737481A

CN111737481A - 知识图谱的降噪方法、装置、设备和存储介质

Info

Publication number: CN111737481A
Application number: CN201910959754.2A
Authority: CN
Inventors: 承玲璐
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-10-02
Anticipated expiration: 2039-10-10
Also published as: CN111737481B

Abstract

本发明实施例公开了一种知识图谱的降噪方法、装置、设备和存储介质。该方法包括：获取预先构建的预设场景下的待降噪的知识图谱，所述知识图谱的三元组包括第一实体、属性值及第二实体，所述属性值为所述第一实体和所述第二实体之间的共有属性值；确定所述知识图谱中每个所述属性值的置信度，所述置信度为所述属性值对与所述属性值对应的实体对的相似度的贡献程度，所述实体对包含所述第一实体与所述第二实体；依据各所述置信度和预设置信度阈值，对所述知识图谱进行基于属性值的三元组降噪处理。通过上述技术方案，实现了知识图谱的降噪处理，提高知识图谱的预测能力和预测结果准确率。

Description

知识图谱的降噪方法、装置、设备和存储介质

技术领域

本发明实施例涉及知识图谱技术，尤其涉及一种知识图谱的降噪方法、装置、设备和存储介质。

背景技术

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。由节点和边构成的三元组是知识图谱的一种通用表示方式。知识图谱已被用来泛指各种大规模的知识库。如果知识图谱中存在实体关系不显著或者实际发生率较低的不重要的三元组(称为知识图谱的噪声)，那么知识图谱会给后续的应用模型造成较大干扰，故需要对知识图谱进行降噪处理。

目前的知识图谱降噪方法主要有：一种是传统的关联规则算法，其通过设置置信度、支持度和提升度等能够表征实体关系牢靠程度的关联指标的阈值来过滤知识图谱中的噪声。例如，常用的置信度的计算方式为：Confidence(X→Y)＝P(Y|X)＝P(X,Y)/P(X)＝P(X∩Y)/P(X)，含义为在发生X的项集中，同时会发生Y的可能性，即X和Y同时发生的个数占仅仅X发生个数的比例。另一种是置信度感知知识表示学习(confidence-aware knowledgerepresentation learning，CKRL)算法，其通过构建有向的能量公式E(h,r,t)＝||h+r-t||(h、r、t分别表示实体1、实体关系和实体2)，计算知识图谱中各三元组在能量函数上的各能量值，并通过计算每个三元组对应的各能量值在知识图谱对应的所有能量值中的排序的序号均值(Mean Rank)来实现知识图谱降噪。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：(1)关联规则算法中关联指标的计算并不关注实体之间的属性值，且其具有P(X)的先验前提，使得该降噪算法并不适用于诸如零售等关注物品属性值的应用场景中的无向知识图谱的降噪处理；(2)CKRL算法主要适用于翻译基础框架，如TransE模型，其计算的是“主-谓-宾”关系的置信度，更偏向于解释由主语h、谓语r推导固定宾语t的确定性，故CKRL算法的三元组之间的有向性更强，其计算三元组能量值的能量函数无法适用于诸如零售等关注物品属性值、且一对实体对之间属性值多种多样的应用场景中的无向知识图谱的降噪处理。

发明内容

本发明实施例提供一种知识图谱的降噪方法、装置、设备和存储介质，以实现知识图谱的降噪处理，提高知识图谱的预测能力和预测结果准确率。

第一方面，本发明实施例提供了一种知识图谱的降噪方法，包括：

获取预先构建的预设场景下的待降噪的知识图谱，所述知识图谱的三元组包括第一实体、属性值及第二实体，所述属性值为所述第一实体和所述第二实体之间的共有属性值；

确定所述知识图谱中每个所述属性值的置信度，所述置信度为所述属性值对与所述属性值对应的实体对的相似度的贡献程度，所述实体对包含所述第一实体与所述第二实体；

依据各所述置信度和预设置信度阈值，对所述知识图谱进行基于属性值的三元组降噪处理。

第二方面，本发明实施例还提供了一种知识图谱的降噪装置，该装置包括：

知识图谱获取模块，用于获取预先构建的预设场景下的待降噪的知识图谱，所述知识图谱的三元组包括第一实体、属性值及第二实体，所述属性值为所述第一实体和所述第二实体之间的共有属性值；

置信度确定模块，用于确定所述知识图谱中每个所述属性值的置信度，所述置信度为所述属性值对与所述属性值对应的实体对的相似度的贡献程度，所述实体对包含所述第一实体与所述第二实体；

基于属性值的图谱降噪模块，用于依据各所述置信度和预设置信度阈值，对所述知识图谱进行基于属性值的三元组降噪处理。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的知识图谱的降噪方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的知识图谱的降噪方法。

本发明实施例通过获取预先构建的预设场景下的包含第一实体、属性值及第二实体的三元组的待降噪的知识图谱，并确定知识图谱中每个属性值的置信度，该置信度表征该属性值对与该属性值对应的实体对的相似度的贡献程度。实现了预设场景下知识图谱中的属性值的置信度的计算，解决了置信度计算的有向问题、关联规则算法的关联指标与属性值无关的问题、以及CKRL算法中因三元组有向而导致的场景不适用问题，使得计算所得的置信度更适合于实体对之间的属性值多样的无向知识图谱的降噪。通过依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。实现了知识图谱中与置信度小于预设置信度阈值的属性值相关的所有三元组的剔除，即以属性值为降噪处理单元，将知识图谱中与该属性值对应的关联关系不牢靠(不显著)的三元组滤除，既能在一定程度上较多的保留知识图谱的信息量，又能有效过滤知识图谱中的无效三元组，提高知识图谱的质量以及知识图谱的预测能力和预测结果准确率。

附图说明

图1是本发明实施例一中的一种知识图谱的降噪方法的流程图；

图2是本发明实施例二中的一种知识图谱的降噪方法的流程图；

图3是本发明实施例三中的一种知识图谱的降噪方法的流程图；

图4是本发明实施例四中的一种知识图谱的降噪装置的结构示意图；

图5是本发明实施例五中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

本实施例提供的知识图谱的降噪方法可适用于由具有属性和属性值的实体构建而成的知识图谱的降噪的情况。该方法可以由知识图谱的降噪装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在具有大数据处理能力的设备中，例如笔记本电脑、台式电脑或服务器等。参见图1，本实施例的方法具体包括如下步骤：

S110、获取预先构建的预设场景下的待降噪的知识图谱。

其中，预设场景是预先确定的知识图谱的应用场景，例如可以是零售场景(包含线下零售和线上的电子商务)，也可以是物品推荐场景等。本发明实施例中以预设场景下识别相似品为例进行说明。

对知识图谱进行降噪，首先需要获取待降噪的知识图谱。该知识图谱可以是从外部存储介质或者网络端获取，也可以是在本操作之前根据预设场景下的数据集构建而获得。

知识图谱虽然是客观存在的数据的表现形式，但是其需要收集相应的数据进行知识图谱的构建。本发明实施例中需要收集预设场景对应的数据集，进行知识图谱的构建。该知识图谱的三元组包括第一实体、属性值及第二实体，属性值为第一实体和第二实体之间的共有属性值。也就是，需要从预设场景对应的数据集中抽取各个实体，作为知识图谱中的节点，而不同实体之间的实体关联关系为两个实体之间共有的属性值，该共有属性值便为知识图谱中节点之间的边及其权重。上述具有边连接关系的两个节点便分别为第一实体和第二实体。该知识图谱是基于预设场景下的数据集构建而获得，其中存在实体关联关系不显著的三元组，这些三元组便为该知识图谱的噪声。

示例性地，在预设场景为零售场景时，第一实体和第二实体的实体类型为物品，属性值为物品对应属性的属性值；

预设场景下的待降噪的知识图谱通过如下方式预先构建：确定具有物品标识的各物品；将各物品中具有共有属性值的任两个物品分别作为知识图谱中的第一实体和第二实体，且将共有属性值作为第一实体和第二实体之间的属性值，构建知识图谱中的各三元组；由各三元组构建知识图谱。

由于零售场景中的存在主体为用户和用户获取(如购买)的物品(如商品)，而本发明实施例中的应用需求为利用知识图谱识别相似物品，故当预设场景为零售场景时，知识图谱中的第一实体和第二实体的实体类型便为物品，相应地，属性值便为物品所具有的属性的值。在该场景下，构建知识图谱的过程大致为：收集具有物品标识SKU的各物品的数据，该数据中至少包含每个物品的物品标识、物品的各种属性对应的属性值。之后，判断任意两个物品之间是否存在相同的属性值，如果有，则将具有相同属性值(即共有属性值)的两个物品分别作为知识图谱三元组中的第一实体和第二实体，且将上述共有属性值作为该三元组中的实体关联关系。由此获得的多个三元组便可构成零售场景对应的知识图谱。

如果两个物品之间存在多个共有属性值，那么该两个物品和每一个共有属性均可构成一个三元组，即该两个物品对应的三元组的数量与共有属性值的数量一致。例如，对于A牛奶和B牛奶两个物品，其共有属性值包括“牛奶”、“听装”、“容量220ml”及“箱规12听”，那么知识图谱中与其对应的三元组有：(A牛奶-牛奶-B牛奶)、(A牛奶-听装-B牛奶)、(A牛奶-容量220ml-B牛奶)、以及(A牛奶-箱规12听-B牛奶)。

S120、确定知识图谱中每个属性值的置信度。

其中，置信度为属性值对与属性值对应的实体对的相似度的贡献程度，实体对包含第一实体与第二实体。由于知识图谱用于识别相似物品，故置信度的定义与实体对之间的相似度相关。具体而言，这里的置信度可以理解为属性值的重要性标识值，其定义为：对于某一特定的应用场景下所收集到的数据集而言，一组实体对(物品i与物品j)之间的相似度是确定的(即实体对的相似度由预设场景下的数据集确定)，而不同的属性值对该实体对相似度解释能力的强弱(即贡献程度)便为相应属性值的置信度。

根据上述置信度的定义，在计算知识图谱中每个属性值的置信度之前，需要先确定预设场景下的特定数据集，该特定数据集为知识图谱将被应用的模型的训练数据集，例如知识图谱将被应用于电商场景下的相似品识别模型，那么特定数据集便为相似品识别模型的训练数据集。由于实际应用中所采用的预设场景、知识图谱被应用的模型及收集的训练数据集可能存在差异，故实体对之间相似度的表征形式可以根据实际情况有所变化，相应地，属性值的置信度的表征形式也可以随之改变。故本实施例中不限定具体的置信度计算形式，只要置信度能够表征属性值对相似度的贡献程度即可。

本发明实施例中并非直接计算实体对中两个实体之间的置信度，而是以属性值为处理单元进行置信度的计算。这是因为，对于具有属性和属性值的实体构建而成的知识图谱而言，属性值在知识图谱中具有权重值的含义，且不同的属性值在实际场景中被关注的程度也不同，那么在预设场景下的知识图谱中各三元组中，存在一些不显著的属性值对应的三元组，故以属性值为知识图谱降噪处理的依据，能够有效提高知识图谱与实际应用的契合度，从而提高知识图谱的预测结果精度。例如，零售场景中用户获取物品时，更多地会关注每个物品的属性值，且同一物品的不同属性值在用户获取该物品的过程中被用户关注的程度有所差异，例如上述A牛奶和B牛奶两个物品构成的三元组中，如果用户获取A牛奶或B牛奶时，主要关注了“牛奶”和“容量220ml”两个属性值，那么对于“听装”和“箱规12听”这两个属性值对应的三元组而言，其便为不显著的属性值对应的三元组，应当予以滤除。

需要说明的是，如果同一个属性值存在于多个三元组中，那么该多个三元组对应的特定数据集中的数据均需参与该属性值的置信度的计算。

S130、依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。

其中，预设置信度阈值是一个预先设定的置信度，用于对每个属性值的置信度进行筛选，进而进行知识图谱的降噪处理。预设置信度阈值可以根据应用需求的精度而经验设定。示例性地，预设置信度阈值为0.9。

针对知识图谱中的每个属性值均会得到一个置信度。此时，需要逐个比较属性值的置信度与预设置信度阈值。比较的结果中存在置信度大于或等于预设置信度阈值的属性值，这些属性值可以称为保留属性值；也存在置信度小于预设置信度阈值的属性值，这些属性值可以称为滤除属性值。保留属性值对应的所有三元组(可包含不同实体对对应的三元组)被认为是实体对之间关联关系牢固(显著)的三元组，其应当被保留，而滤除属性值对应的所有三元组(可包含不同实体对对应的三元组)被认为是实体对之间关联关系不牢固(不显著)的三元组，其应当被滤除。这样，便以属性值为降噪处理单元，将某些属性值对应的所有三元组从知识图谱中剔除。

例如，对于上述A牛奶和B牛奶两个物品，知识图谱中对应的三元组有：(A牛奶-牛奶-B牛奶)、(A牛奶-听装-B牛奶)、(A牛奶-容量220ml-B牛奶)、以及(A牛奶-箱规12听-B牛奶)。如果属性值“牛奶”和属性值“容量220ml”对应的置信度均超过预设置信度阈值，那么与这两个属性值有关的三元组均保留，而对于置信度小于预设置信度阈值的属性值“听装”和属性值“箱规12听”，其对应的三元组(A牛奶-听装-B牛奶)和(A牛奶-箱规12听-B牛奶)均应被剔除。如果其他实体对，如C果汁和D果汁，其对应的共有属性值中也有“听装”和“箱规12听”，那么也需将三元组(C果汁-听装-D果汁)和(C果汁-箱规12听-D果汁)从知识图谱中剔除。

本实施例的技术方案，通过获取预先构建的预设场景下的包含第一实体、属性值及第二实体的三元组的待降噪的知识图谱，并确定知识图谱中每个属性值的置信度，该置信度表征该属性值对与该属性值对应的实体对的相似度的贡献程度。实现了预设场景下知识图谱中的属性值的置信度的计算，解决了置信度计算的有向问题、关联规则算法的关联指标与属性值无关的问题、以及CKRL算法中因三元组有向而导致的场景不适用问题，使得计算所得的置信度更适合于实体对之间的属性值多样的无向知识图谱的降噪。通过依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。实现了知识图谱中与置信度小于预设置信度阈值的属性值相关的所有三元组的剔除，即以属性值为降噪处理单元，将知识图谱中与该属性值对应的关联关系不牢靠(不显著)的三元组滤除，既能在一定程度上较多的保留知识图谱的信息量，又能有效过滤知识图谱中的无效三元组，提高知识图谱的预测能力和预测结果准确率。

实施例二

本实施例在上述实施例一的基础上，对“确定知识图谱中每个属性值的置信度”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2，本实施例提供的知识图谱的降噪方法包括：

S210、获取预先构建的预设场景下的待降噪的知识图谱。

本实施例中的预设场景为零售场景。以零售场景中的电商场景为例，可获得表1所示的一个知识图谱示例：

表1：电商场景下的知识图谱

第一实体	属性值	第二实体
			SKU<sub>1</sub>	Value1	SKU<sub>2</sub>
SKU<sub>1</sub>	Value1	SKU<sub>3</sub>

其中，SKU₁、SKU₂和SKU₃分别表示物品1、物品2和物品3的物品标识，Value1表示三元组中的属性值。

S220、依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定知识图谱中每个属性值的置信度。

其中，物品获取数据集是收集到的用户实际购物过程中的数据，其至少包含每个被用户获取的物品的信息(即物品信息)，如用于唯一区分物品的物品标识和物品的各种属性值等；获取物品的用户的信息(即用户信息)，如用于唯一区分一次物品获取行为的用户的用户标识(如同一用户进行两次物品获取行为，则该用户对应有两个用户标识)；以及每个物品与用户之间的物品获取对应关系等。物品获取数据集可以是从电商平台获取，也可以从O2O等线下消费平台获取等。

在预设场景为零售场景，且特定数据集为物品获取数据集时，可以将两个物品之间的相似度定义为：物品获取数据集中共同购买了该两个物品的用户的数量(即共同用户数量)在物品获取数据集中所有用户的数量(即用户总数量)的占比，该占比数值越高，说明该两个物品之间的相似度越大。在该特定情境下，属性值的置信度可以理解为：在物品获取数据集所包含的所有用户购物行为中，用户因关注该属性值而购买物品的占比，该占比数值越高，说明该属性值对实体对的相似度的贡献程度越大，其对应的置信度越大。

根据上述相似度和置信度的说明，在零售场景和物品获取数据集的具体应用场景下，知识图谱中属性值的置信度的计算需要用物品获取数据集中的用户信息和物品信息来统计获得该属性值在所有用户购物行为中被用户关注的次数，以及所有用户总共的购物次数，从而利用上述两个数据来计算该属性值的置信度。

示例性地，依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定知识图谱中每个属性值的置信度包括：

A、依据物品获取数据集，确定知识图谱对应的用户总数量。

根据上述说明，物品获取数据集中的用户标识的数量与用户的物品获取次数对应一致，故所有用户总共的购物次数可以通过统计用户标识的数量来获得，而统计用户标识的数量所获得的数据便为物品获取数据集中知识图谱对应的用户总数量User_Num_KG。这里的KG为知识图谱(Knowledge Graph)的简称。

B、依据知识图谱中各实体之间的关联关系及物品获取数据集，确定每个属性值对应的共同用户总数量。

其中，共同用户总数量是共同获取实体对对应物品的用户的数量总和。

计算属性值的置信度还需要获得该属性值在所有用户购物行为中被用户关注的次数。本实施例中假设同一用户在获取某两个物品时，该两个物品的各个共有属性值被用户关注的次数是一致的，那么有N个用户获取该两个物品，则该两个物品中的每个共有属性值被用户关注的次数便为N。也就是，统计物品获取数据集中每个实体对对应的共同用户数量，便可获得该属性值在所有用户购物行为中被用户关注的次数。

具体实施时，针对每个属性值，依据知识图谱中各实体之间的关联关系确定属性值对应的各实体对，并依据物品获取数据集确定每个实体对对应的共同的物品获取用户的共同用户数量，以及将各共同用户数量的总和作为属性值对应的共同用户总数量。

以上述示例的知识图谱为例，其只包含一个属性值Value1，故针对Value1，先根据SKU₁、SKU₂和SKU₃之间的实体关联关系，确定出两个实体对(SKU₁，SKU₂)和(SKU₁，SKU₃)。之后，从物品获取数据集中统计实体对(SKU₁，SKU₂)和(SKU₁，SKU₃)各自对应的共同用户数量，分别记为∑User_SKU₁₂和∑User_SKU₁₃，该统计数据结果见表2。此时可将表1与表2合并，获得表3所示的合并数据。最后，如表3所示数据，根据属性值Value1对应的每个实体对的共同用户数量，计算获得该属性值对应的共同用户总数量，即∑∑User_SKU_ij＝∑User_SKU₁₂+∑User_SKU₁₃。由属性值及其对应的共同用户总数量，便可生成用于计算知识图谱中属性值置信度的数据结构，见表4。

表2：基于物品获取数据集的统计结果

第一实体	第二实体	被同一用户购买过的共同用户数量
			Sku<sub>1</sub>	Sku<sub>2</sub>	∑User_SKU<sub>12</sub>
Sku<sub>1</sub>	Sku<sub>3</sub>	∑User_SKU<sub>13</sub>

表3：知识图谱与统计数据的合并结果

第一实体	属性值	第二实体	被同一用户购买过的共同用户数量
				Sku<sub>1</sub>	Value1	Sku<sub>2</sub>	∑User_SKU<sub>12</sub>
Sku<sub>1</sub>	Value1	Sku<sub>3</sub>	∑User_SKU<sub>13</sub>

表4：计算属性值的置信度的数据结构

属性值	共同用户总数量
		Value1	∑∑User_SKU<sub>ij</sub>
Value2	∑∑User_SKU<sub>mn</sub>

C、依据每个属性值对应的共同用户总数量及用户总数量，确定知识图谱中每个属性值的置信度。

针对每个属性值，计算该属性值对应的共同用户总数量和知识图谱对应的用户总数量的比值，作为该属性值的置信度。例如，属性值Value1的置信度为：Confidence(Value1:KG)＝∑∑User_SKU_ij/User_Num_KG。

需要说明的是，步骤A和步骤B的执行顺序不限定，可以顺次执行，也可以逆序执行，还可并行执行。

S230、依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。

本实施例的技术方案，通过依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定知识图谱中每个属性值的置信度，实现了根据物品获取数据集中的各种用户数量来计算属性值的置信度，提高了置信度的确定效率，从而提高了基于置信度的知识图谱降噪效率。

实施例三

本实施例在上述实施例一的基础上，增加了基于“三元组的支持度”进行知识图谱降噪的步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3，本实施例提供的知识图谱的降噪方法包括：

S310、获取预先构建的预设场景下的待降噪的知识图谱。

本实施例中的预设场景为零售场景。以零售场景中的电商场景为例，可获得表1所示的一个知识图谱示例。

S320、确定知识图谱中每个属性值的置信度。

S330、依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。

根据实施例一的说明，以上述A牛奶和B牛奶两个物品为例，经过基于属性值的三元组降噪处理，知识图谱中会剔除属性值“听装”和属性值“箱规12听”对应的三元组(A牛奶-听装-B牛奶)和(A牛奶-箱规12听-B牛奶)，而保留属性值“牛奶”和属性值“容量220ml”对应的三元组(A牛奶-牛奶-B牛奶)和(A牛奶-容量220ml-B牛奶)。

S340、依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个三元组在知识图谱中的支持度。

其中，支持度表示项集{X,Y}在总项集里出现的概率，可以理解为X和Y同时出现的数量与总数I的比值，其用于表征三元组的重要性。

本实施例中除了要滤除知识图谱中不显著的属性值对应的三元组之外，还需滤除在实际应用场景中存在率较低的不重要的三元组。三元组是否重要可以理解为三元组中的实体对在实际应用场景中共同出现的概率大小，即三元组的支持度。以零售场景为例，如果某两个物品被大量的用户共同购买，则该两个物品对应的三元组在该场景中是必然存在的；反之，如果某两个物品仅被极少量的用户共同购买，则该两个物品对应的三元组在该场景中是偶然存在的，其应当被剔除。

在预设场景为零售场景，且特定数据集为物品获取数据集时，三元组的支持度可以被定义为：三元组中的实体对被用户共同购买的次数与该实体对中的物品被用户购买的总次数的比值。示例性地，依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个三元组在知识图谱中的支持度包括：

C、依据物品获取数据集，确定知识图谱中每个实体对应的物品获取用户的用户数量。

根据上述实施例的说明，可以通过统计物品获取数据集中每个物品对应的用户标识的数量，来确定该物品被用户购买的总次数，该统计结果便为相应物品对应的用户数量。例如，物品标识分别为SKU₁和SKU₂的物品的用户数量分别为∑User_SKU₁和∑User_SKU₂。

D、依据知识图谱中各实体之间的关联关系及物品获取数据集，确定每个三元组对应的共同用户数量。

每个三元组对应的共同用户数量即为相应三元组中的实体对对应的共同用户数量，其是物品获取数据集中共同购买该实体对中两个物品的用户数量。共同用户数量的获取过程见实施例二中步骤B的说明，其结果见表2。

E、依据每个三元组对应的共同用户数量，以及相应三元组中的第一实体和第二实体分别对应的用户数量，确定相应三元组在知识图谱中的支持度。

支持度的计算以三元组为处理单元，针对任一个三元组，先根据该三元组中所包含的两个物品各自的用户数量的总和，计算该三元组对应的实体对用户数量，即对于物品标识分别为SKU₁和SKU₂的物品，该三元组对应的实体对用户数量为∑User_SKU₁+∑User_SKU₂，该结果可见表5。之后，计算该三元组对应的共同用户数量∑User_SKU₁₂和实体对用户数量∑User_SKU₁+∑User_SKU₂的比值，作为该三元组在知识图谱中的支持度，即

按照该过程，可获得基于置信度的知识图谱降噪处理之后的知识图谱中每个三元组的支持度。

表5：实体对用户数量的统计结果

第一实体	第二实体	实体对用户数量(两个实体被购买过的用户数量)
			Sku<sub>1</sub>	Sku<sub>2</sub>	∑User_SKU<sub>1</sub>+∑User_SKU<sub>2</sub>

根据上述支持度的计算过程可知，本实施例中的支持度是以实体对为处理对象的，故对于实体对相同，而属性值不同的各三元组，其支持度的计算过程和结果均相同。为了提高支持度的确定速度，可以对三元组进行基于实体对的识别，从而仅计算实体对不同的三元组的支持度，省去仅属性值不同的三元组的支持度计算过程。

需要说明的是，步骤C和步骤D的执行顺序不限定，可以顺次执行，也可以逆序执行，还可并行执行。

S350、依据各支持度和预设支持度阈值，对知识图谱进行基于实体对的三元组降噪处理。

其中，预设支持度阈值是一个预先设定的支持度，用于对每个三元组的支持度进行筛选，进而进行知识图谱的降噪处理。预设支持度阈值可以根据应用需求的精度而经验设定。示例性地，预设支持度阈值为知识图谱中各三元组对应的支持度的中位数。这样，便需要先计算出知识图谱中每个三元组的支持度，而后根据这些支持度确定其中位数，作为预设支持度阈值。这样设置的好处在于，可以获得更加合理的预设支持度阈值，进而提高基于实体对的三元组降噪的精度。

针对知识图谱中的每个三元组均会得到一个支持度。此时，需要逐个比较三元组的支持度与预设支持度阈值。比较的结果中存在支持度大于或等于预设支持度阈值的三元组，这些三元组可以称为保留三元组；也存在支持度小于预设支持度阈值的属性值，这些属性值可以称为滤除三元组。保留三元组被认为是该场景下的重要的三元组，其应当被保留，而滤除三元组被认为是该场景下的不重要的三元组，其应当被滤除。由于实体对相同，而属性值不同的各三元组的支持度相同，故本操作会直接将知识图谱中与该实体对相关的所有三元组剔除。这样，便以实体对为降噪处理单元，将某些实体对对应的所有三元组从知识图谱中剔除。

例如，对于上述A牛奶和B牛奶两个物品，基于属性值的三元组降噪后的知识图谱中还保留有三元组(A牛奶-牛奶-B牛奶)和(A牛奶-容量220ml-B牛奶)。如果实体对(A牛奶，B牛奶)的支持度小于预设支持度阈值，那么将会将三元组(A牛奶-牛奶-B牛奶)和(A牛奶-容量220ml-B牛奶)均从知识图谱中剔除。

本实施例的技术方案，通过依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个三元组在知识图谱中的支持度；依据各支持度和预设支持度阈值，对知识图谱进行基于实体对的三元组降噪处理。实现了以实体对为降噪处理单元，将知识图谱中不重要的三元组滤除，解决了因知识图谱中存在较多的不重要的三元组而导致的知识图谱在预测阶段召回率较低的问题，达到了对知识图谱的二次降噪，进一步提高知识图谱的预测能力和预测结果准确率。

实施例四

本实施例提供一种知识图谱的降噪装置，参见图4，该装置具体包括：

知识图谱获取模块410，用于获取预先构建的预设场景下的待降噪的知识图谱，知识图谱的三元组包括第一实体、属性值及第二实体，属性值为第一实体和第二实体之间的共有属性值；

置信度确定模块420，用于确定知识图谱中每个属性值的置信度，置信度为属性值对与属性值对应的实体对的相似度的贡献程度，实体对包含第一实体与第二实体；

基于属性值的图谱降噪模块430，用于依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。

可选地，在预设场景为零售场景时，第一实体和第二实体的实体类型为物品，属性值为物品对应属性的属性值；

相应地，在上述装置的基础上，该装置还包括知识图谱构建模块，用于通过如下方式预先构建预设场景下的待降噪的知识图谱：

确定具有物品标识的各物品；

将各物品中具有共有属性值的任两个物品分别作为知识图谱中的第一实体和第二实体，且将共有属性值作为第一实体和第二实体之间的属性值，构建知识图谱中的各三元组；

由各三元组构建知识图谱。

可选地，置信度确定模块420具体用于：

依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定知识图谱中每个属性值的置信度。

进一步地，置信度确定模块420具体用于：

依据物品获取数据集，确定知识图谱对应的用户总数量；

依据知识图谱中各实体之间的关联关系及物品获取数据集，确定每个属性值对应的共同用户总数量，共同用户总数量是共同获取实体对对应物品的用户的数量总和；

依据每个属性值对应的共同用户总数量及用户总数量，确定知识图谱中每个属性值的置信度。

可选地，在上述装置的基础上，该装置还包括基于实体对的图谱降噪模块，用于：

在依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理之后，依据零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个三元组在知识图谱中的支持度；

依据各支持度和预设支持度阈值，对知识图谱进行基于实体对的三元组降噪处理。

进一步地，基于实体对的图谱降噪模块具体用于：

依据物品获取数据集，确定知识图谱中每个实体对应的物品获取用户的用户数量；

依据知识图谱中各实体之间的关联关系及物品获取数据集，确定每个三元组对应的共同用户数量；

依据每个三元组对应的共同用户数量，以及相应三元组中的第一实体和第二实体分别对应的用户数量，确定相应三元组在知识图谱中的支持度。

可选地，预设置信度阈值为0.9，预设支持度阈值为知识图谱中各三元组对应的支持度的中位数。

通过本发明实施例四的一种知识图谱的降噪装置，实现了预设场景下知识图谱中的属性值的置信度的计算，解决了置信度计算的有向问题、关联规则算法的关联指标与属性值无关的问题、以及CKRL算法中因三元组有向而导致的场景不适用问题，使得计算所得的置信度更适合于实体对之间的属性值多样的无向知识图谱的降噪。同时，实现了知识图谱中与置信度小于预设置信度阈值的属性值相关的所有三元组的剔除，即以属性值为降噪处理单元，将知识图谱中与该属性值对应的关联关系不牢靠(不显著)的三元组滤除，既能在一定程度上较多的保留知识图谱的信息量，又能有效过滤知识图谱中的无效三元组，提高知识图谱的预测能力和预测结果准确率。

本发明实施例所提供的知识图谱的降噪装置可执行本发明任意实施例所提供的知识图谱的降噪方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述知识图谱的降噪装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

参见图5，本实施例提供了一种设备，其包括：一个或多个处理器520；存储装置510，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器520执行，使得一个或多个处理器520实现本发明实施例所提供的知识图谱的降噪方法，包括：

获取预先构建的预设场景下的待降噪的知识图谱，知识图谱的三元组包括第一实体、属性值及第二实体，属性值为第一实体和第二实体之间的共有属性值；

确定知识图谱中每个属性值的置信度，置信度为属性值对与属性值对应的实体对的相似度的贡献程度，实体对包含第一实体与第二实体；

依据各置信度和预设置信度阈值，对知识图谱进行基于属性值的三元组降噪处理。

当然，本领域技术人员可以理解，处理器520还可以实现本发明任意实施例所提供的知识图谱的降噪方法的技术方案。

图5显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图5所示，该设备包括处理器520、存储装置510、输入装置530和输出装置540；设备中处理器520的数量可以是一个或多个，图5中以一个处理器520为例；设备中的处理器520、存储装置510、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线550连接为例。

存储装置510作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的知识图谱的降噪方法对应的程序指令/模块(例如，知识图谱的降噪装置中的知识图谱构建模块、置信度确定模块和基于属性值的图谱降噪模块)。

存储装置510可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置510可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置510可进一步包括相对于处理器520远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

本实施例提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种知识图谱的降噪方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的知识图谱的降噪方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所提供的知识图谱的降噪方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种知识图谱的降噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述预设场景为零售场景时，所述第一实体和所述第二实体的实体类型为物品，所述属性值为物品对应属性的属性值；

所述预设场景下的待降噪的知识图谱通过如下方式预先构建：

确定具有物品标识的各物品；

将各所述物品中具有共有属性值的任两个所述物品分别作为所述知识图谱中的所述第一实体和所述第二实体，且将所述共有属性值作为所述第一实体和所述第二实体之间的属性值，构建所述知识图谱中的各三元组；

由各所述三元组构建所述知识图谱。

3.根据权利要求2所述的方法，其特征在于，确定所述知识图谱中每个所述属性值的置信度包括：

依据所述零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定所述知识图谱中每个所述属性值的置信度。

4.根据权利要求3所述的方法，其特征在于，依据所述零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定所述知识图谱中每个所述属性值的置信度包括：

依据所述物品获取数据集，确定所述知识图谱对应的用户总数量；

依据所述知识图谱中各实体之间的关联关系及所述物品获取数据集，确定每个所述属性值对应的共同用户总数量，所述共同用户总数量是共同获取所述实体对对应物品的用户的数量总和；

依据每个所述属性值对应的所述共同用户总数量及所述用户总数量，确定所述知识图谱中每个所述属性值的置信度。

5.根据权利要求2所述的方法，其特征在于，在依据各所述置信度和预设置信度阈值，对所述知识图谱进行基于属性值的三元组降噪处理之后，还包括：

依据所述零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个所述三元组在所述知识图谱中的支持度；

依据各所述支持度和预设支持度阈值，对所述知识图谱进行基于实体对的三元组降噪处理。

6.根据权利要求5所述的方法，其特征在于，依据所述零售场景对应的用户获取物品的物品获取数据集中的用户信息和物品信息，确定每个所述三元组在所述知识图谱中的支持度包括：

依据所述物品获取数据集，确定所述知识图谱中每个实体对应的物品获取用户的用户数量；

依据所述知识图谱中各实体之间的关联关系及所述物品获取数据集，确定每个所述三元组对应的共同用户数量；

依据每个所述三元组对应的所述共同用户数量，以及相应三元组中的所述第一实体和所述第二实体分别对应的用户数量，确定相应三元组在所述知识图谱中的支持度。

7.根据权利要求5所述的方法，其特征在于，所述预设置信度阈值为0.9，所述预设支持度阈值为所述知识图谱中各所述三元组对应的支持度的中位数。

8.一种知识图谱的降噪装置，其特征在于，包括：

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的知识图谱的降噪方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的知识图谱的降噪方法。