CN116467466A

CN116467466A - 基于知识图谱的编码推荐方法、装置、设备及介质

Info

Publication number: CN116467466A
Application number: CN202310456703.4A
Authority: CN
Inventors: 袁定强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-21

Abstract

本发明涉及知识图谱处理领域及数字医疗领域，公开了一种基于知识图谱的编码推荐方法、装置、设备及介质，包括：对知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；将每一跳所对应的邻居节点进行随机遮挡，生成目标节点多个不同的遮蔽邻居；将多个不同遮蔽邻居与目标节点输入空间自回归模型进行预测，确定目标节点遮蔽邻居的第一表征向量；将目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定目标节点第二表征向量；根据用户历史交互数据与图神经网络模型确定用户的第三表征向量；根据第二表征向量与第三表征向量的相似度，确定推荐信息所对应的编码，通过个性化推荐，有利于提高推荐质量，实现准确推送，为用户带来更好体验。

Description

基于知识图谱的编码推荐方法、装置、设备及介质

技术领域

本发明涉及知识图谱技术领域及数字医疗领域，尤其涉及一种基于知识图谱的编码推荐方法、装置、设备及介质。

背景技术

知识图谱(Knowledge Graph，下称KG)作为人工智能的一个分支，引起了学术界和工业界的广泛关注，随着知识图谱规模的快速增长，知识图谱在知识问答、推荐系统和知识图谱补全等应用中发挥着关键作用，例如，医学类数据量巨大而复杂，通过构建医学知识图谱能够为医疗平台提供有效帮助。

知识图谱是以现实世界的实体为节点，实体之间的关系为边的有向图。在这个图中，头实体，尾实体以及连接其的有向边构成了一个三元组，即(头实体，关系，尾实体)，表示头实体与尾实体通过关系进行连接。尽管知识图谱在表示结构化数据方面非常有效，但这种三元组的基本符号性质使知识图谱难以大规模使用在很多人工智能应用中。为了解决这个问题，近年来提出了一个新的研究方向，称为图向量表征，包括传统的浅层模型和深度学习图神经网络(GNNS)等方法在推荐系统中有广阔的应用场景。

然而，浅层模型由于其依赖于矩阵分解或随机游走，通常存在很高的时间复杂度和不能扩展到大规模的知识图谱数据集，而且随机游走带有随机性，易受数据样本的稀疏度和偏置的影响，未能充分利用采样子图或序列中的邻居邻近性，导致基于GNNS算法存在高阶信息利用不足的问题，同时，在网络叠层过程中，容易导致过度平滑问题，可能会恶化长尾项目的推荐，进而限制其表达性和可扩展性，因此，亟需一种基于知识图谱的编码推荐方案。

发明内容

本发明提供一种人工智能的基于知识图谱的编码推荐方法、装置、计算机设备及介质，以解决基于知识图谱的编码推荐不准确，推荐能力严重不足，继而使得编码个性化推荐效果不佳的技术问题。

第一方面，提供了一种基于知识图谱的编码推荐方法，包括：

获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；

将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；

将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量；

将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；

根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；

根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码。

第二方面，提供了一种基于知识图谱的编码推荐装置，包括：

采样模块，用于获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；

遮挡模块，用于将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；

预测模块，用于将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量；

第一确定模块，用于将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；

第二确定模块，用于根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；

编码推荐模块，用于根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码。

第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于知识图谱的编码推荐方法的步骤。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述基于知识图谱的编码推荐方法的步骤。

上述基于知识图谱的编码推荐方法、装置、计算机设备及存储介质所实现的方案中，通过获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量，充分利用了高阶信息，也减轻了逐层引起的过度平滑的问题；将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码，在本发明中，通过实时采集用户的第三表征向量，有利于及时捕获用户偏好，进行个性化推荐，有利于提高推荐质量，实现准确有效推送，为用户带来更好的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于知识图谱的编码推荐方法的一应用环境示意图；

图2是本发明一实施例中基于知识图谱的编码推荐方法的一流程示意图；

图3是图2中步骤S10的一具体实施方式流程示意图；

图4是图2中步骤S20的一具体实施方式流程示意图；

图5是图2中步骤S30之前的一具体实施方式流程示意图；

图6是本发明一实施例中基于知识图谱拓扑连接图；

图7是本发明一实施例中基于知识图谱的编码推荐装置的一结构示意图；

图8是本发明一实施例中计算机设备的一结构示意图；

图9是本发明一实施例中计算机设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于知识图谱的编码推荐方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。服务端可以通过获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量，充分利用了高阶信息，也减轻了逐层引起的过度平滑的问题；将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码，在本发明中，通过实时采集用户的第三表征向量，有利于及时捕获用户偏好，进行个性化推荐，有利于提高推荐质量，实现准确有效推送，为用户带来更好的体验，其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。

请参阅图2所示，图2为本发明实施例提供的基于知识图谱的编码推荐方法的一个流程示意图，包括如下步骤：

S10：获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；

本发明提供的基于知识图谱的编码推荐方法，可应用在知识问答、推荐系统、医疗平台和知识图谱补全等场景，通过应用于各种应用场景下的智能客服或智能助手等智能问答引擎中，智能问答引擎通常通过服务端来实现，该服务端可以实时获取携带目标节点的知识图谱，通过对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合。

例如，其中，请参阅图3，为图2中步骤S10的一具体实施方式流程示意图，详述如下：

步骤S11：构建知识图谱，获取携带目标节点的知识图谱，其中，将至少一个候选对象确定为目标节点；

例如，将一个候选对象(即，用户对象)作为一个节点，一个推荐条目信息作为一个节点，若用户对象与推荐条目信息之间存在浏览行为的行为数据集，则用户对象与推荐条目信息对应的两节点之间用边连接，由此生成关系图谱，即，生成知识图谱。

也就是说，关系图谱中的一个节点对应一个用户对象或一个推荐条目信息，关系图谱中的一条边用于指示连接的两节点之间存在浏览行为，该推荐条目信息包括但不限于文章、视频、音乐等等。

具体而言，通过获取携带目标节点的知识图谱，有利于掌握目标节点周围的关系图谱。

步骤S12：对所述知识图谱中目标节点进行负采样，确定所述目标节点所对应的相邻节点归属于正样本的子图节点与负样本节点；

其中，负采样，通过判断两个目标节点与相邻节点之间是不是一对上下文词与目标词，如果是一对，则是正样本(即，子图节点)，如果不是一对，则是负样本(负样本节点)。

需要说明的是，采用硬负采样策略对所述知识图谱中目标节点进行采样，一方面，增加了采样的对比损失，另一方面，能够使模型更准确的定义正负样本之间的边界，也提高了后续空间自回归模型的鲁棒性。

步骤S13：根据所述负样本节点对所述目标节点周围的所述相邻节点进行多跳采样，确定由每一跳所对应的邻居节点构成的多跳邻居集合。

具体地，通过将目标节点周围的节点划分为子图节点与负样本节点，直接在子图节点内进行多跳采样，能够快速准确地确定由每一跳所对应的邻居节点构成的多跳邻居集合。

通过上述方式，能够有效提升在大图中查询多跳邻居节点的计算效率。例如，进行多跳邻居采样可采用如下方式：获取知识图谱所对应的拓扑网络中每个节点的0跳邻居，得到全节点0跳邻居集合，当第一节点作为指定节点时，通过如下的迭代计算过程计算第一节点的k+1跳邻居集合，迭代计算过程包括如下的步骤a和步骤b，步骤a、获取第一节点的k跳邻居集合，步骤b、将第一节点的k跳邻居集合中k跳目的节点，和全节点0跳邻居集合中起始节点相同的两个节点对连接为一个节点对，完成节点对的连接后得到第一节点的k+1跳邻居集合，当第一节点的k+1跳邻居集合中的跳数k+1等于kmax时，将第一节点的k+1跳邻居集合以及对应的k+1跳路径输出，从第一节点的kmax跳邻居集合可以获取到第一节点的多跳邻居节点，这样，继而得到多跳邻居集合。本发明实施例中，通过节点对之间的连接操作可以完成多跳邻居节点的计算，大大提升了多跳邻居节点的计算效率。

S20：将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；

请参阅图4，为图2中步骤S20的一具体实施方式流程示意图，其中，将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居，详述如下：

S21：将离所述目标节点的距离在第一预设距离内的相邻节点确定为子图节点；

应当理解的是，在知识图谱所对应的拓扑网络中，目标节点与相邻节点可清晰确定，通过相邻节点与目标节点之间的距离进行判断，例如，将离所述目标节点的距离在第一预设距离内的相邻节点确定为子图节点，则为本实施例中正样本节点。

S22：将离所述目标节点的距离在第二预设距离内的相邻节点确定为负样本节点；其中，基于所述负样本节点离所述目标节点的距离远近程度，将所述负样本节点分为第一负样本节点与第二负样本节点；

应当理解的是，通过相邻节点与目标节点之间的距离进行判断，例如，将离所述目标节点的距离在第二预设距离内的相邻节点确定为负样本节点，其中，第一负样本节点为难负样本节点，在第二预设距离内，其相对于所述目标节点的距离较远，第二负样本节点为易负样本节点，在第二预设距离内，其相对于所述目标节点的距离较近。

还需要说明的是，难负样本节点与易负样本节点分别表征与目标节点之间的难易关联关系，例如，目标节点为计算机设备，那么相邻节点则为键盘、鼠标、显示器以及计算机设备器件等，而易负样本节点则为关联度不大的物品，例如，饭盒、外卖等物品，相反，难负样本节点，则存在关联度但不是正相关的物品，例如，电视、音响、家电等设备。

S23：将所述多跳邻居集合中目标节点与所述目标节点周围的邻居节点进行整合，获得子图集合，所述子图集合由子图节点组成；

具体而言，由于所述多跳邻居集合内的邻居节点都是子图节点，通过整合所述目标节点周围的子图节点，得到子图集合。

S24：对所述子图集合中任意邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居。

例如，通过预设概率对所述子图集合中任意邻居节点进行随机遮挡，遮挡原有邻居节点替换为特殊标记、随机标记等，方便后续的向量矩阵进行混淆，得到更精准的训练数据。

通过上述方式，首先，使用节点采样来对目标节点的多跳邻居进行采样，然后，在每一跳中对邻居节点进行随机的遮蔽，并将其他的周围邻居节点和目标节点一起展平放入单向的Transformer编码器，通过将多跳邻居上下文直接集成到目标节点中进行表示，同时，减轻了由逐层引起的过度平滑的问题。

进一步，使用自回归模型来强化目标节点以对比方式逼近被遮蔽的邻居，整个遮蔽和预测过程诱导潜在空间捕获对预测邻居节点和以统一的方式保留结构的完整度和高阶信息。

S30：将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量；

其中，请参阅图5，为图2中步骤S30之前的一具体实施方式流程示意图，需要说明的是，将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量之前，还包括：

步骤S31，获取训练数据集；

具体地，该训练数据集用于训练空间自回归模型，所述训练数据集为带标签的训练数据，例如，多个遮蔽邻居的初始表征向量，初始表征向量通过向量形式表示的特征数据。

当然，为了训练精度，也可根据需求将训练数据集分为训练集、测试集以及验证集，例如，按照8:1:1比例方式划分训练数据集，在此不赘述。

步骤S32，构建基于空间自回归模型的网络结构；

需要说明的是，空间自回归模型至少包括编码器与自回归模块，在此不做限定。

可选的，空间自回归模型至少包括自编码器与自回归模块和内存模块；所述自编码器，包括编码器和解码器，自编码器通过编码器将图像压缩到潜在空间，学习到特征表达，然后，使用解码器将潜在空间的特征表达解码回图像空间；所述自回归模块，用于对自编码器中编码器的结果进行处理，并利用潜在空间的特征对数据进行建模，拟合真实分布；所述内存模块，位于自编码器中编码器和解码器之间，用于保存潜在空间的特征表达，然后，将不属于该潜在空间的特征表达将被内存模块强行转换为内存中最相关的特征表达。

步骤S33，基于预设的对比学习损失函数，根据所述训练数据集内多个遮蔽邻居的初始表征向量，确定对比学习损失信息；

其中，所述对比学习损失函数的表达式为：

式中，L_Vanilla-SAC为对比学习损失函数，n_i,h为级跳h时第i层邻居中被遮蔽的遮蔽邻居，N为级跳数目，τ为对比学习中的温度参数，c_p为预测编码，b为邻居节点。

在本实施例中，对比学习的损失函数可以为自监督对比学习损失函数或监督对比学习损失函数，通过对比损失函数对节点进行编码，利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力，以便于后续基于识别预测尾部融合特征识别尾部类图片，以进一步避免尾部类图片样本较少以致识别精度较差的问题，不仅避免了随着推荐系统数据量较大，会存在一定量的稀疏连接实体，使得数据稀疏度增大，即产生长尾现象。

步骤S34，利用瓶颈策略对所述训练数据集内多个遮蔽邻居的表征向量进行优化，确定最小化遮蔽邻居和所述目标节点之间的邻居信息；

具体地，若知识图谱数据随之增大，会导致相似数据冗余和局部拓扑结构变复杂。为了准确预测遮蔽邻居，从周围的邻居中提取最小化的充分的信息并且过滤掉不相关的信息，采用邻居信息瓶颈策略，减少特征图的数量，例如：

式中，x_in＝{n_target,n₁,…,n_i-1,n_i+1,…,n_k}，β为参数用来控制有用的信息，θ是Transformer编码参数；其中，

在本实施例中，为了消除邻域聚合过程中的信息冗余，设计了领域信息瓶颈，通过最大化目标编码和被遮蔽的邻居之间的互信息以及对目标编码和周围邻居之间的互信息施加约束来实现。

步骤S35，基于预设的双线性损失函数，根据优化后的训练数据集内多个遮蔽邻居的初始表征向量以及所述邻居信息，确定双线性损失信息；

在另一实施例中，所述双线性损失函数的表达式为：

式中，L_NIB为双线性损失函数，N为级跳数目，k为除去遮蔽邻居的子图节点数，σ为非线性激活函数，W₁、W₂对应是c_p和n_i,hop双线性融合后的线性变换矩阵。

具体地，通过双线性损失函数在相同位置处进行融合得到新的特征信息，再对新的特征信息进行池化操作得到特征矩阵，对特征矩阵的第一维进行归一化操作，并对其进行向量化操作得到融合特征向量。

在本实施例中，通过双线性融合操作融合不同特征提取器得到的特征，充分互补了不同维度的特征信息，显著提高了分类性能。

步骤S36，根据所述双线性损失信息和所述对比学习损失信息，训练并得到所述空间自回归模型。

应当理解的是，总的损失函数为L_SAC＝L_Vanilla-SAC+ηL_NIB，其中，η为权重参数，通过联合训练空间自回归模型，得到预测精度更高的空间自回归模型；便于及时、准确的判断空间自回归模型是否训练完成，从而提高生成的尾部融合特征的泛化能力、特征表达能力以及可读取能力，以便于后续预测。

在另一实施例中，采用所述空间自回归模型来预测所述目标节点遮蔽邻居的第一表征向量的目标函数为：

c_p＝f_θ({n_target+p_target,n₁+p₁,…,n_i-1+p_i-1,n_i+1+p_i+1,…,n_k+p_k})

式中，p为级跳索引位置，c_p为输出的预测编码，n_target为目标节点，p_target为目标节点级跳索引位置，f_θ为Transformer编码器。

具体地，为了减小噪音干扰，需要挑选负样本对，将n_i和c_p在一个子图中视为正样本，与c_p不在一个子图中的n_i视为负样本。

通过上述方式，基于空间自回归编码，搭建了一种新颖而有效的框架以统一的方式解解决问题，提升推荐系统的可扩展性和鲁棒性，也为用户推送更准确用户感兴趣的信息。

在一种可能的实现方式中，在医学应用场景中，采用上述方式处理训练数据集，所述训练数据集是医疗数据，如个人健康档案、处方、检查报告等数据，例如，获取训练数据集中的各医疗关键词以及各所述医疗关键词之间的关联关系，根据所述训练数据集的样本数据以及所述关联关系，计算出各所述医疗关键词之间的关联强度；基于各所述医疗关键词以及所述关联强度，构建医疗知识图谱。

在一种可能的实现方式中，采用上述方式构建知识图谱；提取病历样本信息的主题作为病历的特征信息，并存储至数据库；对于输入的电子病历信息，提取病历特征信息；在所述知识图谱中获取包含与该电子病历相关的医疗常识的子图向量；将当前病历的特征信息、子图向量和病历信息样本数据库中病历的特征信息输入到训练好的神经网络模型中，计算当前病历和数据库中每个病历的相似度；按照相似度的大小，输出设定数量的相似病例。使用医疗领域知识图谱增强的siamese-transformer深度学习神经网络模型自动提取病历特征，将病历映射到同一个向量空间，在这个空间中使用相似度计算，计算出两个病历的相似度。

在本实施例中，通过检索到相似病历，可以使医生准确的对相似病历进行统计，可以给医生在给类似病人治疗时得到一个有效的参考。改善了传统临床决策制定过程，传统的临床决策是医生根据自己的知识和经验来进行判断，有助于为医生提供病历参考。

S40：将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；

其中，需要说明的是，图神经网络模型是指使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式，满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。

具体地，通过将所述目标节点遮蔽邻居的第一表征向量输入预先构建的图神经网络模型，直接得到目标节点第二表征向量。

应当理解的是，将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量，包括：

将知识图谱中至少一个候选对象确定为目标节点，所述目标节点的邻居节点包括所述目标节点的一阶邻居节点至N阶邻居节点；其中，N为大于2的正整数；

将所述目标节点的N-1阶邻居节点及其对应的所述N阶邻居节点的第一表征向量作为所述图神经网络模型的输入层的输入，获取所述输入层输出的所述N-1阶邻居节点的第二表征向量；

将所述N-1阶邻居节点的第二表征向量以及从所述目标节点至N-2阶邻居节点的每个节点的第一表征向量作为所述图神经网络模型的聚合层的输入，获取所述聚合层输出的所述目标节点第二表征向量。

可选的，确定所述当前样本和所述当前样本对应的样本标签；基于所述当前样本和所述初始图神经网络模型，得到所述初始图神经网络模型的输出信息；基于所述初始图神经网络模型的输出信息和所述样本标签确定所述初始图神经网络模型的损失函数，并基于所述损失函数对所述初始图神经网络模型中的网络参数进行调整，直到所述图神经网络模型满足收敛条件，其中，图神经网络模型若为非均匀图神经网络模型，通过分析用户的问题信息，为用户准确、快速的输出与问题对应的答案信息，处理问题的速度快，并且输出的答案准确率高。

S50：根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；

需要说明的是，根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量，包括：

获取用户历史交互数据，所述用户历史交互数据由用户画像、推荐信息画像之间数据交互形成的行为数据集；

将用户的所述行为数据集至少一个历史对象的自身节点及其邻居节点的第一表征向量输入所述图神经网络模型，确定所述图神经网络模型输出的至少一个所述历史对象的第三表征向量；

根据至少一个所述历史对象的第三表征向量，获得所述用户的第三表征向量。

具体地，根据用户与推荐条目信息(即，推荐信息)之间的行为数据集，通过上述多个维度的信息，利用预设的正则表达式从所述信息中提取若干用户属性特征数据；根据若干所述用户属性特征数据，生成若干用户特征标签；根据所述用户特征标签生成用户画像生成用户画像，同理，生成推荐信息画像。

利用协同过滤算法生成推荐信息-属性矩阵与用户-推荐信息评分矩阵，例如，整合推荐信息-属性表，得到推荐信息-属性矩阵；量化用户数据得到用户-推荐信息评分表，整合用户-推荐信息评分表中的数据得到用户-推荐信息评分矩阵；以所述用户-推荐信息评分矩阵为基础，得到所述用户-推荐信息评分矩阵，综合推荐信息-属性矩阵与用户-推荐信息评分矩阵，得到用户之间的第三表征向量。

S60：根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码。

其中，采用余弦相似度计算所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，选择所述行为数据集多个历史对象中相似度匹配的条目信息作为推荐信息，进而发送推荐信息所对应的编码信息。

可见，在上述方案中，将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量，充分利用了高阶信息，也减轻了逐层引起的过度平滑的问题；将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码，在本发明中，通过实时采集用户的第三表征向量，有利于及时捕获用户偏好，进行个性化推荐，有利于提高推荐质量，实现准确有效推送，为用户带来更好的体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于知识图谱的编码推荐装置，该基于知识图谱的编码推荐装置与上述实施例中基于知识图谱的编码推荐方法一一对应。如图7所示，该基于知识图谱的编码推荐装置包括采样模块101、遮挡模块102、预测模块103、第一确定模块104、第二确定模块105与编码推荐模块106；

采样模块101，用于获取携带目标节点的知识图谱，并对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合；

遮挡模块102，用于将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居；

预测模块103，用于将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量；

第一确定模块104，用于将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；

第二确定模块105，用于根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；

编码推荐模块106，用于根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码。

在一实施例中，采样模块101，具体用于：

对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合，包括：

构建知识图谱，获取携带目标节点的知识图谱，其中，将至少一个候选对象确定为目标节点；

对所述知识图谱中目标节点进行负采样，确定所述目标节点所对应的相邻节点归属于正样本的子图节点或负样本节点；

根据所述负样本节点对所述目标节点周围的所述相邻节点进行多跳采样，确定由每一跳所对应的邻居节点构成的多跳邻居集合。

在一实施例中，遮挡模块102，具体用于：

将离所述目标节点的距离在第一预设距离内的相邻节点确定为子图节点；

将离所述目标节点的距离在第二预设距离内的相邻节点确定为负样本节点；其中，基于所述负样本节点离所述目标节点的距离远近程度，将所述负样本节点分为第一负样本节点与第二负样本节点；

将所述多跳邻居集合中目标节点与所述目标节点周围的邻居节点进行整合，获得子图集合，所述子图集合由子图节点组成；

对所述子图集合中任意邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居。

在一实施例中，预测模块103之前还包括模型构建模块，具体用于：

获取训练数据集；

构建基于空间自回归模型的网络结构；

基于预设的对比学习损失函数，根据所述训练数据集内多个初始遮蔽邻居的表征向量，确定对比学习损失信息；

利用瓶颈策略对所述训练数据集内多个遮蔽邻居的初始表征向量进行优化，确定最小化遮蔽邻居和所述目标节点之间的邻居信息；

基于预设的双线性损失函数，根据优化后的训练数据集内多个遮蔽邻居的初始表征向量以及所述邻居信息，确定双线性损失信息；

根据所述双线性损失信息和所述对比学习损失信息，训练并得到所述空间自回归模型。

在一实施例中，所述对比学习损失函数的表达式为：

式中，L_Vanilla-SAC为对比学习损失函数，n_i,h为级跳h时第i层邻居中被遮蔽的遮蔽邻居，N为级跳数目，τ为对比学习中的温度参数，c_p为预测编码，n为邻居节点。

在一实施例中，所述双线性损失函数的表达式为：

在一实施例中，预测所述目标节点遮蔽邻居的第一表征向量的目标函数为：

在一实施例中，第一确定模块104包括：

在一实施例中，第二确定模块105包括：

本发明提供了一种基于知识图谱的编码推荐装置，将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量，充分利用了高阶信息，也减轻了逐层引起的过度平滑的问题；将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量；根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量；根据所述目标节点的第二表征向量与所述用户的第三表征向量的相似度，确定推荐信息所对应的编码，在本发明中，通过实时采集用户的第三表征向量，有利于及时捕获用户偏好，进行个性化推荐，有利于提高推荐质量，实现准确有效推送，为用户带来更好的体验。

关于基于知识图谱的编码推荐装置的具体限定可以参见上文中对于智能问答处方法的限定，在此不再赘述。上述基于知识图谱的编码推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的编码推荐方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的编码推荐方法客户端侧的功能或步骤

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

需要说明的是，上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤，可对应参阅前述方法实施例中，服务端侧以及客户端侧的相关描述，为避免重复，这里不再一一描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的编码推荐方法，其特征在于，包括：

2.如权利要求1所述的基于知识图谱的编码推荐方法，其特征在于，对所述知识图谱中目标节点的多跳邻居进行采样，得到多跳邻居集合，包括：

3.如权利要求2所述的基于知识图谱的编码推荐方法，其特征在于，将所述多跳邻居集合中每一跳所对应的邻居节点进行随机遮挡，生成所述目标节点多个不同的遮蔽邻居，包括：

4.如权利要求1所述的基于知识图谱的编码推荐方法，其特征在于，将所述多个不同的遮蔽邻居与所述目标节点输入空间自回归模型进行预测，确定所述目标节点遮蔽邻居的第一表征向量之前，还包括：

获取训练数据集；

构建基于空间自回归模型的网络结构；

基于预设的对比学习损失函数，根据所述训练数据集内多个遮蔽邻居的初始表征向量，确定对比学习损失信息；

5.如权利要求4所述的基于知识图谱的编码推荐方法，其特征在于，所述对比学习损失函数的表达式为：

6.如权利要求4所述的基于知识图谱的编码推荐方法，其特征在于，所述双线性损失函数的表达式为：

7.如权利要求1所述的基于知识图谱的编码推荐方法，其特征在于，预测所述目标节点遮蔽邻居的第一表征向量的目标函数为：

8.如权利要求1-7任一项所述的基于知识图谱的编码推荐方法，其特征在于，将所述目标节点遮蔽邻居的第一表征向量输入图神经网络模型，确定所述目标节点第二表征向量，包括：

9.如权利要求1-7任一项所述的基于知识图谱的编码推荐方法，其特征在于，根据用户历史交互数据与所述图神经网络模型确定隶属于用户的第三表征向量，包括：

10.一种基于知识图谱的编码推荐装置，其特征在于，包括：

11.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述基于知识图谱的编码推荐方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于知识图谱的编码推荐方法的步骤。