CN113297338B

CN113297338B - 产品推荐路径生成方法、装置、设备及存储介质

Info

Publication number: CN113297338B
Application number: CN202110848732.6A
Authority: CN
Inventors: 黄宇翔; 王健宗; 倪子凡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-03-29
Anticipated expiration: 2041-07-27
Also published as: CN113297338A

Abstract

本申请涉及数据处理技术领域，并公开了一种产品推荐路径生成方法、装置、设备及存储介质，首先通过构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；然后根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；再次构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；进而实现利用梯度下降法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。能够根据目标产品对应业务数据的知识图谱，得到目标产品的推荐路径，提高目标产品的推荐效率及推荐成功率。

Description

产品推荐路径生成方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种产品推荐路径生成方法、装置、设备及存储介质。

背景技术

利用知识图谱进行结论或者未知数据推理的手段已成为目前常用的一种推理手段，这是由于利用知识图谱可以从现有的数据中获得新的知识和结论。然而，现有技术中常采用基于词汇化的依赖路径进行知识图谱分析，但是由于对词汇的解析往往存在错误，可能导致路径的错误传播，从而影响推理结果的准确性。尤其在产品推荐领域，会严重影响产品推荐的效率和成功率。

发明内容

本申请提供了一种产品推荐路径生成方法、装置、设备及存储介质，能够提高目标产品的推荐效率及推荐成功率。

第一方面，本申请提供了一种产品推荐路径生成方法，所述方法包括：

构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；

根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；

构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；

利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。

第二方面，本申请还提供了一种产品推荐路径生成装置，包括：

确定模块，用于构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；

选择模块，用于根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；

构建模块，用于构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；

更新模块，用于利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。

第三方面，本申请还提供了一种产品推荐路径生成设备，包括：

存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的产品推荐路径生成方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的产品推荐路径生成方法的步骤。

本申请公开了一种产品推荐路径生成方法、装置、设备及存储介质，首先通过构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；然后根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；再次构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；进而实现利用梯度下降法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。能够根据目标产品对应业务数据的知识图谱，得到目标产品的推荐路径，提高目标产品的推荐效率及推荐成功率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的产品推荐路径生成方法的实现流程图；

图2a是S101中构建目标产品对应业务数据的知识图谱的具体实现流程图；

图2b是S101中，根据所述知识图谱确定所述目标产品对应业务流程的状态向量的具体实现流程图；

图3是图1中S102的具体实现流程图；

图4是本申请实施例提供的产品推荐路径生成装置的结构示意图；

图5是本申请实施例提供的产品推荐路径生成设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种产品推荐路径生成方法、装置、设备及存储介质。本申请实施例提供的产品推荐路径生成方法，首先通过构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；然后根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；再次构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；进而实现利用梯度下降法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。能够根据目标产品对应业务数据的知识图谱，得到目标产品的推荐路径，提高目标产品的推荐效率及推荐成功率。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请一实施例提供的产品推荐路径生成方法的示意流程图。该产品推荐路径生成方法可以由服务器或者终端实现，所述服务器可以是单个服务器或者服务器集群。所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。

如图1所示，图1是本申请一实施例提供的产品推荐路径生成方法的实现流程图。具体包括：步骤S101至步骤S104。详述如下：

S101，构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量。

其中，目标产品可以是预先确定的需要向目标客户推荐的产品，例如，保险产品。具体地，可以根据目标产品的业务数据以及与目标产品的业务数据相关联的业务流程信息，进而根据获取的业务数据以及业务流程信息构建目标产品的知识图谱。在构建完成所述知识图谱之后，进一步地，基于注意力机制构造所述知识图谱包括的目标产品对应业务数据、所述业务数据在业务流程中经过的各个业务节点和各个所述业务节点之间的路径关系的三元组，并通过将三元组映射至低维向量空间，得到目标产品对应业务流程的状态向量。

请参阅图2a所示，图2a是S101中构建目标产品对应业务数据的知识图谱的具体实现流程图。由图2a可知，构建目标产品对应业务数据的知识图谱的过程可以包括S1011至S1013。详述如下：

S1011，获取目标产品的业务数据和与所述业务数据相关联的业务流程信息。

其中，所述业务数据包括目标产品的名称、类型、用途等，与所述业务数据相关联的业务流程信息包括业务种类、业务流程以及业务流程的各个环节、业务术语等。

S1012，根据所述业务流程信息确定各个业务数据在业务流程中的前置条件和相邻节点信息。

其中，前置条件可以是要到达某一业务节点需要完成的流程或者必须准备的数据；相邻节点信息指的是与当前业务节点相邻的下一业务节点的信息或者与当前业务节点相邻的上一业务节点的信息。业务节点的信息包括业务节点名称、业务节点在整个业务流程中所处的环节。

S1013，根据确定的各个业务数据在业务流程中的前置条件和节点信息，构建所述目标产品对应业务数据的知识图谱。

其中，所述知识图谱包括目标产品对应业务数据、所述业务数据在业务流程中经过的各个业务节点和各个所述业务节点之间的路径关系。具体地，可以通过对各个业务数据在业务流程中的前置条件和节点信息进行聚合，以得到所述知识图谱。其中，聚合分析的过程可以参考现有的聚合分析算法，在此不再赘述。

示例性地，如图2b所示，图2b是S101中根据所述知识图谱确定所述目标产品对应业务流程的状态向量的具体实现流程图。由图2b所示，根据所述知识图谱确定所述目标产品对应业务流程的状态向量的过程包括S1014与S1015。详述如下：

S1014，基于注意力机制构造所述业务数据、各个所述业务节点和各个所述业务节点之间的路径关系的三元组，基于所述三元组训练预设的聚类模型，将各个所述业务节点嵌入至所述目标产品对应所述业务流程中。

其中，知识图谱中的所述业务数据、各个所述业务节点和各个所述业务节点之间的路径关系是自然的离散原子符号，无法直接建模为目标产品对应业务流程的状态向量。在本实施例中，通过注意力机制构造所述业务数据、各个所述业务节点和各个所述业务节点之间的路径对应的离散原子符号的三元组，进而实现基于所述三元组训练预设的聚类模型，可以将各个业务节点嵌入至目标产品对应的业务流程中。具体地，可以采用TransE算法对所述距离模型进行训练，实现将各个业务节点嵌入至目标产品对应的业务流程中。

S1015，根据嵌入各个所述业务节点的所述业务流程的节点信息，得到所述状态向量。

其中，所述状态向量中的各个值分别表示业务流程中的各个业务节点在知识图谱中的位置。在本实施例中，嵌入各个所述业务节点的所述业务流程的节点信息包括业务节点在业务流程中的位置信息，而业务节点在业务流程中的位置信息为业务流程中对应的该业务节点在知识图中的位置。因此，可以根据嵌入各个所述业务节点的所述业务流程的节点信息包括业务节点在业务流程中的位置信息，得到所述状态向量。

S102，根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点。

其中，所述状态向量包括目标产品的业务数据对应的各个业务节点的节点信息，所述目标业务节点为从所述业务节点中选择出的可用于目标路径上的业务节点。在本实施例中，可以通过计算目标路径上各个路径节点信息与的所述状态向量包括各个业务节点的节点信息之间的相似度，根据相似度的大小来从各个业务节点中选择出目标业务节点。

示例性地，如图3所示，图3是图1中S102的具体实现流程图。由图3可知，S102包括S1021至S1023。详述如下：

S1021，获取所述目标路径上各个路径节点信息。

其中，目标路径上各个路径节点信息为预设的路径节点信息。具体地，根据目标产品的产品属性可以预设目标路径上各个路径节点信息。

S1022，根据预设的相似度函数，分别计算所述状态向量中的各个节点信息与所述目标路径上各个路径节点信息之间的相似度。

其中，预设的相似度函数可以是欧几里的距离函数、皮尔森相似度函数、曼哈顿距离函数或余弦相似度函数等。

S1023，根据所述相似度从各个所述业务节点中选择出目标业务节点。

具体地，若有状态向量中的节点信息与所述目标路径中路径节点信息的相似度大于预设的相似度阈值，则确定所述状态向量中的该节点信息对应的业务节点为目标业务节点。

S103，构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略。

其中，所述马尔科夫策略网络为监督策略网络；示例性地，所述构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略，可以包括：根据所述目标路径和与所述目标路径具有关联关系的各个路径节点组成样本对；将所述样本对作为所述监督策略网络的输入，以所述目标业务节点在所述目标路径上的概率值作为所述监督策略网络的随机策略。

S104，利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。

其中，所述利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径，可以包括：将所述样本对输入所述马尔科夫策略网络中，基于蒙塔卡洛策略梯度更新所述马尔科夫策略网络的参数；若所述监督策略网络的随机策略的期望值大于预设的期望阈值，则停止更新所述马尔科夫策略网络的函数，获取更新后的所述马尔科夫策略网络输出的路径，以该路径为所述目标产品的推荐路径。

示例性地，所述蒙塔卡洛策略梯度表示为：

其中，

是梯度计算符；

是随机策略的参数，

是对

的期望值；

是在时刻t采取的路径动作；

是在时刻t路径上的节点状态信息；a是所有路径动作的集合；

为预设的奖励函数。

其中，预设的奖励函数

可以自定义，例如在产品推荐路径生成过程中，由于路径节点之间的错误顺序决策比正确的顺序决策多，且错误的顺序决策的数量会随着路径的长度呈指数增长。因此，在自定义奖励函数

时，可以设定为能到达目标实体即加1，到达不了目标实体即减1。此外，还可以自定义和路径长度、路径相似度相关的奖励函数，从而保障路径的高效性和多样性。

例如，在一实施例中，自定义的激励函数为：

其中，

，

和

均为比例系数；

用于反映路径节点训练决策的正误；

用于反映路径到达的效率；

用于反映路径的多样性。

示例性地，

可以表示为：

可以表示为：

其中，

表示目标路径P的长度倒数；

可以表示为：

其中，P为表示目标路径，P_i表示已有路径，F表示已有路径的数目。

通过上述分析可知，本实施例提供的产品推荐路径生成方法，首先通过构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；然后根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；再次构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；进而实现利用梯度下降法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。能够根据目标产品对应业务数据的知识图谱，得到目标产品的推荐路径，提高目标产品的推荐效率及推荐成功率。

请参阅图4，图4是本申请实施例提供的产品推荐路径生成装置的结构示意图。该产品推荐路径生成装置用于执行图1实施例所示的产品推荐路径生成方法的步骤。该产品推荐路径生成装置可以是单个服务器或服务器集群，或者该产品推荐路径生成装置可以是终端，该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。

如图4所示，产品推荐路径生成装置400包括：

确定模块401，用于构建目标产品对应业务数据的知识图谱，根据所述知识图谱确定所述目标产品对应业务流程的状态向量；

选择模块402，用于根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点；

构建模块403，用于构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略；

更新模块404，用于利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径。

在一实施例中，所述确定模块401，具体用于：

获取目标产品的业务数据和与所述业务数据相关联的业务流程信息；

根据所述业务流程信息确定各个业务数据在业务流程中的前置条件和相邻节点信息；

根据确定的各个业务数据在业务流程中的前置条件和节点信息，构建所述目标产品对应业务数据的知识图谱。

在一实施例中，所述确定模块401，具体用于：

基于注意力机制构造所述业务数据、各个所述业务节点和各个所述业务节点之间的路径关系的三元组，基于所述三元组训练预设的聚类模型，将各个所述业务节点嵌入至所述目标产品对应所述业务流程中；

根据嵌入各个所述业务节点的所述业务流程的节点信息，得到所述状态向量。

在一实施例中，所述选择模块402，具体用于：

获取所述目标路径上各个路径节点信息；

根据预设的相似度函数，分别计算所述状态向量中的各个节点信息与所述目标路径上各个路径节点信息之间的相似度；

根据所述相似度从各个所述业务节点中选择出目标业务节点。

在一实施例中，所述马尔科夫策略网络为监督策略网络；所述构建模块403，具体用于：

根据所述目标路径和与所述目标路径具有关联关系的各个路径节点组成样本对；

将所述样本对作为所述监督策略网络的输入，以所述目标业务节点在所述目标路径上的概率值作为所述监督策略网络的随机策略。

在一实施例中，所述更新模块404，具体用于：

将所述样本对输入所述马尔科夫策略网络中，基于蒙塔卡洛策略梯度更新所述马尔科夫策略网络的参数；

若所述监督策略网络的随机策略的期望值大于预设的期望阈值，则停止更新所述马尔科夫策略网络的函数，获取更新后的所述马尔科夫策略网络输出的路径，以该路径为所述目标产品的推荐路径。

在一实施例中，所述蒙塔卡洛策略梯度表示为：

其中，

是梯度计算符；

是随机策略的参数，

是对

的期望值；

是在时刻t采取的路径动作；

为预设的奖励函数。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的产品推荐路径生成装置和各模块的具体工作过程，可以参考图1实施例所述的产品推荐路径生成方法实施例中的对应过程，在此不再赘述。

上述的产品推荐路径生成方法可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的装置上运行。

请参阅图5，图5是本申请实施例提供的产品推荐路径生成设备的结构示意性框图。该产品推荐路径生成设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种产品推荐路径生成方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种产品推荐路径生成方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的产品推荐路径生成设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元 (Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一实施例中，所述构建目标产品对应业务数据的知识图谱，包括：

在一实施例中，所述知识图谱包括目标产品对应业务数据、所述业务数据在业务流程中经过的各个业务节点和各个所述业务节点之间的路径关系；所述根据所述知识图谱确定所述目标产品对应业务流程的状态向量，包括：

在一实施例中，所述根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点，包括：

获取所述目标路径上各个路径节点信息；

在一实施例中，所述马尔科夫策略网络为监督策略网络；所述构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略，包括：

在一实施例中，所述利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径，包括：

在一实施例中，所述蒙塔卡洛策略梯度表示为：

其中，

是梯度计算符；

是随机策略的参数，

是对

的期望值；

是在时刻t采取的路径动作；

为预设的奖励函数。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请图1实施例提供的产品推荐路径生成方法的步骤。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种产品推荐路径生成方法，其特征在于，所述方法包括：

根据所述业务流程信息确定各个业务数据在业务流程中要到达某一业务节点需要完成的流程或者必须准备的数据，和与当前业务节点相邻的下一业务节点的信息或者与当前业务节点相邻的上一业务节点的信息；对各个业务数据在业务流程中要到达某一业务节点需要完成的流程或者必须准备的数据，以及与当前业务节点相邻的下一业务节点的信息或者与当前业务节点相邻的上一业务节点的信息进行聚合，得到所述目标产品对应业务数据的知识图谱；

其中，所述知识图谱包括预先确定的需要向目标客户推荐的产品对应业务数据、所述业务数据在业务流程中经过的各个业务节点和各个所述业务节点之间的路径关系；

通过注意力机制构造所述业务数据、各个所述业务节点和各个所述业务节点之间的路径对应的离散原子符号的三元组，基于所述三元组训练预设的聚类模型，将各个业务节点嵌入至目标产品对应的业务流程中；根据嵌入各个所述业务节点的所述业务流程的节点信息包括的业务节点在业务流程中的位置信息，得到状态向量；其中，业务节点在业务流程中的位置信息为业务流程中对应的该业务节点在知识图中的位置；

2.根据权利要求1所述的产品推荐路径生成方法，其特征在于，所述根据所述状态向量，从所述目标产品对应业务数据在业务流程中经过的各个业务节点中选择出目标业务节点，包括：

获取所述目标路径上各个路径节点信息；

3.根据权利要求2所述的产品推荐路径生成方法，其特征在于，所述马尔科夫策略网络为监督策略网络；所述构建目标路径的马尔科夫策略网络，基于所述目标业务节点构建所述马尔科夫策略网络中的随机策略，包括：

4.根据权利要求3所述的产品推荐路径生成方法，其特征在于，所述利用梯度下降算法更新所述马尔科夫策略网络的参数，直至所述马尔科夫策略网络输出所述目标产品的推荐路径，包括：

5.根据权利要求4所述的产品推荐路径生成方法，其特征在于，所述蒙塔卡洛策略梯度表示为：

其中，

是梯度计算符；

是随机策略的参数，

是对

的期望值；

是在时刻t采取的路径动作；

为预设的奖励函数。

6.一种产品推荐路径生成装置，其特征在于，包括：

确定模块，用于获取目标产品的业务数据和与所述业务数据相关联的业务流程信息；

得到模块，用于通过注意力机制构造所述业务数据、各个所述业务节点和各个所述业务节点之间的路径对应的离散原子符号的三元组，基于所述三元组训练预设的聚类模型，将各个业务节点嵌入至目标产品对应的业务流程中；根据嵌入各个所述业务节点的所述业务流程的节点信息包括的业务节点在业务流程中的位置信息，得到状态向量；其中，业务节点在业务流程中的位置信息为业务流程中对应的该业务节点在知识图中的位置；

7.一种产品推荐路径生成设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的产品推荐路径生成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的产品推荐路径生成方法的步骤。