CN113360772A

CN113360772A - 一种可解释性推荐模型训练方法与装置

Info

Publication number: CN113360772A
Application number: CN202110754850.0A
Authority: CN
Inventors: 赵愉悦; 谢海永; 吴曼青
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-07
Anticipated expiration: 2041-07-02
Also published as: CN113360772B

Abstract

本公开提供了一种可解释性推荐模型训练方法与装置，该方法包括：获取多位用户的用户行为的时间序列；基于所述时间序列处理初始知识图谱，获取时序知识图谱；通过嵌入联合学习模型，得到所述时序知识图谱的特征向量，其中，所述特征向量包括实体特征向量和关系特征向量；以及根据所述特征向量训练初始模型，得到目标推荐模型。

Description

一种可解释性推荐模型训练方法与装置

技术领域

本公开涉及人工智能领域，更具体地，涉及一种可解释性推荐模型训练方法和一种可解释性推荐模型训练装置。

背景技术

在信息科技飞速发展的今天，通过推荐系统可以给数十亿网络用户筛选内容并且做出决策，比如电子购物，听音乐，看视频等。

在实现本公开构思的过程中，发明人发现当前推荐系统的可解释性低，导致用户体验不佳。

发明内容

有鉴于此，本公开提供了一种可解释性推荐模型训练方法和装置，以解决相关技术中对推荐系统的解释路径的说服性不够充分，解释的鲁棒性不足的问题。

本公开实施例的一方面提供了一种可解释性推荐模型训练方法，包括：获取多位用户的用户行为的时间序列；基于上述时间序列处理初始知识图谱，获取时序知识图谱；通过嵌入联合学习模型，得到上述时序知识图谱的特征向量，其中，上述特征向量包括实体特征向量和关系特征向量；以及根据上述特征向量训练初始模型，得到目标推荐模型。

根据本公开的实施例，上述初始知识图谱包括实体和所述实体之间的初始交互关系；其中，上述基于所述时间序列处理初始知识图谱，获取时序知识图谱，包括：基于高斯混合模型分析所述时间序列，得到时序交互关系；以及使用上述时序交互关系替代所述初始交互关系，得到上述时序知识图谱。

根据本公开的实施例，上述时间序列中包括n个时间戳，其中，所述n为正整数；其中，上述基于高斯混合模型分析所述时间序列，得到时序交互关系，包括：将上述n个时间戳映射到时间特征空间中，得到n个时间向量；采用高斯混合模型对上述n个时间向量进行聚类，获取上述n个时间戳的聚类结果；以及基于上述聚类结果，得到上述时序交互关系。

根据本公开的实施例，上述通过嵌入联合学习模型，得到上述时序知识图谱的特征向量，包括：将上述时序知识图谱映射到向量空间，得到上述知识图谱的多个三元组，其中，每一个上述三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量；根据上述多个三元组，构建上述嵌入联合学习模型的第一目标函数；以及求解所述第一目标函数，得到上述时序知识图谱的特征向量。

根据本公开的实施例，上述初始关系特征向量归属于多个时间簇；其中，上述根据上述多个三元组，构建上述嵌入联合学习模型的第一目标函数，包括：根据负采样方法确定上述多个三元组的第一损失函数；根据第一约束条件确定上述多个三元组的第二损失函数，其中，上述第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离；根据第二约束条件确定上述多个三元组的第三损失函数，其中，上述第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值；以及基于上述第一损失函数、上述第二损失函数和上述第三损失函数，确定上述嵌入联合学习模型的第一目标函数。

根据本公开的实施例，上述求解上述第一目标函数，得到上述时序知识图谱的特征向量，包括：通过随机梯度下降法对上述第一目标函数的参数进行优化求解，以获取上述时序知识图谱的特征向量。

根据本公开的实施例，上述根据上述特征向量训练初始模型，得到目标推荐模型，包括：根据上述特征向量构建马尔可夫决策过程环境；以及在上述马尔可夫决策过程环境下，使用深度强化学习训练上述初始模型，以获取上述目标推荐模型。

根据本公开的实施例，上述马尔可夫决策过程环境中包括状态空间、动作空间和得分，其中，上述状态空间包括多个状态向量，上述动作空间包括多个动作向量；其中，上述根据上述特征向量构建马尔可夫决策过程环境，包括：根据上述特征向量，生成与每一位用户对应的状态向量，其中，上述状态向量包括初始状态向量、中间状态向量和终端状态向量；获取上述状态向量发生状态转移时生成的动作向量；以及根据上述终端状态向量生成上述终端状态向量对应的动作路径的得分，其中，上述动作路径包括上述用户的初始状态向量转移到上述终端状态向量的过程中生成的动作向量的集合。

根据本公开的实施例，上述在上述马尔可夫决策过程环境下，使用深度强化学习训练上述初始模型，以获取上述目标推荐模型，包括：对上述状态向量进行编码，得到编码后的状态向量；根据上述编码后的状态向量和上述动作路径构建第二目标函数；以及根据第三约束条件训练上述第二目标函数，得到上述目标推荐模型，其中，上述第三约束条件包括最大化上述动作路径的得分。

本公开实施例的另一个方面提供了一种可解释性推荐模型训练装置，包括获取模块、处理模块、特征提取模块和训练模块，其中：获取模块，用于获取多位用户的用户行为的时间序列；处理模块，用于基于上述时间序列处理初始知识图谱，获取时序知识图谱；特征提取模块，用于通过嵌入联合学习模型，得到上述时序知识图谱的特征向量，其中，上述特征向量包括实体特征向量和关系特征向量；以及训练模块，用于根据上述特征向量训练初始模型，得到目标推荐模型。

从上述技术方案可以看出，本公开的实施例至少具有以下有益效果：

通过采用将时间序列的时序信息导入知识图谱中，获取时序知识图谱，然后通过嵌入联合学习模型获取时序知识图谱的特征向量，并利用提取得到的特征向量进行模型的训练的技术方案，至少部分地解决了推荐系统的可解释性低的技术问题，从而有效促进了推荐可解释性的实现，提升了解释的鲁棒性。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1示意性示出了根据本公开实施例的可解释性推荐模型训练方法的流程图。

图2示意性示出了根据本公开另一实施例的可解释性推荐模型训练方法的流程图。

图3示意性示出了根据本公开实施例的可解释性推荐模型训练装置的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在相关技术中，可解释性推荐方法的解释形式为基于知识图谱推理的可解释性推荐。它能够得到推荐商品，同时能够给出知识图谱中从用户到商品之间对应的路径解释。

然而，已有的可解释性方法均未考虑到时间信息对解释的影响，这样生成的解释路径不能随着不同推荐场景进行动态调整，从而导致解释路径的说服性不够充分。

有鉴于此，本公开的实施例提供了一种基于时间信息的知识图谱推理可解释性推荐模型，来使用时间信息促进生成更具鲁棒性的推荐解释。具体地，本公开实施例提供了一种可解释性推荐模型训练方法及装置，该方法包括：获取多位用户的用户行为的时间序列；基于所述时间序列处理初始知识图谱，获取时序知识图谱；通过嵌入联合学习模型，得到所述时序知识图谱的特征向量，其中，所述特征向量包括实体特征向量和关系特征向量；以及根据所述特征向量训练初始模型，得到目标推荐模型。

如图1所示，该方法包括操作S101～S104。

在操作S101，获取多位用户的用户行为的时间序列。

根据本公开的实施例，用户行为的时间序列中可以包括多个序列值，每一个序列值可以用于表示该用户的一个行为发生的时间。

在操作S102，基于时间序列处理初始知识图谱，获取时序知识图谱。

根据本公开的实施例，初始知识图谱中可以包括多个实体和多个实体之间的关系，例如，初始知识图谱可以包括“用户”和“商品”这两个实体，并且这两个实体之间可以存在“购买”这一关系。

根据本公开的实施例，可以通过对时序序列进行分析，将时序序列中的各个序列值按合适的粒度分为不同的时序类别，从而同原知识图谱一同构建为时序知识图谱。

根据本公开的实施例，时序知识图谱中包含的实体之间的关系还具有时间信息，例如，在时序知识图谱中“用户”和“商品”这两个实体之间的“购买”关系中还可以包括“在X月X日”这一时间信息。

根据本公开的实施例，通过将时间序列的时间信息导入初始知识图谱中，从而得到时序知识图谱，实现了知识图谱中实体间的关系的动态调整。

在操作S103，通过嵌入联合学习模型，得到时序知识图谱的特征向量，其中，特征向量包括实体特征向量和关系特征向量。

根据本公开的实施例，实体特征向量和关系特征向量可以是时序知识图谱包含的实体和关系在向量空间的映射。

根据本公开的实施例，时序知识图谱包含的实体和关系在向量空间的映射的初始向量可以是任意设置，通过嵌入联合学习模型，可以为这些初始向量设置约束条件，在训练收敛后，可以获取时序知识图谱的特征向量。

根据本公开的实施例，通过使用嵌入联合学习模型，对时序知识图谱的实体和关系进行表示学习，有效提升时序知识图谱的时序表示程度，并实现了时序知识图谱的特征向量的提取，以便于进行后续的模型训练。

在操作S104，根据特征向量训练初始模型，得到目标推荐模型。

根据本公开的实施例，通过采用将时间序列的时序信息导入知识图谱中，获取时序知识图谱，然后通过嵌入联合学习模型获取时序知识图谱的特征向量，并利用提取得到的特征向量进行模型的训练的技术方案，至少部分地解决了推荐系统的可解释性低的技术问题，从而有效促进了推荐可解释性的实现，提升了解释的鲁棒性。

如图2所示，该可解释性推荐模型训练方法具体包括操作 S201～S203。

在操作S201中，基于高斯混合模型分析时间序列。

根据本公开的实施例，初始知识图谱可以包括实体和实体之间的初始交互关系；其中，基于时间序列处理初始知识图谱，获取时序知识图谱，包括：基于高斯混合模型分析时间序列，得到时序交互关系；以及使用时序交互关系替代初始交互关系，得到时序知识图谱。

根据本公开的实施例，获取的用户时间序列中可以包括n个时间戳，其中，n为正整数；其中，基于高斯混合模型分析时间序列，得到时序交互关系，包括：将n个时间戳映射到时间特征空间中，得到n个时间向量。

根据本公开的实施例，采用高斯混合模型对n个时间向量进行聚类，获取n个时间戳的聚类结果；以及基于聚类结果，得到时序交互关系。

例如，可以针对用户对商品购买的时间序列T＝{t₁，t₂，...，t_n}，构建高斯混合模型。其中该时间序列的每个时间戳都被映射到时间特征空间

中，可以得到维度为m的时间向量。

根据本公开的实施例，对于第i个时间戳

被第k个高斯模型生成的概率可以如公式(1)所示：

其中，N(·)为高斯模型，μ_j，σ_j为第j个高斯模型的均值和方差，π_j为对应第j个高斯模型的权重。l为聚类簇数。

根据本公开的实施例，可以采用期望最大化算法迭代求解公式(1)，迭代分两部分完成：a.E步，求期望。通过求解概率Q函数，在当前参数给定的情况下，已知观测变量X，求出隐藏变量的概率。b.M 步，最大化Q函数，在当前的到的隐藏变量和观测变量下，求解新的参数使当前状态发生的概率更高。

根据本公开的实施例，通过期望最大化算法求解公式(1)后，时序交互关系

可以如公式(2)所示：

其中，w_i＝[w_i(1)，w_i(2)，...，w_i(l)]表示第i个时间戳

分别被l个高斯模型生成的概率，

为使用高斯混合模型拓展出的时间关系。原知识图谱中的交互关系R将被聚类时间关系

替代，从而实现了时序知识图谱的搭建。

通过本公开的实施例，可以采用高斯混合模型分析时间序列，将时间序列的时序信息导入知识图谱中，获取时序知识图谱。

在操作S202中，通过嵌入联合学习模型，得到时序知识图谱的特征向量。

根据本公开的实施例，可以将时序知识图谱映射到向量空间，得到知识图谱的多个三元组，每一个三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量。

根据本公开的实施例，可以根据多个三元组，构建嵌入联合学习模型的第一目标函数；以及求解第一目标函数，得到时序知识图谱的特征向量。

根据本公开的实施例，初始关系特征向量归属于多个时间簇；其中，根据多个三元组，构建嵌入联合学习模型的第一目标函数，包括：根据负采样方法确定多个三元组的第一损失函数；根据第一约束条件确定多个三元组的第二损失函数，第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离；可以根据第二约束条件确定多个三元组的第三损失函数，第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值；以及可以基于第一损失函数、第二损失函数和第三损失函数，确定嵌入联合学习模型的第一目标函数。

根据本公开的实施例，可以求解第一目标函数，得到时序知识图谱的特征向量，包括：通过随机梯度下降法对第一目标函数的参数进行优化求解，以获取时序知识图谱的特征向量。

根据本公开的实施例，为获取时序知识图谱的特征向量，除了采用高效的翻译嵌入算法之外，还叠加深度度量学习方法增加时间约束，组成联合学习模型进行学习。

例如，针对翻译嵌入算法，首先将实体和关系映射到d维向量空间，得到e_h，e_t，

并且使得嵌入满足翻译准则e_h+r≈e_t。因此，给定一个知识图谱三元组，翻译嵌入得分函数可以如公式(3)所示：

其中，g_r(h，t)用于表示向量e_h+r同向量e_t之间的距离，更大的得分函数g_r(h，t)意味着三元组(h，r，t)更可能成立。

根据本公开的实施例，第一损失函数可以通过负采样技术以及成对排序损失确定，如公式(4)所示：

其中，

并且(h，r，t′) 通过随机采样尾实体得到，σ(·)表示sigmoid函数。

根据本公开的实施例，为了使不同时间簇的初始关系特征向量之间的距离更远，相同时间簇的初始关系特征向量距离更近，可以通过叠加深度度量学习算法来进行约束，从而确定第二损失函数，如公式 (5)所示：

其中，d(x，y)表示向量x和向量y之间的欧氏距离，

为从小批量样本D中采样得到的关系嵌入向量，

为小批量样本D 中相对于锚点得到的最难的正例和负例嵌入，α为余量。公式(5)能够使得最难的关系三元组向量更为多样以及平滑，同时持续地通过将锚点收敛到局部最优解决距离损失问题。

根据本公开的实施例，为了保证相同时间簇的初始关系特征向量之间的收敛性，第三损失函数如公式(6)所示：

其中，

表示第i个关系类别嵌入，属于第k个时间关系簇。同时

为第k个关系簇中心嵌入向量。

根据本公开的实施例，基于第一损失函数、第二损失函数和第三损失函数，可以确定时序知识图谱嵌入联合学习的第一目标函数，如公式(7)所示：

其中，λ和η为超参。

根据本公开的实施例，第一目标函数可以通过Adam、随机梯度下降法等方法进行求解。

通过本公开的实施例，时序知识图谱嵌入联合学习模型能够获取时序知识图谱的特征向量，在三元组粒度上对实体和关系进行建模，作为正则化器的同时将时序关系融合进语义表示中，大大提高了时序知识图谱的时序表示程度，为可解释性推荐打下基础。

在操作S203中，根据特征向量训练初始模型，得到目标推荐模型。

根据本公开的实施例，根据特征向量可以构建马尔可夫决策过程环境；以及在马尔可夫决策过程环境下，可以使用深度强化学习训练初始模型，以获取目标推荐模型。

根据本公开的实施例，马尔可夫决策过程环境中包括状态空间、动作空间和得分，状态空间包括多个状态向量，动作空间包括多个动作向量。

根据本公开的实施例，根据特征向量构建马尔可夫决策过程环境，包括：根据特征向量，生成与每一位用户对应的状态向量，状态向量包括初始状态向量、中间状态向量和终端状态向量；获取状态向量发生状态转移时生成的动作向量。

根据本公开的实施例，根据终端状态向量生成终端状态向量对应的动作路径的得分，动作路径包括用户的初始状态向量转移到终端状态向量的过程中生成的动作向量的集合。

根据本公开的实施例，在马尔可夫决策过程环境下，使用深度强化学习训练初始模型，以获取目标推荐模型，包括：对状态向量进行编码，得到编码后的状态向量；根据编码后的状态向量和动作路径构建第二目标函数；以及根据第三约束条件训练第二目标函数，得到目标推荐模型，其中，第三约束条件包括最大化动作路径的得分。

根据本公开的实施例，马尔可夫决策过程环境的用途有两点：a. 提供智能体在当前图谱中的搜寻状态以及可用的动作空间；b.对智能体策略采纳的当前路径同已观察到的用户交互做出评估，给出反馈奖励。

根据本公开的实施例，构建的时序信息强化推理的马尔可夫决策过程环境搭建信息如下：

状态：初始状态为

第t步的状态定义为s_t＝(u，h_t，e_t)。其中

表示待推荐的用户实体，e_t为推理器第t步到达的实体，h_t为相对于第t步之前的推理历史。其中为了控制模型大小，避免过多的计算资源占用，这里涉及的h_t均可以采用k步历史记录来编码，具体为：

动作：对每个时间t产生的状态s_t，推理器相应地为其生成动作

其中e_t+1为路径的下一个实体，r_t+1为连接实体e_t和实体e_t+1的关系，

为动作空间。

在完成对状态和动作的定义后，还可以定义如公式(8)所示的状态转移函数：

s_t+1＝δ(s_t，a_t)＝{u，e_t-k，...，r_t，e_t，r_t+1，e_t+1} (8)

其中，s_t表示第t个状态，a_t表示从第t个状态转移到第t+1个状态进行的动作。

奖励：由于对于推荐系统中的任何一个用户，并不能给出明确的奖励目标，因此本公开的实施例采用软奖励的方式对推理路径的好坏进行建模，当推理器到达终端状态s_T＝(u，h_T，e_T)时，奖励可以如公式 (9)所示：

其中，g_R(u，v)为时序得分函数，终端实体

奖励值限制在区间[0，1]中。

根据本公开的实施例，可以根据待推荐用户的购买历史时间，设计个性化交互关系来建模时序奖励。具体来说，对于用户u，及其交互历史h_u，交互关系

可以如公式(10)所示：

其中，

为根据用户u的交互历史

提取的权重，q为h_u的长度。本发明对权重

计算采用统计方法确定，第k个交互关系的权重

的计算可以如公式(11) 所示：

其中，I(·)为指示函数。公式(11)表示权重

越大，

交互在用户历史h_u中出现频率越高。

根据本公开的实施例，目标推荐模型可以如公式(12)所示：

其中，·表示内积，

为实体嵌入偏差，

为推理得到的终端商品。至此，时序强化推理的马尔可夫决策过程环境全部搭建完毕。

根据本公开的实施例，采用深度强化学习在马尔可夫决策过程环境上进行推理学习。由于输入状态长度不一致，可以如公式(13)所示采用双向LSTM函数对状态向量进行编码：

路径推理始于

对于路径长度小k跳的历史交互，采用不足补零的方式进行表示，W₁为线性参数。接着可以采用策略/价值函数进行训练，如公式(14)所示：

其中，W_a，W_v为训练参数。这两个网络可以通过最大化时序知识图谱中的用户u的期望收益进行训练，如公式(15)所示：

训练步骤可以采用策略梯度下降学习参数Θ，如公式(16)所示：

其中G表示从状态s_t到终端状态s_T之间的折扣累计收益。

根据本公开的实施例，利用一种针对推荐系统的不均衡时间序列建立基于高斯混合模型的时序知识图谱，同时与时序知识图谱嵌入联合学习方法相结合，具有在引进时序信息进行图谱嵌入的同时，保留原有知识图谱结构信息和语义信息的优势，从而得到相对于传统知识图谱嵌入信息量更为丰富的图谱表示。

通过本公开的实施例，基于解释路径不能随着不同推荐场景进行动态调整，导致解释路径的说服性不够充分的问题，本公开的实施例提出了时序信息强化推理算法，在建立的时序知识图谱基础上搭建时间敏感马尔可夫决策过程环境，同时采用深度学习和强化学习相结合的方式，根据用户历史信息以及不同推荐时间场景中自动推理出时序相关的推荐结果，保留推理路径作为模型可解释性的推理依据。该算法充分利用了时序信息在可解释性推荐中的重要性，并且融合了深度学习和强化学习各自的特有优势，进一步促进可解释性的实现，提高了解释路径的说服性及解释的鲁棒性。

图3示意性示出了一种可解释性推荐模型训练装置的框图。

如图3所示，该训练装置包括获取模块301、处理模块302、特征提取模块303和训练模块304。

获取模块301，用于获取多位用户的用户行为的时间序列。

处理模块302，用于基于时间序列处理初始知识图谱，获取时序知识图谱。

特征提取模块303，用于通过嵌入联合学习模型，得到时序知识图谱的特征向量，其中，特征向量包括实体特征向量和关系特征向量。

训练模块304，用于根据特征向量训练初始模型，得到目标推荐模型。

根据本公开的实施例，初始知识图谱包括实体和实体之间的初始交互关系。

根据本公开的实施例，处理模块302包括第一处理单元及第二处理单元。其中，第一处理单元用于基于高斯混合模型分析时间序列，得到时序交互关系；第二处理单元用于使用时序交互关系替代初始交互关系，得到时序知识图谱。

根据本公开的实施例，时间序列中包括n个时间戳，n为正整数；

根据本公开的实施例，第一处理单元包括第一处理子单元、第二处理子单元和第三处理子单元。其中，第一处理子单元用于将n个时间戳映射到时间特征空间中，得到n个时间向量；第二处理子单元用于采用高斯混合模型对n个时间向量进行聚类，获取n个时间戳的聚类结果；第一处理子单元用于基于聚类结果，得到时序交互关系。

根据本公开的实施例，特征提取模块303包括第一特征提取单元、第二特征提取单元和第三特征提取单元。其中，第一特征提取单元用于将时序知识图谱映射到向量空间，得到知识图谱的多个三元组，其中，每一个三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量；第二特征提取单元用于根据多个三元组，构建嵌入联合学习模型的第一目标函数；第三特征提取单元用于求解第一目标函数，得到时序知识图谱的特征向量。

根据本公开的实施例，初始关系特征向量归属于多个时间簇；

根据本公开的实施例，第二特征提取单元包括第一特征提取子单元、第二特征提取子单元、第三特征提取子单元和第四特征提取子单元。其中，第一特征提取子单元用于根据负采样方法确定多个三元组的第一损失函数；第二特征提取子单元用于根据第一约束条件确定多个三元组的第二损失函数，其中，第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离；第三特征提取子单元用于根据第二约束条件确定多个三元组的第三损失函数，其中，第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值；第四特征提取子单元用于基于第一损失函数、第二损失函数和第三损失函数，确定嵌入联合学习模型的第一目标函数。

根据本公开的实施例，第三特征提取单元还用于通过随机梯度下降法对第一目标函数的参数进行优化求解，以获取时序知识图谱的特征向量。

根据本公开的实施例，训练模块304包括第一训练单元和第二训练单元。其中，第一训练单元用于根据特征向量构建马尔可夫决策过程环境；第二训练单元用于在马尔可夫决策过程环境下，使用深度强化学习训练初始模型，以获取目标推荐模型。

根据本公开的实施例，马尔可夫决策过程环境中包括状态空间、动作空间和得分，其中，状态空间包括多个状态向量，动作空间包括多个动作向量。

根据本公开的实施例，第一训练单元包括第一训练子单元、第二训练子单元和第三训练子单元。其中，第一训练子单元用于根据特征向量，生成与每一位用户对应的状态向量，其中，状态向量包括初始状态向量、中间状态向量和终端状态向量；第二训练子单元用于获取状态向量发生状态转移时生成的动作向量；第三训练子单元用于根据终端状态向量生成终端状态向量对应的动作路径的得分，其中，动作路径包括用户的初始状态向量转移到终端状态向量的过程中生成的动作向量的集合。

根据本公开的实施例，第二训练单元包括第四训练子单元、第五训练子单元和第六训练子单元。其中，第四训练子单元用于对状态向量进行编码，得到编码后的状态向量；第五训练子单元用于根据编码后的状态向量和动作路径构建第二目标函数；第六训练子单元用于根据第三约束条件训练第二目标函数，得到目标推荐模型，其中，第三约束条件包括最大化动作路径的得分。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中可解释性推荐模型训练装置部分与本公开的实施例中可解释性推荐模型训练方法部分是相对应的，可解释性推荐模型训练装置部分的描述具体参考可解释性推荐模型训练方法部分，在此不再赘述。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种可解释性推荐模型训练方法，包括：

获取多位用户的用户行为的时间序列；

基于所述时间序列处理初始知识图谱，获取时序知识图谱；

通过嵌入联合学习模型，得到所述时序知识图谱的特征向量，其中，所述特征向量包括实体特征向量和关系特征向量；以及

根据所述特征向量训练初始模型，得到目标推荐模型。

2.根据权利要求1所述的方法，其中，所述初始知识图谱包括实体和所述实体之间的初始交互关系；

其中，所述基于所述时间序列处理初始知识图谱，获取时序知识图谱，包括：

基于高斯混合模型分析所述时间序列，得到时序交互关系；以及

使用所述时序交互关系替代所述初始交互关系，得到所述时序知识图谱。

3.根据权利要求2所述的方法，其中，所述时间序列中包括n个时间戳，其中，所述n为正整数；

其中，所述基于高斯混合模型分析所述时间序列，得到时序交互关系，包括：

将所述n个时间戳映射到时间特征空间中，得到n个时间向量；

采用高斯混合模型对所述n个时间向量进行聚类，获取所述n个时间戳的聚类结果；以及

基于所述聚类结果，得到所述时序交互关系。

4.根据权利要求1所述的方法，其中，所述通过嵌入联合学习模型，得到所述时序知识图谱的特征向量，包括：

将所述时序知识图谱映射到向量空间，得到所述知识图谱的多个三元组，其中，每一个所述三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量；

根据所述多个三元组，构建所述嵌入联合学习模型的第一目标函数；以及

求解所述第一目标函数，得到所述时序知识图谱的特征向量。

5.根据权利要求4所述的方法，其中，所述初始关系特征向量归属于多个时间簇；

其中，所述根据所述多个三元组，构建所述嵌入联合学习模型的第一目标函数，包括：

根据负采样方法确定所述多个三元组的第一损失函数；

根据第一约束条件确定所述多个三元组的第二损失函数，其中，所述第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离；

根据第二约束条件确定所述多个三元组的第三损失函数，其中，所述第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值；以及

基于所述第一损失函数、所述第二损失函数和所述第三损失函数，确定所述嵌入联合学习模型的第一目标函数。

6.根据权利要求4所述的方法，其中，所述求解所述第一目标函数，得到所述时序知识图谱的特征向量，包括：

通过随机梯度下降法对所述第一目标函数的参数进行优化求解，以获取所述时序知识图谱的特征向量。

7.根据权利要求1所述的方法，其中，所述根据所述特征向量训练初始模型，得到目标推荐模型，包括：

根据所述特征向量构建马尔可夫决策过程环境；以及

在所述马尔可夫决策过程环境下，使用深度强化学习训练所述初始模型，以获取所述目标推荐模型。

8.根据权利要求7所述的方法，其中，所述马尔可夫决策过程环境中包括状态空间、动作空间和得分，其中，所述状态空间包括多个状态向量，所述动作空间包括多个动作向量；

其中，所述根据所述特征向量构建马尔可夫决策过程环境，包括：

根据所述特征向量，生成与每一位用户对应的状态向量，其中，所述状态向量包括初始状态向量、中间状态向量和终端状态向量；

获取所述状态向量发生状态转移时生成的动作向量；以及

根据所述终端状态向量生成所述终端状态向量对应的动作路径的得分，其中，所述动作路径包括所述用户的初始状态向量转移到所述终端状态向量的过程中生成的动作向量的集合。

9.根据权利要求8所述的方法，其中，所述在所述马尔可夫决策过程环境下，使用深度强化学习训练所述初始模型，以获取所述目标推荐模型，包括：

对所述状态向量进行编码，得到编码后的状态向量；

根据所述编码后的状态向量和所述动作路径构建第二目标函数；以及

根据第三约束条件训练所述第二目标函数，得到所述目标推荐模型，其中，所述第三约束条件包括最大化所述动作路径的得分。

10.一种可解释性推荐模型训练装置，包括：

获取模块，用于获取多位用户的用户行为的时间序列；

处理模块，用于基于所述时间序列处理初始知识图谱，获取时序知识图谱；

特征提取模块，用于通过嵌入联合学习模型，得到所述时序知识图谱的特征向量，其中，所述特征向量包括实体特征向量和关系特征向量；以及

训练模块，用于根据所述特征向量训练初始模型，得到目标推荐模型。