CN108921657B

CN108921657B - 一种基于知识增强记忆网络的序列推荐方法

Info

Publication number: CN108921657B
Application number: CN201810658783.0A
Authority: CN
Inventors: 赵鑫; 黄瑾; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2021-06-29
Anticipated expiration: 2038-06-25
Also published as: CN108921657A

Abstract

本发明提供一种基于知识增强记忆网络的序列推荐方法，利用GRU获取用户的序列偏好表示，利用KV‑MN来存储知识库信息，并通过KV‑MNs构建基于属性的用户偏好表示，将所述序列偏好表示和所述基于属性的用户偏好表示合并生成最终的用户表示。使得本发明能够具有两类模型的优点；将产品和知识库中的实体关联在一起，使用了大规模的知识库信息提升了序列推荐结果；通过使用知识库中的实体属性信息，提高了KV‑MNs的语义表示能力，从而使得推荐过程在一定程度上可以被解释。

Description

一种基于知识增强记忆网络的序列推荐方法

技术领域

本发明涉及一种序列推荐方法，特别是一种基于知识增强记忆网络的序列推荐方法。

背景技术

随着计算机技术的迅猛发展，在各种各样平台上推荐系统在匹配用户的需求上扮演着越来越重要的角色。准确地描述并理解用户动态变化的兴趣爱好是构建一个有效的推荐系统过程中极为关键的一点。为了实现这个目标，人们提出使用序列推荐来更好地刻画用户的需求，这种推荐任务旨在根据用户历史交互记录连续地为用户推荐可能需要的产品。

典型的传统推荐方法是协同过滤(Collaborative filtering，简称CF)。这个方法利用具有相似兴趣爱好的用户信息来帮助推荐，相关的模型包括K-近邻算法，矩阵分解算法等。通常情况下推荐任务能被分成两类，隐式反馈任务和显示反馈任务。对于隐式反馈任务，基于贝叶斯框架的个性化排序算法(Bayesian Personalized Ranking，简称BPR)是一个能够优化基于成对排名损失函数的潜在因子模型。而最近深度神经网络也被使用去提高对用户-产品交互信息进行建模的能力。比较有效的算法包括多层感知机以及去噪自动编码器。

传统的推荐方法，如标准的矩阵分解算法，并不能很好地解决序列推荐任务，因为这些模型只是静态地刻画用户和产品的信息。为了获取序列信息，FPMC模型提出通过使用马尔科夫链(Markov Chain)对用户的转移矩阵进行建模。但是FPMC仍然使用固定不变的表示向量作为用户的偏好表示。随着神经网络的复兴，许多研究试图采用强大的时序神经网络模型来做序列推荐，比如基于会话的序列推荐、基于用户的序列推荐以及基于注意力机制的序列推荐。基于循环神经网络的序列推荐模型对于提升序列推荐的结果十分有效。

这些模型通过将用户的历史交互记录编码成一个隐含向量表示来作为动态的用户表示并参与到预测下一个可能对的交互产品的任务中。尽管这个状态信息一定程度上能够编码顺序依赖关系，但它仍然在获取复杂的用户偏好上受限。因为这个状态向量被编码成一个高度抽象的向量，很难获取详细的用户偏好，比如用户在属性级别或者特征级别上的偏好。除此之外，隐含向量表示通常情况下很难被理解、解释。而在推荐系统里，可理解性是非常重要的一个因素。

发明内容

针对现有技术中存在的问题，本发明的目的在于提出了一种基于知识增强记忆网络的序列推荐方法，整合了GRU(门控循环神经网络，Gated Recurrent Unit)和KV-MN(键值对记忆网络，Key-Value Memory Network)，同时融入了知识库信息来增强KV-MN的语义表示。

为了实现上述目的，本发明的一种基于知识增强记忆网络的序列推荐方法为：

利用GRU获取用户的序列偏好表示，利用KV-MN来存储知识库信息，并通过KV-MNs构建基于属性的用户偏好表示，将所述序列偏好表示和所述基于属性的用户偏好表示合并生成最终的用户表示。

进一步，所述知识库由实体集合V，关系集合R以及知识库三元组<e₁，r，e₂>集合组成，所述知识库三元组<e₁，r，e₂>中，来自所述实体集合V的实体e₁，e₂之间存在关系r∈R。

进一步，基于GRU的推荐算法将每一个用户的交互序列编码成一个隐含向量表示，在生成序列推荐结果时，根据候选产品的推荐分数推荐给客户。

进一步，预先对所述知识库信息进行有效编码，从而获得实体和关系的特征表示向量。

进一步，所述KV-MNs使用每一个记忆槽存储一一对应的关键字向量和值向量，将产品的属性信息存为关键字向量以及将用户在属性上的偏好存为值向量，从而在属性级别上对用户长时间的偏好进行建模。

本发明的优点：通过使用基于知识增强的KV-MNs扩展了基于GRU的序列推荐模型，使得本发明能够具有两类模型的优点；将产品和知识库中的实体关联在一起，使用了大规模的知识库信息提升了序列推荐结果；通过使用知识库中的实体属性信息，提高了KV-MNs的语义表示能力，从而使得推荐过程在一定程度上可以被解释。

附图说明

图1为本发明的模型整体框架图；

图2为本发明的详细的模型框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1和图2所示的基于知识增强记忆网络的序列推荐方法的具体实施方式中。

首先进行形式化定义。在推荐系统中，用U表示用户集，I表示产品集。主要关注隐式反馈的推荐场景，即仅考虑用户u∈U是否在时间t时与产品i进行交互。按时间顺序对用户历史交互记录进行排序，即对于用户u∈U的交互序列为

其中使用

表示用户u在t时刻交互的产品而n_u表示用户交互记录中产品的数量。使用相对时间顺序来代替准确的时间数字来标记用户的历史记录。

除了用户的交互序列，假设存在一个知识库(Knowledge Base，简称KB)作为输入。知识库由一个实体集合V，关系集合R以及一个知识库三元组集合组成。在知识库三元组<e₁，r，e₂>中，来自实体集合V的实体e₁，e₂之间存在关系r∈R，这个三元组展示了知识库中的一个实例。例如，三元组<电影《阿凡达》，导演，詹姆斯·卡梅隆>表示电影《阿凡达》的导演是詹姆斯·卡梅隆。因为假设推荐系统中的产品集I可以在知识库中找到对应的实体集V，因此

通过将推荐系统中的产品和知识库中的实体对应起来，可以获取到相关的知识库三元组。

基于上述信息，序列推荐任务的定义如下，给定用户u的历史交互序列

去预测用户在n_u+1时刻可能交互的产品。该任务也可以被简单转换为基于购物车或者基于会话的推荐任务，即将第t时刻的产品

替换成一个子集

其中

表示用户在第t时刻交互的产品集合。考虑到便捷和清晰性，把推荐下一个产品的任务作为核心任务。

接下来，详细说明基于知识增强记忆网络的序列推荐方法。

循环神经网络(RNN)在抓取和刻画时序数据的时间依赖关系上十分有效。RNN模型主要的问题在于它在处理长序列上存在梯度消失问题。为了减轻这种问题，RNN的两种变种LSTM(长短期记忆神经网络，Long Short Term Memory)和GRU模型被提出。采用GRU网络作为基本的时序推荐算法，因为它比LSTM更简单、具有更少的参数。

给定用户u∈U的交互序列为{i₁，...，i_t}，基于GRU的推荐算法可以帮助计算出当前隐含状态向量

计算公式如下：

其中，

是产品i_t的特征向量，它可以预先学习然后固定或者在训练的过程中不断更新。在上述过程中，模型将每一个用户u∈U的交互序列编码成一个隐含向量表示

为了生成序列推荐结果，对所有的候选产品i按照推荐分数s_u，i，t从大到小进行排序，将得分高的产品推荐给用户，其中s_u，i，t的计算方法如下：

基于GRU的推荐算法将用户偏好编码成一个隐含向量表示，但是这个向量缺少详细的产品属性信息。而了解用户在属性上的详细偏好能有效地在理解性方面提升推荐的效果。本发明的模型将知识库中实体的属性信息添加到序列推荐模型上能有效地达到上述要求。尽管GRU网络能够拥有重置门和更新门，它记忆并保存长期数据信息的能力仍然有限。因此选择KV-MN来存储知识库信息，然后整合KV-MNs中的信息来辅助基本的序列推荐模型。

现有技术中使用各种各样的文本信息来提升推荐系统的推荐结果。本专利提出使用知识库信息。和传统的数据形式不同的是，知识库信息能够灵活地将不同领域实体的属性信息特征化。而且许多大规模的知识库都开源了，比如FREEBASE和YAGO。通过将推荐系统中的产品和知识库中的实体关联在一起，能够从各种各样的领域中获取丰富的产品属性信息。

给定一个产品i，令e_i表示其在知识库中的关联实体。因为知识库信息通常被表示成三元组，因此可以获取一些由实体e_i作为头实体或者尾实体的相关三元组(三元组被表示为<头实体，关系，尾实体>)。为了有效地编码知识库信息，学习得到了实体e_i的分布式表示向量

和关系r的分布式表示向量

常用的获取知识库信息表示的方法有TransE。该方法最小化损失函数

这种方法学习得到的知识库信息表示向量有效且简洁，能够被灵活地使用。

通过这种方法获取了实体和关系的特征表示向量。知识库中的关系通常指实体的属性信息。因此，使用关系向量来填充关键字矩阵。比如，对于每一个可能有效的属性a(即知识库中的关系r_a)，令k_a＝r_a。

记忆网络(MN)使用一个有大量数组插槽的外部记忆模块来存储和记忆信息。这个记忆模块使得MN能都捕捉长期的数据特征并对其建模。MN最原始的形式是直接存储原始的数据信息。为了近一步提高结构化信息以及知识信息的存储容量，Key-Value MemoryNetworks(简称KV-MNs)使用每一个记忆槽存储关键字向量(Key Vector)和值向量(ValueVector)，记忆槽中的关键字向量和值向量一一对应。这样的结构刚好和KB三元组结构(实体-属性-值)吻合。通过将产品的属性信息存为关键字向量以及将用户在属性上的偏好存为值向量，本发明的模型能在属性级别上对用户长时间的偏好进行建模。

假设产品集合中的产品和A种属性信息相关联，这些属性对于同一个领域中所有的产品都是共享的。比如，在“电影”领域，产品共享的属性包括演员，导演，类别等。把用户的KV-MN模块表示成一系列的向量对

其中

是属性a上的关键字向量，而

是用户u在属性a上的值向量。根据上述描述，通过合并关键字向量以及值向量，组成了一个所有用户共享的关键字记忆矩阵

(简称为关键字矩阵)和一个用户独有的值记忆矩阵

(简称为值矩阵)。值得注意的是，关键字矩阵K是所有用户共享的，因为关键字矩阵存放的是产品集中所有产品属性层面上的特征。而V^u对于每个用户u都是私有的，因为不同的用户在不同的属性上有不同的偏好。

使用KV-MNs模块的推荐算法如下。在第t时刻，将从GRU网络中学习得到的用户时序偏好表示作为KV-MNs的查询输入，这个查询输入被用来浏览和定位关键字矩阵中的关键字向量。然后使用“读操作”返回的结果联合值向量得到一个新的向量，这个向量就是KV-MNs模块得到的最终向量

由于

并不能直接和关键字向量进行运算，因此采用了多层感知机对

进行一个非线性的转换得到了

上述计算所用公式如下：

其中，

是一个给定查询向量

由KV-MNs模块产生的隐含向量，它表示了用户u在第t时刻在产品属性层面上的偏好特征。因此将

记为基于属性的用户偏好表示。实际上，根据用户u在属性上的偏好权重w_t，u，a，

其实是用户值向量的线性拼接。按照这种理解，希望

更能强调用户时序偏好，而

更能展示基于属性的用户偏好。这两部分相辅相成，能有效地提升推荐结果。

一旦，KV-MNs接收到用户u和产品i之间的一个新的交互记录，需要将产品对应的知识库信息e_i分解成属性级别的更新向量

该向量是产品i在属性a上的特征表示。这个想法是基于TransE模型损失函数中的距离公式||e₁+r-e₂||。因此，可以粗略地认为尾实体的向量表示等于头实体的向量表示和关系的向量表示之和。举例来说，对于电影《阿凡达》，在TransE算法中，e_阿凡达+r_导演≈e_{詹姆斯·卡梅隆}。所以可以使用e_阿凡达+r_导演来表示詹姆斯·卡梅隆这个实体向量。值得注意的是，并不直接使用e_{詹姆斯·卡梅隆}来表示詹姆斯·卡梅隆这个实体，因为知识库中存在一对多的关系，即实体的一个属性对应着多个实体，比如电影《阿凡达》有多位演员。因此

的计算公式如下：

对于KV-MNs的记忆网络，“写操作”使用产品的向量表示作为一个参考向量对用户的值向量进行更新，更新策略如下：

其中，首先计算得到一个门向量

来决定每个属性应该更新多少信息。z_a∈z表示对于属性a对应向量上的更新权重。然后根据更新向量

和门向量z_a计算得到更新后的向量

从而更新了存储用户在实体属性上的偏好值矩阵V^u。更新操作保证了模型可以动态地监控并保存用户在属性级别上长期的兴趣偏好。

完整的序列推荐模型是基于GRU网络的推荐算法和基于知识增强的KV-MNs的推荐算法的组合。给定用户u∈U的交互序列为{i₁，...，it}，首先使用基于GRU的推荐算法帮助计算出用户的时序偏好表示

然后，使用经过转换的

作为查询向量去读取KV-MNs中的信息，并获取相关的基于属性的用户偏好表示

使用向量拼接方法将两种表示拼接为一个单独的向量

作为用户u在第t时刻最终的的偏好表示。而对于产品集，进一步拼接产品在推荐领域的分布式表示和在知识库里的实体分布式表示，记为。

和

的维度都是L_H+L_E。使用用户和产品的最终表示的内积作为排序分数：

本专利的模型是基于知识增强的序列推荐模型，模型框架如图2所示。

在本专利的模型中，GRU和KV-MNs网络中所有的参数都要被学习。使用经典的基于贝叶斯后验优化的个性化排序算法预训练产品的向量表示q_i，该向量在参数学习的过程中固定不变。假设关键字向量被所有用户共享，使用知识库中关系的分布式表示填充关键字向量，同样该向量在参数学习过程中也固定不变。而对于其他参数，使用基于成对的损失函数对其进行优化，最终的损失函数为：

其中n_u表示训练集中用户历史交互序列的长度，

是与用户u不曾交互过的负采样产品集合，而σ(·)是sigmoid公式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。