CN110955826A

CN110955826A - 基于改进型循环神经网络单元的推荐系统

Info

Publication number: CN110955826A
Application number: CN201911088184.0A
Authority: CN
Inventors: 徐亚南; 朱燕民; 俞嘉地
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-04-03
Anticipated expiration: 2039-11-08
Also published as: CN110955826B

Abstract

一种基于改进型循环神经网络单元的推荐系统，包括：多用户行为数据编码器和多任务解码器，编码器基于用户的交互序列数据抽取用户的购物意图信息，并用隐藏状态序列表示，三个解码器分别对应不同的任务，根据挖掘到的用户购物意图分别完成预测下一个交互的物品和类别、判断两个序列是否属于同一个用户、推荐用户新的物品等三种任务。本发明通过两种循环神经网络来建模用户多种不同的行为数据；同时考虑到交互行为的复杂性，本发明利用多个循环神经网络，分别建模交互行为数据中不同商品类别层面的信息；此外，本发明通过多任务学习，给用户和物品学习具有商品类别等语义信息的向量表达，基于多种用户行为数据，缓解数据稀疏性问题，挖掘交互序列中包含的多种商品类别层面的信息，提升推荐效果。

Description

基于改进型循环神经网络单元的推荐系统

技术领域

本发明涉及的是一种互联网信息领域的技术，具体是一种基于改进型循环神经网络单元的推荐系统。

背景技术

基于协同过滤的推荐方法是使用用户与物品的交互历史记录，建模用户对物品的偏好程度，为用户推荐感兴趣的物品集合。但是，现有的协同过滤方法基本上都是基于单一的用户与物品交互数据，如评分或者购买等，而现实生活中可能同时存在多种用户行为，如购物网站上的点击、加入购物车、购买等。如果利用多种交互行为的数据就能够增加训练数据，解决推荐系统的数据稀疏性问题。然而，这些行为数据不能够简单地不加区别地使用。因为，不同类型的行为对用户的偏好情况表现程度是不同的。例如，用户的购买行为要比点击行为更能表现用户喜欢一个物品。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于改进型循环神经网络单元的推荐系统，通过两种循环神经网络来建模用户多种不同的行为数据；同时考虑到交互行为的复杂性，本发明利用多个循环神经网络，分别建模交互行为数据中不同商品类别层面的信息；此外，本发明通过多任务学习，给用户和物品学习具有商品类别等语义信息的向量表达，基于多种用户行为数据，缓解数据稀疏性问题，挖掘交互序列中包含的多种商品类别层面的信息，提升推荐效果。

本发明是通过以下技术方案实现的：

本发明涉及一种基于改进型循环神经网络单元的推荐系统，包括：多用户行为数据编码器和多任务解码器，其中：编码器基于用户的交互序列数据抽取用户的购物意图信息，并用隐藏状态序列表示，三个解码器分别对应不同的任务，根据挖掘到的用户购物意图分别完成预测下一个交互的物品和类别、判断两个序列是否属于同一个用户、推荐用户新的物品等三种任务。

本发明涉及上述系统的推荐方法，包括如下步骤：

步骤一，基于用户与物品交互记录，构建交互序列，每条记录包括物品的编号、物品的类别和交互行为类型；

步骤二，构建多个多行为循环神经网络，用于建模交互序列，生成隐藏状态序列，各个循环神经网络的隐藏状态序列包含了在不同商品类别层面的信息；

步骤三，基于隐藏状态序列构建预测下一个交互物品、判断两个序列是否属于同一个用户以及推荐用户新的物品三个任务；

步骤四，使用步骤二得到的交互序列训练所述多行为循环神经网络；

步骤五，根据每个用户的历史交互序列以及候选推荐物品，使用训练后的多行为循环神经网络获得用户对各个物品的偏好得分，将偏好得分最高的物品作为该用户的推荐结果。

技术效果

与现有技术相比，本发明通过建模用户的多种行为，解决了推荐系统的数据稀疏问题，提高了推荐效果，所设计的多种预测任务也对推荐效果的提升有帮助；由此产生的意料之外的技术效果包括：本发明所设计的神经网络学习到的物品向量表达包含了物品类别的语义信息。

附图说明

图1为用户多行为推荐模型整体结构图；

图2为Hard-MGRU神经网络单元结构示意图；

图3为Soft-MGRU神经网络单元结构图；

图4为本发明的方法在使用不同用户行为数据下的推荐结果示意图；

图5为本发明的方法在使用不同任务作为训练目标时的推荐结果示意图。

具体实施方式

如图1所示，为本实施例涉及一种建模用户多意图的推荐系统，包括：一个编码器和三个解码器，其中：编码器基于用户的交互序列数据抽取用户的购物意图信息，并用隐藏状态序列表示，三个解码器分别对应不同的任务，根据挖掘到的用户购物意图分别完成预测下一个交互的物品和类别、判断两个序列是否属于同一个用户、推荐用户新的物品等三种任务。

所述的编码器采用多用户行为门循环单元(Multi-behavior Gate RecurrentUnit，MGRU)包括：Hard-MGRU循环神经网络和Soft-MGRU循环神经网络，其中：Hard-MGRU循环神经网络针对不同的用户行为，使用不同的模型参数，相邻的用户行为之间使用循环神经网络的隐藏状态h_t传递信息；Soft-MGRU循环神经网络利用GRU(Gate Recurrent Unit)中的门结构来建模用户的不同行为并转换成低维的向量表达。

本实施例涉及上述系统的推荐方法，包括以下步骤：

步骤1、训练数据准备：将用户与物品的交互记录数据，处理成后续模型所需要的格式。用户与物品的交互记录可以表示为(x_t,c_t,b_t)，其中：x_t是物品的编号，c_t是该物品的类别，b_t是交互行为的类型。本实施例令B＝{b₁,b₂,…,b_R}为所有交互行为的类别集合，包括用户点击、加入购物车、购买等。针对一个用户u，将他的交互记录根据时间进行排序以构成多交互行为的序列，也就是S_u＝{(x₁,c₁,b₁),(x₂,c₂,b₂),…,(x_T,c_T,b_T)}。所有用户的交互序列的集合，就构成了模型的训练数据，即H＝{S₁,S₂,…,S_u,…,S_n}，其中：n表示用户的数量。

基于用户的行为数据，推荐结果表示为：给定一个用户的历史交互序列S_u＝{(x₁,c₁,b₁),(x₂,c₂,b₂),…,(x_T,c_T,b_T)}，预测用户下一个要购买的物品。

步骤2、如图1所示，使用多个循环神经网络建模用户的交互序列，每个循环神经网络对应序列包含的不同商品类别上的信息，具体为：针对输入序列S_u＝{(x₁,c₁,b₁),(x₂,c₂,b₂),…,(x_T,c_T,b_T)}，循环神经网络j输出对应的隐藏状态序列

其中：上标j为对应循环神经网络处理的结果。

步骤3、基于多个循环神经网络输出的隐藏状态序列，多任务解码器完成三个任务，具体为：针对每个循环神经网络j，编码器模块均生成一个隐藏状态序列

然后多任务解码器完成相关任务，即预测下一个交互物品任务、判断两个序列是否属于同一个用户以及推荐用户新的物品任务、给用户推荐新的物品任务。

所述的预测下一个交互物品任务，即预测的目标包括物品的编号和物品类别，具体为：根据从编码器中获取当前时刻的隐藏状态，因为本实施例使用多个循环神经网络来挖掘多种用户购物意图，所以对t时刻，具有多个隐藏状态，即

其中：m表示循环神经网络的个数；然后计算隐藏状态均值并聚合成向量

其中：h_t表示聚合后的向量；根据聚合后的向量，预测用户下一个要交互的物品编号和物品类别；

其中：

和分别表示用户下一个交互的物品是某个物品编号和类别的概率，W^I和W^C是相应的参数。

所述的判断两个序列是否属于同一个用户任务，即用户的交互序列数据表征用户的偏好情况，不同的用户对物品的偏好有很大差别，根据用户交互序列学到的隐藏向量，表征用户的购物意图，因此给定两个交互序列，判断其是否属于同一个用户，具体为：取出编码器的最后一个隐藏状态向量作为交互序列的表征，即h_T和h′_T分别表示两个交互序列的表征；然后拼接该两个向量后输入多层全连接神经网络中，得到该两个序列属于同一个用户的概率

其中：f(·)表示全连接神经网络。

所述的推荐用户新的物品任务，即依据序列数据的最后一个隐藏状态，用于计算用户对于所有物品的偏好值，具体为：将多个循环神经网络的最后一个隐藏状态，使用注意力机制进行聚合

其中：

为编码器的最后一个隐藏状态，m为循环神经网络个数；e_i为待估计偏好值的物品i的编号的低维向量表达，g(·)表示全连接神经网络，用于计算目标物品和各个隐藏状态的相似性，h表示聚合之后的向量；然后使用内积来计算用户对该物品的偏好值，即

当该用户在未来购买了该物品，则

否则

步骤4、模型训练：对应多任务解码器完成三个任务的损失函数分别为：

其中：Y＝Y⁺∪Y^-，分别是正样本和负样本集合，本实施例中针对每个正样本采样得到若干用户未购买的物品作为负样本；则全局损失函数L＝λ₁L₁+λ₂L₂+λ₃L₃，其中：λ_i为第i个任务的权重；再使用梯度下降法以学习获得最终的模型。

步骤5、物品推荐：以待测用户的历史交互序列作为输入，通过训练后的推荐模型得到该用户对于所有物品的偏好值

以偏好值最高的物品作为推荐结果。

如图2所示，所述的Hard-MGRU循环神经网络包括：六个矩阵乘法单元

三个点积乘法单元⊙、两个Sigmoid函数单元σ、双曲正切单元tanh、加法单元

和归一化单元Norm，其中：位于最下层的三个矩阵乘法单元分别接收当前的交互行为类型，从W^r、W^z、W^h中获得循环神经网络单元的参数矩阵，分别用于后续的更新门、重置门、隐藏状态的计算。中间两个乘法单元接收物品信息(p_t,q_t)，并分别输出至两个Sigmoid函数单元，分别计算重置门r_t和更新门z_t。前一个时刻的隐藏状态h_t-1、当前的交互物品信息p_t和物品类别信息q_t输入到中间部分的第三个矩阵乘法单元，然后输出至双曲正切单元，计算当前的隐藏状态

然后前一个时刻的隐藏状态h_t-1和以及当前的隐藏状态

分别与1-z_t和z_t输入到两个点积乘法单元，再输出至加法单元，计算得到

再

经过归一化单元，输出最终的隐藏状态h_t。

如图2所示，所述的Hard-MGRU循环神经网络是基于GRU模型进行的改进，该循环神经网络首先针对当前时刻t，用户的交互记录(x_t,c_t,b_t)中，把物品的编号和物品类别，从one-hot编码转换成低维的向量表达，即：p_t＝E^Ix_t，q_t＝E^Cc_t，其中：E^I和E^C分别是物品和类别的参数矩阵，p_t和q_t分别是对应的物品和物品类别的低维向量表达；根据用户当前的行为类别b_t选择循环神经网络单元的参数，即W^r＝W^rb_t，W^z＝W^zb_t，W^h＝W^hb_t，其中：b_t是用户行为类型的one-hot表达，粗体的W表示所有行为类型的参数矩阵，每一列对应一种行为类型，两者相乘表示从W中取出与当前行为类型对应的参数；然后将W^r、W^z、W^h转换为合适的形状作为循环神经网络单元参数矩阵(对于偏置参数采用同样方式处理)；然后将前面获得的物品和类别低维向量表达输入到循环神经网络单元中，生成当前时刻的隐藏状况h_t。

所述的Hard-MGRU循环神经网络中的重置门和更新门具体为：r_t＝σ(W^r[p_t,q_t]+b^r)；z_t＝σ(W^z[p_t,q_t]+b^z)；候选隐藏状态

当前的隐藏状态

归一化的隐藏状况

其中：σ(·)和tanh(·)分别是sigmoid函数和双曲正切函数，

表示

的向量长度，W和b分别是单元中的权值矩阵和偏置。

上述W^r、W^z、W^h参数和当前的行为类型b_t相关联。

上述模型为了同时捕获序列中多商品类别层面的信息，因此使用了多个Hard-MGRU循环神经网络来处理用户行为序列，这里使用

表示第j个循环神经网络在第t步的隐藏状态，第j个循环神经网络输出的隐藏状态序列可以表示为

如图3所示，所述的SoftMGRU循环神经网络包括：三个矩阵乘法单元

三个点积乘法单元(⊙)、两个Sigmoid函数单元(σ)、双曲正切单元(tanh)、加法单元

和归一化单元(Norm)，其中：第一和第二矩阵乘法单元接收物品信息和当前行为类别信息(p_t,q_t,a_t)，并分别输出至两个Sigmoid函数单元，分别计算重置门r_t和更新门z_t。前一个时刻的隐藏状态h_t-1、当前的交互物品信息p_t和物品类别信息q_t输入到第三个矩阵乘法单元，然后输出至双曲正切单元，计算当前的隐藏状态

然后前一个时刻的隐藏状态h_t-1和以及当前的隐藏状态

再

经过归一化单元，输出最终的隐藏状态h_t。

所述的Soft-MGRU循环神经网络利用GRU中的门结构来建模用户的不同行为，所有的用户行为类型共享，具体为：将用户行为进行低维向量表达a_t＝E^Bb_t；然后依次计算重置门和更新门以及当前的隐藏状态：r_t＝σ(W^r[p_t,q_t,a_t]+b^r)；z_t＝σ(W^z[p_t,q_t,a_t]+b^z)；

其中：重置门r_t和更新门z_t不仅依赖于当前的物品编号和物品类别，还依赖于当前的用户行为。

通过循环神经网络，每个循环神经网络以得到一个隐藏状态序列

经过具体实际实验，基于淘宝和零售两个数据集，每个用户最后购买的1个物品和其他99未购买的物品作为测试集。针对每个用户，推荐K个物品，计算命中率(Hit Ratio)和推荐结果排序的好坏(Normalized Discounted Cumulative Gain)，即HR@K和NDCG@K。每层神经网络的神经元个数设置为64。循环神经网络的个数设置为4。学习速率设置为0.01。对比方法包括CMF、MC-BPR、VALS、NMTR、ATRank、BINN。使用了Hard-MGRU和Soft-MGRU的本实施例提出的方法分别用IARS-H和IARS-S表示以上述参数启动/运行上述方法，能够得到如下的实验数据。

首先与现有技术相比，本系统中的门结构的计算依赖于当前用户行为的类型，控制模型学习当前行为信息的多少；本系统通过解码器中得多任务包括判断两个序列是否属于同一个用户以及使用注意力机制聚合多个循环神经网络的隐藏状态，计算用户对物品偏好值。

通过在HR和NDCG两个指标上，在两个真实的数据集上均要好于已有的方法，具体如表1所示。可以看出同样是建模用户的多种行为，本实施例提出模型IARS-H和IARS-S的能极大地提高推荐的准确性，其中：BINN也是基于循环神经网络的方法，通过对比可以看出Hard-MGRU和Soft-MGRU是本实施例对技术效果产生了最大的贡献。

表1

此外，本实施例还验证了对多种行为数据的建模效果。图4中显示了本实施例的两个模型，在使用不同用户行为的状况下的推荐效果。a和b分别表示推荐方法在淘宝和零售数据集上的表现。从图中可以看出，通过建模多种用户的行为数据，很大地提升了推荐的效果。图5显示了上述方法在使用不同任务的情况下的推荐效果。a和b分别表示本实施例的方法在淘宝和零售数据集上的推荐结果。从图中可以看出，本实施例设计的三种任务，对于推荐效果都是有提升的。

上述具体实施可由本领域技术人员在不背离本实施例原理和宗旨的前提下以不同的方式对其进行局部调整，本实施例的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本实施例之约束。

Claims

1.一种基于改进型循环神经网络单元的推荐系统，其特征在于，包括：多用户行为数据编码器和多任务解码器，其中：编码器基于用户的交互序列数据抽取用户的购物意图信息，并用隐藏状态序列表示，三个解码器分别对应不同的任务，根据挖掘到的用户购物意图分别完成预测下一个交互的物品和类别、判断两个序列是否属于同一个用户、推荐用户新的物品等三种任务；

所述的编码器采用多用户行为门循环单元包括：Hard-MGRU循环神经网络和Soft-MGRU循环神经网络，其中：Hard-MGRU循环神经网络针对不同的用户行为，使用不同的模型参数，相邻的用户行为之间使用循环神经网络的隐藏状态h_t传递信息；Soft-MGRU循环神经网络利用GRU中的门结构来建模用户的不同行为并转换成低维的向量表达。

2.根据权利要求1所述的推荐系统，其特征是，所述的Hard-MGRU循环神经网络包括：六个矩阵乘法单元

和归一化单元Norm，其中：位于最下层的三个矩阵乘法单元分别接收当前的交互行为类型，从W^r、W^z、W^h中获得循环神经网络单元的参数矩阵，分别用于后续的更新门、重置门、隐藏状态的计算；中间两个乘法单元接收物品信息(p_t,q_t)，并分别输出至两个Sigmoid函数单元，分别计算重置门r_t和更新门z_t；前一个时刻的隐藏状态h_t-1、当前的交互物品信息p_t和物品类别信息q_t输入到中间部分的第三个矩阵乘法单元，然后输出至双曲正切单元，计算当前的隐藏状态

然后前一个时刻的隐藏状态h_t-1和以及当前的隐藏状态

再

经过归一化单元，输出最终的隐藏状态h_t；

当前的隐藏状态

归一化的隐藏状况

其中：σ(·)和tanh(·)分别是sigmoid函数和双曲正切函数，

表示

的向量长度，W和b分别是单元中的权值矩阵和偏置。

3.根据权利要求1所述的推荐系统，其特征是，所述的SoftMGRU循环神经网络包括：三个矩阵乘法单元

和归一化单元(Norm)，其中：第一和第二矩阵乘法单元接收物品信息和当前行为类别信息(p_t,q_t,a_t)，并分别输出至两个Sigmoid函数单元，分别计算重置门r_t和更新门z_t；前一个时刻的隐藏状态h_t-1、当前的交互物品信息p_t和物品类别信息q_t输入到第三个矩阵乘法单元，然后输出至双曲正切单元，计算当前的隐藏状态

然后前一个时刻的隐藏状态h_t-1和以及当前的隐藏状态

再

经过归一化单元，输出最终的隐藏状态h_t；

所述的SoftMGRU循环神经网络利用GRU中的门结构来建模用户的不同行为，所有的用户行为类型共享，具体为：将用户行为进行低维向量表达a_t＝E^Bb_t；然后依次计算重置门和更新门以及当前的隐藏状态：r_t＝σ(W^r[p_t,q_t,a_t]+b^r)；z_t＝σ(W^z[p_t,q_t,a_t]+b^z)；

其中：重置门r_t和更新门z_t不仅依赖于当前的物品编号和物品类别，还依赖于当前的用户行为；通过循环神经网络，每个循环神经网络以得到一个隐藏状态序列

4.一种基于上述任一权利要求所述系统的推荐方法，其特征在于，包括如下步骤：

5.根据权利要求4所述的方法，其特征是，所述的步骤一具体是指：将用户与物品的交互记录数据，处理成后续模型所需要的格式；用户与物品的交互记录可以表示为(x_t,c_t,b_t)，其中：x_t是物品的编号，c_t是该物品的类别，b_t是交互行为的类型；本实施例令B＝{b₁,b₂,…,b_R}为所有交互行为的类别集合，包括用户点击、加入购物车、购买等；针对一个用户u，将他的交互记录根据时间进行排序以构成多交互行为的序列，也就是S_u＝{(x₁,c₁,b₁),(x₂,c₂,b₂),…,(x_T,c_T,b_T)}；所有用户的交互序列的集合，就构成了模型的训练数据，即H＝{S₁,S₂,…,S_u,…,S_n}，其中：n表示用户的数量；基于用户的行为数据，推荐结果表示为：给定一个用户的历史交互序列S_u＝{(x₁,c₁,b₁),(x₂,c₂,b₂),…,(x_T,c_T,b_T)}，预测用户下一个要购买的物品。