CN108647251A

CN108647251A - 基于宽深度门循环联合模型的推荐排序方法

Info

Publication number: CN108647251A
Application number: CN201810357561.5A
Authority: CN
Inventors: 黄青松; 王艺平; 李帅斌; 郎冬冬; 赵晓乐; 谢先章
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-10-12
Anticipated expiration: 2038-04-20
Also published as: CN108647251B

Abstract

本发明涉及基于宽深度门循环联合模型的推荐排序方法，属于自然语言处理技术领域。本发明首先爬取新浪微博数据进行预处理，获取主题特征集；其次，采用广义的交叉特征转换来记忆主题特征，输入到线性模块当中；然后，为每个分类特征学习嵌入向量，将所有的嵌入向量与稠密特征连接在一起，将连接产生的密集矢量输入到由门循环单元组成的深度模块。最后，同时优化线性、深度循环过程中的参数，通过对模型进行联合训练，得到推荐排序结果。本发明使用门循环单元来进行特征泛化，改善了以往方法大多未考虑动态时序的序列特征的问题，整体上取得了较好的推荐效果，也一定程度上提高了推荐效率。

Description

基于宽深度门循环联合模型的推荐排序方法

技术领域

本发明涉及基于宽深度门循环联合模型的推荐排序方法，属于自然语言处理技术领域。

背景技术

近年来，随着在线社交网络系统的盛行，微博为人们提供了一个十分开放的沟通渠道来阅读、评论、引用、社交，其包含了基于文本的微博条目和配置文件、图片、数据及多媒体等大量有价值的资源。微博社交网络的个性化推荐服务发展迅速的与其他产品领域相结合，已经经历了一个基本的范式转变。面对海量级别的信息，如何快速定位用户特征，如何有效的向用户推荐他们感兴趣的资源和如何基于历史数据探索过去从未或很少发现的特征，利用深度学习技术来改进博文个性化推荐是一个很好的解决方案。

与现有的大量使用矩阵分解方法来研究的相比，很少有研究是使用深度学习、循环神经网络来做推荐服务的。目前国内外关于推荐主要有以下几种方法。将神经网络模型用于推荐新闻，使用深度学习进行跨域用户建模。在基于内容方面，利用深层神经网络来推荐音乐。Google Play商店中应用的WIDE&DEEP模型，融合了深度学习方法，探索过去从未出现或很少发生的新特征组合，从而提升推荐项目的多样性。提出了一种基于会话的GRU推荐模型，输入是具有1-N编码的实际状态，输出为每个项目的下一个会话的可能性，对时间序列上的变化进行建模。然而，这些方法没有同时考虑提升项目的多样性和时间序列的变化。

发明内容

本发明提供了基于宽深度门循环联合模型的推荐排序方法，以用于改善以往方法大多未考虑动态时序的序列特征的问题，整体上取得了较好的推荐效果，也一定程度上提高了推荐效率。

本发明的技术方案是：基于宽深度门循环联合模型的推荐排序方法，所述方法的具体步骤如下：

Step1、首先爬取微博博文数据，通过人工标注按比例整理数据样本，得到训练集、验证集和测试集语料，随后采用基于LDA和稀疏自编码器的主题提取方法，对每个时间片内的博文进行主题提取，获取主题特征集；

Step2、构建宽深度门循环模型的线性模块，根据Step1中的主题特征进行分类，采用交叉特征转换的方式来记忆特征，使用逻辑回归来预测用户特征与候选博文间建立关系的可能性，其中输入包括用户属性原始特征和历史点击数据集的交叉特征；

Step3、构建宽深度门循环模型的深度模块，根据Step1中的主题特征对时间序列上的变化建模，并初始化映射向量，将低维映射向量送到深度模块的隐层中，迭代更新权重参数，使得最终的损失函数达到最小；

Step4、联合训练Step2和Step3构建的宽深度门循环联合模型，优化模型所有模块的参数，同时再反向传播到模型的线性和深度门循环部分；依据此模型排序得到推荐博文列表。

所述步骤Step1的具体步骤为：

Step1.1、首先采用Pyquery爬虫框架，爬取微博得到微博语料，获得的数据以json格式存储；

Step1.2、把已爬取的微博语料，经过过滤、去重得到不重复的微博语料；

Step1.3、对数据库中的语料进行人工标注得到训练集、验证集和测试集，并对语料进行分词、去停用词相关的预处理工作；

Step1.4、采用基于LDA和稀疏自编码器的主题提取方法，对每个时间片内的微博博文进行主题提取，从而得到主题特征集。

所述步骤Step2的具体步骤为：

Step2.1、定义交叉特征转换，这里x＝[x₁,x₂,…,x_d]是特征d的一组向量，c_ki∈{0,1}是一个布尔值，如果第i个特征是第k个转换φ_k的一部分，那么c_ki即为1，否则就是0；

Step2.2、将主题特征集作为逻辑回归分类输入，逻辑回归分类公式为：其中，x＝[x₁,x₂,…,x_d]，w＝[w₁,w₂,…,w_d]是模型的参数；

采用交叉特征转换的方式来记忆特征，用于获取到了二进制特征之间的交互，且将非线性添加到了线性模型当中。

所述步骤Step3的具体步骤为：

Step3.1、将Step1.4中得到的每一个稀疏高维的分类主题特征首先转换成低维密度实值向量，将其看作是一个映射向量，映射向量的维度通常是O(10)到O(100)，初始化映射向量；

Step3.2、构建深度模块的核心是GRU层，并且在最后一层和输出之间添加额外的前馈层，其中使用tanh函数作为输出层的激活函数，在隐藏层节点之间加入连接，并用一个门循环单元来控制隐藏节点的输出，有效得建模特征在时序动态上的变化；

Step3.3、将Step3.1中低维密度的映射向量经过特征工程，送到正向通路的门循环神经网络的隐层中，权重参数在模型训练的过程中更新，使得最终的损失函数达到最小。

所述步骤Step4的具体步骤为：

Step4.1、组合浅层部分和深度门循环部分，使用联合输出结果并取对数的加权和作为预测值，然后将该加权和馈送到一个共同的损失函数进行联合训练；

Step4.2、批量随机优化宽深度门循环联合模型参数，同时再反向传播到模型的浅层和深度门循环部分；

Step4.3、预测式为：使用联合输出结果取对数的加权和作为预测值，将单一候选项得到的预测概率值处理后，进行排序得到推荐排序项；

其中，Y是一个二分类标签，σ(·)是sigmoid功能函数，φ(x)是原始特征x的交叉特征转换的结果，b是偏置项，w_wide是线性部分的权重向量，w_gru是应用在最终激活值上的权重向量。

本发明加入门循环单元，即克服了梯度消失的缺点，又可以学习长期依赖信息，具有更高的效率。

所述逻辑回归式，其中x＝[x₁,x₂,…,x_d]是特征d的一组向量，特征集合包括原始输入特征和组合特征，w＝[w₁,w₂,…,w_d]是模型的参数。

所述联合训练预测式，其中，Y是一个二分类标签，σ(·)是sigmoid功能函数。φ(x)是原始特征x的交叉特征转换的结果，b是偏置项。w_wide是线性部分的权重向量，w_gru是应用在最终激活值上的权重向量。

门循环单元是一种更精细的RNN单位模型，它将门控制单元从3个减少到2个，模型更加简单，即克服了梯度消失的缺点，又可以学习长期依赖信息，具有更高的效率。当使用多个GRU层时，上一层的隐藏状态是下一层的输入。GRU的激活函数h_t是一个介于之前的激活函数状态和候选激活的线性插值函数的：

更新门由以下提供：

z_t＝σ(W_zx_t+U_zh_t-1)

其中，候选激活函数用类似的方式来计算：

最终的重置门由下式给出：

r_t＝σ(W_rx_t+U_rh_t-1)

使用FTRL(Follow-the-regularized-leader)算法和L1正则化作为模型线性部分的优化器，最终利用AdaGrad算法来优化模型的深度门循环部分。对于分类问题，一般采用cross-entropy作为其损失函数。其公式如下：

其中y_i′为是真实的概率分布(即训练语料的类别标签)，y_i为模型预测的概率分布。这里通过最小化H_y′(y)的值来训练整个模型。

本发明的有益效果是：

1、本发明考虑到用户请求在时间序列上的变化，推荐的项目会随着用户兴趣、地点、环境时间等变化而变化的情况，采用善于处理可变长度序列数据的门循环神经单元构建深度模型，联合训练，效果较好。其中，门循环单元即克服了梯度消失的缺点，又可以学习长期依赖信息，具有更高的效率。

2、浅层模块采用广义交叉特征转换的方式来记忆特征，不仅获取到了二进制特征之间的交互，并且将非线性添加到了线性模型当中。

综上，本发明提出的基于宽深度门循环联合模型的推荐排序方法，采用广义的交叉特征转换来记忆特征，并输入到浅层模块当中；然后，通过映射的方法，使用低维稠密特征输入到门循环单元组成的深度模块部分。最后，联合训练模型，输出为逻辑单元。改善了以往方法大多未考虑动态时序的序列特征的问题，整体上取得了较好的推荐效果，也一定程度上提高了推荐效率。

附图说明

图1为本发明的流程图；

图2为本发明宽深度门循环联合模型图；

图3为本发明模型训练图；

图4为本发明模型性能对比图。

具体实施方式

实施例1：如图1-4所示，基于宽深度门循环联合模型的推荐排序方法，所述方法的具体步骤如下：

Step3、构建宽深度门循环模型的深度模块；根据Step1中的主题特征对时间序列上的变化建模，并初始化映射向量，将低维映射向量送到深度模块的隐层中，迭代更新权重参数，使得最终的损失函数达到最小；

进一步的，所述步骤Step1的具体步骤为：

本发明考虑到爬取的微博语料可能存在重复博文，这些博文增加了工作量，而没有太大意义，所以需要过滤、去重，得到不重复的微博博文语料，存放在数据库是为了能方便数据的管理和使用。

本发明考虑到微博中没有明确表明用户喜好的数据，只能从用户对微博的转发、收藏等行为判断用户的喜好。本发明中把用户有操作行为的微博，即用户转发、评论、收藏、赞的微博都认为是用户喜欢的微博。

进一步地，到直接将文本切分为多个字符组成的字符串形式，会造成原文本中字、词、段落之间语言学信息的丢失。所以对微博语料进行预处理工作，其中包括中文分词、去停用词。方便后续工作的进行。

本发明考虑到模型训练的后续工作，即将整理后的数据样本的60％用来做训练数据，20％用来做验证数据，而余下的20％用作测试数据。

进一步的，所述步骤Step2的具体步骤为：

本发明考虑到线性特征全部获取，文本数据量大，数据维度较高，使得排序模型规模较大，采用交叉特征转换，不仅获取到了二进制特征之间的交互，起到了降维的作用，并且将非线性添加到了线性模型当中；

进一步的，所述步骤Step3的具体步骤为：

本发明考虑到传统的深度神经网络模型相邻层之间是全连接的，但是每层的各个节点是无连接的,样本的处理在各个时刻独立，使其不能对时间序列上的变化建模。于是采用一种更精细的RNN单位模型门循环GRU，来学习长期依赖信息，且具有更高的效率。

本发明考虑到整个模型的训练，需要定义个合适的损失函数，本发明使用FTRL(Follow-the-regularized-leader)算法和L1正则化作为模型线性部分的优化器，最终利用AdaGrad算法来优化模型的深度模块。对于分类问题，一般采用cross-entropy作为其损失函数。其公式如：H_y′(y)＝-∑_iy_i′logy_i，这里通过最小化H_y′(y)的值来训练整个模型。

进一步的，所述步骤Step4的具体步骤为：

本发明考虑联合训练和组合是有区别的。在一个组合中，单独的模型是分开训练而不知道线性和深度学习模块的关联，而他们的预测仅在推断的时候组合而不是在训练的时候。然而，本发明联合训练在训练时考虑线性、深度循环部分以及其总和的权重，同时优化所有的参数。其中线性的部分只需要通过较少的交叉特征来补充深度循环部分的不足即可。

推荐质量使用准确率(Precision)、召回率(Recall)、F值(F-Measure)作为衡量指标，推荐效率通过对用户进行个性化推荐时，模型的训练和预测速度来衡量。

对于用户u，令R_u作为模型推荐的微博集合，L_u作为用户u喜欢的微博集合，其推荐准确率、召回率和F值为：

本实例的实验数据使用新浪微博提供的API获取2017年5月部分真实用户的完整日志数据，生成训练集。在获取数据时，采用Pyquery爬虫框架，获得的数据以json格式存储。实验数据随机选取52k个用户节点，获取其一个月里发布、转发、收藏、评论和赞的微博信息，其中具体包括微博ID、微博创建时间、微博内容、用户转发、收藏、评论或赞的时间、微博转发数、评论数及收藏数。整理后的数据样本的60％用来做训练数据；20％用来做验证数据；而余下的20％用作测试数据。经处理后的微博共计4716452条。

实验一：为了验证本发明特征抽取方法的有效性和较好的推荐效果，设计了四种不同的推荐策略来验证本文提出的推荐机制。实验通过随机划分不同的训练集对4种模型方法来进行模型参数的训练学习，并通过不同的测试集来进行验证，和准确率的对比。实验对比方法见表1；

表1实验对比方法简要介绍表

本实验随机选取200名用户，在用户一天中发表、转发、评论、收藏、赞的所有微博中，凡是两个微博中间的时间差超过一个小时，则认为两个微博不在用户同次浏览行为中，进行一次推荐，平均所有用户推荐结果的准确性、召回率和F值。

实验结果如图4(a-f)所示：表明了模型算法的推荐质量，图4(a-c)展示了随用户人数的变化，推荐结果平均准确率、召回率和F值的变化，其中横坐标表示选取的用户人数。由图4(a-c)可以看出，随着用户数据的增多，4种模型的用户特征更接近于用户的真实特征，推荐结果的准确率、召回率和F值均呈增长趋势。对于不同大小的训练集，WIDE,DEEP,WIDE&DEEP,WIDE&DEEP-GRU这4种模型方法的最高准确率分别为0.726、0.722、0.728和0.742.随着数据的增多，Wide&Deep-GRU模型能从这些数据中学到的特征越多，进而能更加准确的推荐博文。图4(e-f)展示了，随着推荐列表长度的增长，推荐结果平均准确率、召回率和F值的变化，其中横坐标表示选取的推荐列表长度。可以得看出，该实验模型准确率降低，召回率在升高，当推荐列表长度为10时，F值最高。即在推荐列表增加到一定长度后，评分高的微博基本都已包含在推荐列表中，推荐列表长度的增加对推荐质量的影响并不会再增加。由图可见，Wide&Deep-GRU模型综合效果最好。

实验二：推荐效率通过对用户进行个性化推荐时，模型的训练和预测速度来衡量。实验结果如表2所示：

表2推荐效率对比评估

从表2中可以看出，WIDE&DEEP-GRU模型在各个数据集中平均训练时间和预测时间都明显小于WIDE&DEEP模型。具体的，当用户数为150，推荐长度为10，WIDE&DEEP-GRU模型的训练速度平均是WIDE&DEEP模型的1.17倍，测试集上的预测速度平均是WIDE&DEEP模型的1.06倍。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于宽深度门循环联合模型的推荐排序方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于宽深度门循环联合模型的推荐排序方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的基于宽深度门循环联合模型的推荐排序方法，其特征在于：所述步骤Step2的具体步骤为：

4.根据权利要求2所述的基于宽深度门循环联合模型的推荐排序方法，其特征在于：所述步骤Step3的具体步骤为：

5.根据权利要求1所述的基于宽深度门循环联合模型的推荐排序方法，其特征在于：所述步骤Step4的具体步骤为：