CN110032679B

CN110032679B - 一种基于层次注意力网络的动态新闻推荐的方法

Info

Publication number: CN110032679B
Application number: CN201910302363.3A
Authority: CN
Inventors: 马帅; 张晖; 陈旭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2021-06-15
Anticipated expiration: 2039-04-16
Also published as: CN110032679A

Abstract

本发明提出一种基于层次注意力网络的动态新闻推荐的方法，采用的模块包括层次注意力网络，卷积层和全连接层；在所述层次注意力网络中包括句子水平的注意力网络和新闻水平的注意力网络。用户的新闻序列和候选新闻，经过所述句子水平的注意力网络，得到所述新闻序列中句子的注意力权重，然后计算句子内容向量的加权和得到新闻的内容向量，所述新闻序列的嵌入表示与所述内容向量连接得到所述新闻的整体表示，所述整体表示经过所述新闻水平的注意力网络，获得所述新闻序列中新闻的注意力权重，得到新闻的最终表示；在卷积层中，按序堆叠历史新闻的最终表示得到矩阵，输入卷积层学习用户序列阅读模式，得到序列偏好向量；在全连接层中，将所述序列偏好向量、候选新闻整体表示和用户嵌入表示进行连接，得到用户点击候选新闻的概率。

Description

一种基于层次注意力网络的动态新闻推荐的方法

技术领域

本发明涉及一种动态新闻推荐的方法，尤其涉及一种基于层次注意力网络的动态新闻推荐的方法。

背景技术

近年来，随着云计算、大数据等技术的迅猛发展，互联网中各类应用的层出不穷引发了数据规模的爆炸式增长。大数据中蕴含着丰富的价值与巨大的潜力，给人类社会带来变革性的发展，但同时也带来了“信息过载”问题。如何快速有效地从纷繁复杂的数据中获取有价值的信息成为了当前大数据发展的关键难题。推荐系统作为解决“信息过载”问题的有效方法，已经成为学术界和工业界的关注热点，并得到了广泛应用。随着万维网的发展，人们的新闻阅读习惯逐渐从报纸、电视等传统媒体转向在线新闻网站，例如谷歌新闻、雅虎新闻、今日头条等。在线新闻网站从多个来源收集海量新闻，为用户提供新闻的聚合视图，存在严重的“信息过载”问题。为解决这一问题，新闻推荐方法旨在根据用户的个人兴趣，向用户推送他们感兴趣的新闻，提升用户阅读体验，同时为新闻网站增加用户粘性，带来良好的收益。

现有技术中存在4种新闻推荐方法，一是基于内容的方法，基于内容的方法主要根据用户已经阅读的新闻，推荐其他内容上相似的新闻。首先获取用户的历史阅读新闻，然后从这些新闻中学习用户画像，最后根据用户画像与候选新闻之间的相似度进行推荐。二是协同过滤方法，协同过滤方法利用相似用户之间具有相似兴趣的特点，来发现用户对新闻的偏好。首先计算用户之间的相似度，然后向用户推荐相似度大的其他用户读过的新闻。三是混合方法，为了获得更好的推荐效果，混合方法组合以上两种方法进行推荐，分别使用基于内容和协同过滤的方法得到推荐分数，然后组合得到最后的推荐分数；或是SCENE模型首先将候选新闻聚类为主题，然后构建用户画像，包括主题分布、实体分布和访问模式相似的用户，最后先选择主题，再在主题中选择新闻，进行推荐。四是基于深度学习的方法。近两年来，基于深度学习的方法在新闻推荐领域展示了优越的性能，具有对复杂用户行为的建模能力，可以构建更加贴合用户偏好的模型。采用循环神经网络(RNN)进行新闻序列推荐；或采用三维卷积神经网络(3D CNN)进行建模，利用了内容信息和序列信息；或采用CNN和注意力网络来进行新闻推荐，使用知识图谱加强效果。

现有技术一基于内容的方法为用户推荐和历史阅读新闻相似的新闻，但是该方法缺乏多样性，无法推荐给用户不熟悉但具有潜在兴趣的新闻。现有技术二中协同过滤方法的冷启动问题十分严峻，对于没有历史记录的新用户，无法找到与其兴趣相似的用户，更重要的是，每时每刻都有新闻产生，过时的新闻被新的新闻快速替代，对于没有被阅读过的新的新闻，无法进行推荐，因此协同过滤方法并不适用于新闻领域。现有技术三混合方法组合以上两种方法，可以缓解各自的不足，但是数据往往具有多模态、异构等复杂特征，该方法的研究仍然面临着严峻的挑战。现有技术四基于深度学习的方法都从新闻水平提取特征，很少有工作考虑细粒度的句子水平的区分，并且很少有工作考虑新闻阅读的时间衰减特性以及新闻阅读的序列特性。

发明内容

本发明提出一种基于层次注意力网络的动态新闻推荐的方法，采用的模块包括层次注意力网络、卷积层和全连接层；所述层次注意力网络包括句子水平的注意力网络和新闻水平的注意力网络。用户的新闻序列和候选新闻经过所述句子水平的注意力网络，得到所述新闻序列中句子的注意力权重，然后计算句子内容向量的加权和得到新闻的内容向量，所述新闻的嵌入表示与所述新闻的内容向量连接得到所述新闻的整体表示，所述整体表示经过所述新闻水平的注意力网络，得到所述新闻序列中新闻的注意力权重，最后得到新闻的最终表示；在卷积层中，按序堆叠历史新闻的最终表示得到矩阵，输入卷积层学习用户序列阅读模式，得到序列偏好向量；在全连接层中，将所述序列偏好向量、候选新闻整体表示和用户嵌入表示进行连接后输入，输出得到用户点击候选新闻的概率。

本发明达到的技术效果为，一是从句子和新闻两个粒度，区分之前阅读的内容对预测当前候选新闻的差异化影响，具体地使用两层注意力网络，加大和候选新闻内容相关的句子和历史新闻的权重，增强推荐的可解释性；二是使用时间衰减因子，阅读时间越近的历史新闻越能反映用户当前的兴趣，反映新闻阅读的动态性；三是使用一维卷积神经网络(1D CNN)学习新闻阅读中的序列信息，挖掘用户序列阅读模式。

附图说明

图1为本发明的整体框架图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种基于层次注意力网络的动态新闻推荐的方法。当在线新闻网站收集到一条新的新闻时，本发明根据用户历史阅读内容来预测每个用户点击这条新闻的概率。C_i＝[c₁,c₂,…,c_L]表示用户i最近阅读的包含L条新闻的新闻序列，其中L表示用来预测用户点击率的历史新闻数目。每条新闻c_j＝[s_j1,s_j2,...,s_jK]是一个句子序列，其中s_jk是新闻c_j的第k个句子，K是每条新闻用来预测用户点击率的最大句子数目。给定新闻序列C_i和候选新闻c^*，目标是预测用户i点击候选新闻c^*的概率。

图1为本发明的方法架构图，主要由三部分组成：层次注意力网络、卷积层和全连接层，输入为用户i的新闻序列C_i和候选新闻c^*。首先，经过句子水平的注意力网络，计算句子s_jk的注意力权重β_jk，计算句子内容向量的加权和得到新闻c_j的内容向量v(c_j)。同时，学习新闻c_j的嵌入表示e(c_j)，与内容向量连接得到新闻c_j的整体表示[v(c_j)||e(c_j)]。然后，经过新闻水平的注意力网络，基于时间衰减因子，获取新闻c_j的注意力权重α_j，通过[v(c_j)||e(c_j)]和α_j，得到新闻c_j的最终表示x_j。然后，在卷积层中，按序堆叠历史新闻的最终表示得到矩阵，输入卷积层学习用户序列阅读模式，得到序列偏好向量p_i。最后，在全连接层中，将序列偏好向量p_i、候选新闻整体表示[v(c^*)||e(c^*)]和用户嵌入表示u_i进行连接后输入，输出得到用户i点击候选新闻c^*的概率

本发明使用Word2vec得到句子内容向量和候选新闻内容向量：假设每个单词被表示为d维向量，句子s_jk的内容向量v(s_jk)∈R^d通过s_jk中的单词向量求平均得到，所述d为通过Word2vec得到的单词向量长度，候选新闻c^*的内容向量v(c^*)∈R^d通过c^*中的单词向量求平均得到。

本发明采用一个两层的前馈神经网络来确定句子s_jk的非标准化的注意力权重b_jk：

b_jk＝W₂φ(W₁[v(s_jk)||v(c^*)]+b₁)

这里[·||·]表示连接操作，φ(x)＝max(0，x)是ReLU非线性激活函数，W₁∈R^d ^×2d、W₂∈R^1×d以及b₁∈R^d是前馈神经网络的参数。所述注意力权重经过softmax函数进行标准化：

所述β_jk为句子s_jk的标准化的注意力权重，代表句子s_jk和候选新闻c^*的内容相似度。进而计算新闻c_j关于当前候选新闻c^*的内容向量v(c_j)：

和句子水平注意力网络的出发点相似，和候选新闻内容相关的历史新闻对预测点击率有更大的影响，新闻水平的注意力网络能够捕捉不同新闻的影响。到目前为止，已经得到了每条新闻的内容向量。此外，结构信息还提供了一种衡量新闻相似度的方法，例如，被人们频繁共同点击的两条新闻往往是相似的，为保留这种结构信息，需要进一步学习新闻c_j的嵌入表示e(c_j)和新闻c^*的嵌入表示e(c^*)，然后分别使用[v(c_j)||e(c_j)]∈R^2d和[v(c^*)||e(c^*)]∈R^2d作为新闻c_j和新闻c^*的整体表示。

本发明采用另一个两层的前馈神经网络来确定新闻c_j的非标准化的注意力权重a_j：

a_j＝W₄φ(W₃[v(c_j)||e(c_j)||v(c^*)||e(c^*)]+b₂)+b₃

其中，W₃∈R^2d×4d、W₄∈R^1×2d、b₂∈R^2d以及b₃∈R是前馈神经网络的参数。在新闻水平的注意力网络中，考虑到时间间隔的影响，进一步加入时间衰减因子。举个例子，当一个用户刚刚看完一条新闻，在短时间内，例如1分钟，更倾向于阅读相似内容的新闻；当过了较长一段时间，例如6小时，这条新闻对用户当前兴趣的影响变小。本发明建模用户新闻阅读行为的时间动态性，采用指数衰减公式来建模新闻c_j的时间衰减因子f_t(j)：

f_t(j)＝exp(-γ(t^*-t_j)/3600)

其中，γ≥0表示时间衰减速率，t_j表示用户i阅读新闻c_j的时间戳，t^*表示进行推荐的时间戳。本发明将时间衰减因子加入到新闻水平的注意力权重计算中，然后经过softmax函数进行标准化：

所述α_j为新闻c_j的标准化的注意力权重。最后计算新闻c_j关于当前候选新闻c^*的最终表示x_j：

x_j＝α_j[v(c_j)||e(c_j)]∈R^2d

由于新闻阅读具有序列性，本发明利用卷积神经网络(CNN)来学习序列信息。首先，将历史阅读新闻的最终表示堆叠成一个特征映射E∈R^L×2d。卷积层具有n个卷积核F^q∈R^h ^×2d，q＝1，...，n，其中h和2d分别表示卷积核的高度和宽度，每个卷积核沿着特征映射E的行进行滑动来捕捉用户的序列阅读模式，卷积核F^q的卷积结果为：

其中，

通过卷积操作以及ReLU非线性激活函数得到。所有卷积核的卷积结果可以堆叠成一个大小为(L-h+1)×n的特征映射。实际上，整个网络中总共有M层卷积层，每一层得到的结果特征映射作为下一层的输入。这M层网络中所有卷积核高度都为h。使用多层卷积操作的原因是，它可以捕捉较长的序列阅读模式。而且，整个网络中没有池化层，因为最大池化操作会忽略位置等序列信息。

最后一层卷积层的结果特征映射的大小为(L-M(h-1))×n_M，M为整个网络的卷积层层数，其中n_M为最后一层的卷积核个数。将该特征映射的(L-M(h-1))个向量进行连接，得到用户i的序列偏好向量p_i。

将用户i的序列偏好向量p_i、候选新闻c^*的整体表示[v(c^*)||e(c^*)]和用户i的嵌入表示u_i∈R^d连接为一个向量，并输入全连接层得到点击率：

其中，

W_2f∈R^2d×4d、W_3f∈R^1×2d、b_f∈R^4d、b_2f∈R^2d以及b_3f∈R都是全连接层的参数。该模型使用二进制交叉熵损失函数作为目标函数：

其中，σ为sigmoid函数，D⁺代表正样本实例集合，D^-代表负样本实例集合。对于每个正样本实例(i，c^*)，随机选取3条用户i之前没有阅读过的新闻作为负样本实例。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于层次注意力网络的动态新闻推荐的方法，其特征在于，所述方法采用的模块包括层次注意力网络、卷积层和全连接层；所述层次注意力网络包括句子水平的注意力网络和新闻水平的注意力网络，所述方法的输入为用户i的新闻序列C_i＝[c₁，c₂，...，c_L]和候选新闻c^*，所述新闻c_j＝[s_j1，s_j2，...，s_jK]是一个句子序列，所述s_jk是新闻c_j的第k个句子，所述L是用来预测用户点击率的历史新闻数目，所述K是每条新闻用来预测用户点击率的最大句子数目，所述i是用户的序数，所述j是新闻的序数，所述k是句子的序数，用户i的新闻序列C_i和候选新闻c^*经过所述句子水平的注意力网络，得到所述新闻序列中句子s_jk的注意力权重β_jk，然后计算句子内容向量加权和得到新闻c_j的内容向量v(c_j)，所述新闻c_j的嵌入表示e(c_j)与所述新闻c_j的内容向量v(c_j)连接得到所述新闻c_j的整体表示[v(c_j)||e(c_j)]，所述整体表示经过所述新闻水平的注意力网络，使用时间衰减因子，得到所述新闻c_j的注意力权重α_j，通过[v(c_j)||e(c_j)]和α_j得到所述新闻c_j的最终表示x_j；在卷积层中，按序堆叠历史新闻的最终表示得到矩阵，输入卷积层学习用户序列阅读模式，得到序列偏好向量p_i；在全连接层中，将所述序列偏好向量p_i、候选新闻整体表示[v(c^*)||e(c^*)]和用户嵌入表示u_i连接后输入，输出得到用户i点击候选新闻c^*的概率

2.如权利要求1所述的方法，其特征在于，所述句子水平的注意力网络采用两层的前馈神经网络来确定所述句子s_jk的非标准化的注意力权重b_jk：

b_jk＝W₂φ(W₁[v(s_jk)||v(c^*)]+b₁)

所述[·||·]表示连接操作，所述φ(x)＝max(0，x)是ReLU非线性激活函数，所述W₁∈R^d×2d、W₂∈R^1×d以及b₁∈R^d是所述前馈神经网络的参数，所述d为Word2vec得到的单词向量长度；最后计算新闻c_j关于当前候选新闻c^*的内容向量v(c_j)：

所述β_jk是所述句子s_jk的标准化的注意力权重，

3.如权利要求2所述的方法，其特征在于，所述新闻水平的注意力网络采用两层的前馈神经网络来确定所述新闻c_j的非标准化的注意力权重a_j：

a_j＝W₄φ(W₃[v(c_j)||e(c_j)||v(c^*)||e(c^*)]+b₂)+b₃

所述W₃∈R^2d×4d、W₄∈R^1×2d、b₂∈R^2d以及b₃∈R是前馈神经网络的参数；建模用户新闻阅读行为的时间动态性，采用指数衰减公式来建模新闻c_j的时间衰减因子f_t(j)：

f_t(j)＝exp(-γ(t^*-t_j)/3600)

所述γ≥0表示时间衰减速率，所述t_j为用户阅读新闻c_j的时间戳，所述t^*是进行推荐的时间戳；最后获得新闻c_j关于当前候选新闻c^*的最终表示x_j：

x_j＝α_j[v(c_j)||e(c_j)]∈R^2d

所述α_j是所述新闻c_j的标准化的注意力权重，α_j＝

4.如权利要求3所述的方法，其特征在于，所述卷积层利用卷积神经网络CNN学习序列信息将历史阅读新闻的最终表示堆叠成一个特征映射E∈R^L×2d，所述卷积层具有n个卷积核F^q∈R^h×2d，q＝1，...，n，所述h和2d分别表示卷积核的高度和宽度，所述n为正整数，每个卷积核沿着特征映射E的行进行滑动来捕捉用户的序列阅读模式，卷积核Fq的卷积结果为：

所述

通过卷积操作以及ReLU非线性激活函数得到，将所有卷积核的卷积结果堆叠成一个大小为(L-h+1)×n的特征映射，最后一层卷积层的结果特征映射的大小为(L-M(h-1))×n_M，所述M为整个网络的卷积层层数，所述n_M为最后一层的卷积核个数，将该特征映射的(L-M(h-1))个向量进行连接，得到用户i的序列偏好向量p_i。

5.如权利要求4所述的方法，其特征在于，所述全连接层将用户i的序列偏好向量p_i、候选新闻c^*的整体表示[v(c^*)||e(c^*)]和用户i的嵌入表示u_i∈R^d连接为一个向量，并输入全连接层得到点击率：

所述

W_2f∈R^2d×4d、W_3f∈R^1×2d、b_f∈R^4d、b_2f∈R^2d以及b_3f∈R都是全连接层的参数，所述方法使用二进制交叉熵损失函数作为目标函数：

所述σ为sigmoid函数，D⁺代表正样本实例集合，D^-代表负样本实例集合。