CN115481236A

CN115481236A - 一种基于用户兴趣建模的新闻推荐方法

Info

Publication number: CN115481236A
Application number: CN202211053861.7A
Authority: CN
Inventors: 许毅; 赵太银; 解修蕊; 罗光春; 赵航; 张博闻
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-16

Abstract

本发明公开了一种基于用户兴趣建模的个性化新闻推荐方法，包括步骤：获得新闻文本数据，将文本数据进行预处理，删除停用词，向量化等操作；将向量化的新闻数据输送到文本特征提取器进行特征抽取，获得新闻特征；构建基于用户兴趣的新闻推荐模型，结合残差图卷积网络模块与用户热兴趣模块，输出用户点击概率；模型训练，模型训练基于交叉熵损失函数进行训练；对输入的一系列候选新闻的点击预测概率进行排序，输出设定好的前K篇新闻作为推荐结果。本发明用于用户个性化的新闻推荐，能有效提升推荐有效性。

Description

一种基于用户兴趣建模的新闻推荐方法

技术领域

本发明涉及新闻推荐领域，具体涉及一种基于用户阅读偏好的深度学习新闻推荐方法。

背景技术

个性化推荐系统利用用户的行为(如搜索历史记录、阅读记录等)为该用户生成推荐列表。传统的新闻推挤方法大抵可分为基于内容的过滤方法和基于协同过滤的方法。两类方法虽然可以在一定程度上实现新闻推荐的功能，但是这两类方法都存在一定的缺陷，实际推荐效果不佳，难以满足实际使用需求。

基于内容的算法在最初是最流行、最高效的方法，因此在任何推荐系统开始时被广泛应用。在基于内容过滤的推荐方法中，通过分析用户过去感兴趣的新闻的属性，推荐用户某些未读过的新闻。这些系统不关心用户对这些项目的评分。在基于内容的算法中，相似度计算方法直接影响推荐结果的准确性。有几种被广泛使用的相似性计算方法：①欧几里德距离：通过计算两个向量中每个元素的平方距离之和来衡量两个向量之间相似性的最常用方法之一。②余弦：该方法的主要思想是通过计算两个向量之间的夹角余弦来测量两个向量。③Pearson：Pearson相关系数反映两个向量之间的线性相关程度。④Jaccard：Jaccard相似度通常用于比较两个有限样本集之间的相似性和差异。与其他协同过滤系统相比，基于内容的推荐系统有很多好处，例如：用户独立性、透明度、冷启动问题时的新项目。但是基于内容的方法还存在一些不足之处，如分析内容有限、过于专业化或缺乏新用户的评分数据，以及对某些特定问题的准确性不够。

在协同过滤方法中，用户对新闻的评价会被考虑在内以做出建议。具有相似评价的用户称为邻居，用于预测未评分新闻项的评分。基于协同过滤的推荐方法准确性依赖于不同算法(如SVM、朴素贝叶斯、决策树、聚类等)开发的有效建模。然而，在实际场景中，许多商业推荐系统中使用的数据集非常稀疏，因为用户通常不会对每个项目进行评分，而是只对少数项目进行评分。

近年来，以用户-新闻交互为基础构建的图神经网络模型将用户与新闻建模为二部图结构，以新闻嵌入更新用户兴趣，并依此计算候选新闻与用户兴趣的相似度来预测用户的点击偏好，此类模型在新闻推荐任务上取得了优秀的效果，但仍不适用于稀疏环境。

发明内容

本发明所要解决的技术问题是，针对在交互数据集中于少数新闻的稀疏环境中，仅使用交互行为构建的模型相在稀疏环境中存在严重的准确性问题，提供一种能解决现有基于协同过滤和基于内容的新闻推荐方法受限于数据集数据分布不均且稀疏造成的冷启动问题的基于用户兴趣的深度学习新闻推荐方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于用户兴趣建模的新闻推荐方法，包括以下步骤：

步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集；用于训练的新闻数据集中，用户与新闻之间存在交互则标记为正样本，表示用户阅读过该新闻，否则标记为负样本；

步骤2、新闻推荐模型的构建与训练：

利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练，当满足预置的停止训练条件时，得到训练好的新闻推荐网络模型；

所述新闻推荐网络模型用于，输出用户点击候选新闻的概率，包括特征提取模块、残差图卷积网络GCN、用户热兴趣模块和全连接神经网络；特征提取模块包括点击序列特征提取器和新闻文本特征提取器，分别用于提取用户近期点击序列特征和新闻文本特征；残差GCN用于接收新闻文本特征输出新闻嵌入以及用户长期兴趣特征；用户热兴趣模块用于接收用户近期点击序列特征输出用户热兴趣特征；全连接神经网络用于将用户长期兴趣特征与用户热兴趣特征进行结合，结合后的结果作为用户的最终兴趣表示；

步骤3、新闻推荐模型输出用户点击的预测结果：

对于给定的用户和候选新闻，基于预设的输入数据格式，对候选新闻进行筛选和预处理得到新闻数据，将新闻数据输入完成训练的新闻推荐模型，新闻推荐模型输出用户的最终兴趣表示以及新闻嵌入，将用户的最终兴趣表示作为用户嵌入，利用用户嵌入与新闻嵌入计算得到用户点击候选新闻的概率值；最后根据所述概率值再选择候选新闻推荐给用户。

本发明的有益效果是，从用户兴趣出发，针对个性化新闻推荐任务，有效利用新闻文本特征信息以及用户-新闻交互过程中产生的用户兴趣表示，从而弥补了现有方法仅利用交互记录的不足，提高新闻推荐准确度，最终实现针对用户的个性化新闻推荐；通过用户热兴趣的提取对用户特征进行补充，进一步提升新闻推荐的性能。

附图说明

图1为本发明的个性化新闻推荐原理图；

图2为本发明的模型总体结构图；

图3为本发明的训练过程示意图。

具体实施方式

深度学习新闻推荐方法基于构造的新闻推荐网络模型实现，新闻推荐网络模型用于点击预测，输出用户点击候选新闻的概率。基于用户兴趣建模的新闻推荐网络模型的设计思想为：通过利用新闻文本长度以及用户停留时间，计算该新闻对用户兴趣的影响权重，然后通过新闻特征与对应权重值相乘，并对特征向量进行组合的方式得到出基于新闻特征的用户兴趣向量。

构建基于用户兴趣建模的新闻推荐网络模型包括特征提取模块、基于用户-新闻交互的残差图卷积网络GCN(Graph Convolutional Networks)、基于用户近期阅读兴趣的用户热兴趣模块和全连接神经网络。

特征提取模块包括点击序列特征提取器和新闻文本特征提取器，分别用于提取用户近期点击序列特征和新闻文本特征，用户近期点击序列特征输入至用户热兴趣模块，新闻文本特征输入至残差GCN。残差GCN用于根据用户与新闻的交互关系，即用户的新闻阅读历史记录以及新闻特征向量来捕获用户长期稳定的兴趣特征，此外，对残差GCN中的新闻通过主题抽取的方式根据主题类别进行聚类，一定程度上可缓解部分新闻因缺少交互导致的数据稀疏问题。

残差GCN输出的特征向量作为长期兴趣特征会和从用户热兴趣模块中计算得到的用户热兴趣特征通过全连接神经网络进行结合，全连接神经网络输出这两个特征向量结合后的结果作为用户的最终兴趣表示参与后续的新闻点击预测计算。

具体实施步骤如下：

步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集；

根据需要，实施例采用在真实世界的在线新闻数据集Adressa进行实验。具体来说，模型训练选择具有十周时间跨度的新闻点击日志Adressa-10week，这是一个新闻点击日志数据集。实验初期主要依据用户-新闻交互以及新闻属性信息进行网络模型构建。用于训练的新闻数据集中，用户与新闻之间存在交互则标记为正样本，表示用户阅读过该新闻，如果标记为负样本，则该新闻对于用户来说是未曾见过的。

步骤2、新闻推荐模型训练：

步骤3、基于用户兴趣的新闻推荐模型输出用户点击的预测结果：

对于给定的用户和候选新闻，基于预设的输入数据格式，对候选新闻进行筛选和预处理得到新闻数据，将新闻数据输入至新闻文本特征提取器，提取出候选新闻的文本特征作为图卷积网络的输入。

残差GCN接收由新闻文本特征提取器抽取到的新闻特征向量，计算出用户长期稳定的兴趣特征。长期兴趣特征还作为调整候选新闻数据的输入。用户热兴趣模块接收点击序列特征提取器由用户近期的新闻阅读记录抽取得到点击序列特征，计算并输出用户热兴趣向量。

最后，全连接神经网络结合用户长期兴趣和用户热兴趣得到最终兴趣表示，最终兴趣表示作为用户嵌入与作为新闻嵌入的候选新闻数据通过一层深度神经网络计算得出点击概率，进行点击预测。

具体的，从Adressa-10week数据集中筛选后得到的新闻数据，其摘要文本部分包含新闻内容中的主要相关实体以及对应的实体类型。

参见图1，对于给定的用户以及候选新闻，通过下列步骤对该用户是否会点击候选新闻进行预测：

步骤S1对数据集中数据进行筛选，选择阅读会话事件开始与结束的时间、用户id、新闻id、时间戳、新闻标题和新闻概要，新闻文章长度来构建数据集。同时，使用该数据集中前八周的交互数据来进行图的构建，第九周的数据用来生成训练数据，最后一周数据的20％用于验证实验，80％用于测试。

构造出的一条用户数据对应一个由新闻id组成的新闻序列向量，而一条新闻数据则包含着由阅读会话事件开始与结束的时间计算得出的用户停留时间，新闻标题单词序列，新闻概要实体的单词序列以及新闻正文的单词数几个部分。

步骤S2根据预设的规则对输入的新闻数据进行预处理：

首先是过滤停用词，即对于无有效语义的停用词进行过滤，例如“吧”、“呢”等。去除停用词使训练数据的冗余度降低，同时过滤掉新闻简介中无意义的实体和实体类型，如情感、地点以及首字母缩略词等；接着对这些处理后得到的语料进行编码转换，采用独热编码的方式将单词初步转换为向量模式；最后将新闻文本向量作为输出的预处理后的新闻数据。

步骤S3通过文本特征提取器CNN计算获向量形式的新闻特征向量，新闻特征向量一方面会作为新闻嵌入的候选新闻数据参与到最后的点击概率预测中，另一方面将输出至残差GCN；

文本特征提取器的训练以步骤201所得的新闻文本向量作为输入数据，训练文本特征提取器。该特征提取器是一个基于两个平行卷积神经网络(Convolution NeuralNetwork，CNN)的网络模块，分别以新闻的标题和简介的向量为输入，学习新闻的标题级和简介级表示。这两种表征的串联被视为新闻的最终特征表征。文本特征提取器使用两个CNN并行处理标题嵌入T和概要嵌入G，CNN具有单独的权重参数。文本特征提取器中的每个CNN由一个卷积层和一个最大池化层组成。由于卷积层需要固定长度的输入，因此需要在原始输入的末尾用特殊符号填充长度小于10的所有标题输入以及长度小于80的概要文档输入。单词嵌入和实体类型嵌入的维度均设置为K＝50，新闻嵌入、用户嵌入和主题嵌入的维度均设置为D＝128。

步骤S4新闻推荐模型的残差GCN接收步骤S3得到的新闻特征向量输出新闻嵌入以及用户长期稳定的兴趣特征。用户热兴趣模块接收点击序列特征提取器由用户近期的新闻阅读记录抽取得到点击序列特征，计算并输出用户热兴趣向量。全连接神经网络结合用户长期兴趣和用户热兴趣得到最终兴趣表示，最终兴趣表示作为用户嵌入与作为新闻嵌入通过一层深度神经网络计算得出用户点击候选新闻的概率值；

步骤S5基于步骤S4得到的概率值，对一系列的候选新闻进行比较与排序，最终选择排名靠前的K篇新闻推荐给用户。

本具体实施方式中，基于用户兴趣的个性化新闻推荐模型方法包含训练和预测两部分，训练部分主要是获得训练好的(即训练完善的)新闻推荐模型，其中步骤S2中，通过所设置的文本特征提取器获得新闻文本特征，该文本特征提取器由训练部分获得；获得训练完善的新闻推荐模型后，输入需要预测的候选新闻序列，即可得到用户对候选新闻的点击概率预测以及新闻推荐结果。预测部分即基于所训练好的新闻推荐模型执行上述步骤S2-S5。

训练时，采用基于绝对误差的损失函数和Adam优化器。文本特征提取器训练完成后，输入任意新闻文本的独热码向量，取其输出向量作为新闻文本特征向量，以作后续两个模块神经网络模型的输入。残差GCN模块的输入为文本特征提取器处理的全体新闻的文本特征以及用户-新闻的交互关系。用户热兴趣模块的输入为文本特征提取器处理的用户近期点击的新闻序列文本特征。

本领域的技术人员可以理解，新闻推荐模型构建过程如下：

假设存在S个用户U＝{u₁,u₂,…,u_S}对Q个新闻项I＝{d₁,d₂,…,d_Q}的点击历史记录。用户与新闻的交互矩阵Y∈R^S×Q是根据用户的隐性反馈定义的，其中y_u,d＝1表示用户u点击了新闻d，否则y_u,d＝0。此外，从最近的点击历史中，可以获得用户u的近期一段时间的点击序列s_u＝{d_u,1,d_u,2,…,d_u,n}，其中d_u,j∈I是用户u近期点击的第j条新闻。此外，对于每篇新闻d来说，可以通过LDA模型获得其主题分布T_d＝{T_d,i},i＝1,2…,k,

其中T_d,i表示新闻d属于第i项主题的概率，然后选择最大概率的主题类别来建立新闻d和主题z之间的关联。

本实施例中，使用Python语言构建新闻推荐模型，模型分为特征提取模块，残差GCN模块和用户热兴趣模块三个部分。模型将新闻的标题和概要作为特征进行输入，每个新闻标题T包含一系列单词T＝[w₁,w₂,..,w_m]。新闻概要包含一系列实体E＝{e₁,e₂,…,e_n}及其类型C＝{c₁,c₂,…,c_n}，其中c_j是第j个实体e_j的类型。

在新闻信息抽取阶段，将标题表示T＝[w₁,w₂,..,w_m]^T与概要表示G＝[e₁,f(c₁),e₂,f(c₂),…,e_n,f(c_n)]^T分别输入至特征提取模块的两个并行CNN中对应一个。f(c_j)＝W_cc_j是变换函数，

是可训练的矩阵，k₁是实体嵌入维度，k₂是实体类型嵌入维度。两个CNN的分别输出

和

连接起来作为最终的新闻文本特征表示d:

上式中d∈R^D，D是文本嵌入维度，f_c是一个密接层，将

和

连接起来作为新闻文本特征的最终表达。

残差GCN模块通过计算其所有采样邻域的线性平均组合的方式来计算新闻文本特征表示d从邻居接收的嵌入：

上式中N(d)表示对于以新闻文本特征表示d为新闻嵌入节点来说统一采样固定大小20个邻居节点。u与z是与新闻嵌入节点d关联用户和新闻主题的特征向量。u和z在训练时进行随机初始化，而新闻嵌入节点d是用从上文中提到的文本信息提取器获得的特征嵌入进行初始化的。W_u∈R^D×D和W_z∈R^D×D分别是用户和主题的可训练权重矩阵。新闻嵌入的更新

计算如下：

上式中σ₁与σ₂是非线性激活函数ReLU，Wⁱ∈R^D×D和bⁱ∈R^D×D分别是GCN第i层的权重矩阵和偏差，X表示初始输入的节点向量作为残差项参与节点更新。最终计算出候选新闻嵌入

针对用户长期兴趣特征u_l，类似的，通过用户的邻居新闻节点聚合而来。但需要考虑不同新闻对用户兴趣的影响权重，这里采用一个用户阅读速度指标v来表示用户对某新闻感兴趣的程度，v＝d_len/t。d_len为新闻单词数，t为用户停留时间。同时，对这些阅读速度进行归一化得到ν′，然后与对应的新闻特征相乘，最后将这些特征相加得到用户长期兴趣特征u_l，计算如下：

其中，d_i和ν′_i表示对应用户点击记录中第i项的新闻特征和归一化后的阅读速度。

针对用户热兴趣模块，该模块接受经特征提取模块处理的用户近期点击序列特征。本发明采用Transformer网络对用户短期的交互序列进行嵌入，Transformer网络因其特性在嵌入中考虑了新闻项之间的顺序关系。此外，基于注意力机制的神经网络模型也可以通过注意力引导模型关注那些对用户的最终选择影响较大的特征。假设用户u的最新点击的l条新闻{d₁,d₂,…,d_l}，使用多头注意机制来建模用户最近点击的新闻对候选新闻d的不同影响，计算用户热兴趣嵌入u_s：

其中u_c是用户当前的内容级兴趣嵌入，α_j是用户点击新闻d_j(j＝1,…,l)对候选新闻d的影响权重。将长期用户嵌入向量u_l和短期用户嵌入向量u_s的串联后通过一个全连接网络变换为K＝50维，计算得到最终用户嵌入u＝W[u_l；u_s]。最后将用户嵌入u与候选新闻嵌入

进行比较，通过余弦相似性计算

来进行用户u点击新闻d的概率预测：

模型结构如图2所示，新闻推荐模型由文本特征提取模块，残差GCN模块和用户热兴趣模块构成。

其中，文本特征提取模块首先通过文本特征提取器将步骤1所得的新闻文本向量转换为文本特征向量(即通过文本特征提取器将新闻文本中的每个文本词向量转换为文本特征向量)，图2中的CNN部分即为文本特征提取器。该模块利用两个平行的CNN分别提取新闻的标题和概要特征，然后将两部分特征拼接起来作为基础的新闻特征供后续模块使用。

残差GCN模块由基于GCN的图网络模块组成，GCN模块堆叠3层GCN网络，用于提取用户长期兴趣特征以及新闻特征。

用户热兴趣模块由基于Transformer的序列模型组成，Transformer由6个基础的编码器和解码器组成，用于从近期行为序列中提取用户短期兴趣特征。

本领域的技术人员可以理解，新闻推荐模型训练的具体参数设计过程如下：

1)模型训练过程如图3所示。选定的用户近期点击新闻数设置为10。对于LDA，主题数设置为20。在GCN中，节点采样固定数量的相邻用户与相邻新闻文档，其中用户采样节点和新闻采样节点数量设置为10和30。训练数据(即训练用的网络话题所对应的融合向量时间序列)采用256的批大小，每一次训练，计算模型的损失函数值，基于损失函数值，使用Adam优化算法调整模型参数，当本次损失函数值高于前次损失函数值时，模型训练终止。使用平均值为0、标准偏差为0.1的高斯分布随机初始化用户与主题的嵌入。采用Adam算法对参数进行优化，学习率为0.0001。L2正则系数设置为0.005，dropout设置为0.5。

为了训练本发明中的模型，从现有的点击阅读历史中选择正样本，从未出现的点击行为中选择等量的负样本。训练样本表示为X＝(u，x，y)，其中x是y用来预测的是否会被点击的候选新闻，y是预测的点击概率。每个正样本y＝1，每个负样本y＝0。每个输入样本都有各自的估计概率

用以表示用户是否会点击新闻x。本申请中对新闻推荐模型训练时所采用的损失函数为交叉熵损失函数，损失函数计算如下；

上式中δ+表示正样本数据集，δ-是负样本数据集，||W||₂为网络中所有可训练参数的L2正则化，λ是惩罚系数。

2)排序推荐。

新闻推荐模型输出用户点击输入模型的一系列候选新闻的概率P＝{p₁,p₂,…,p_l}，基于此概率分数对这些候选新闻进行排序，选择排名靠前的K篇候选新闻作为推荐结果展示给用户，K可为大于1小于候选新闻序列长度的整数。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于用户兴趣建模的新闻推荐方法，其特征在于，包括以下步骤：

步骤2、新闻推荐模型的构建与训练：

步骤3、新闻推荐模型输出用户点击的预测结果：

2.如权利要求1所述方法，其特征在于，所述预处理包括过滤停用词以及新闻简介中无意义的实体和实体类型，再对过滤处理后得到的语料进行编码转换，采用独热编码的方式将单词初步转换为向量模式，最后将新闻文本向量作为预处理后的新闻数据。

3.如权利要求1所述方法，其特征在于，所述新闻数据包含由阅读会话事件开始与结束的时间计算得出的用户停留时间、新闻标题单词序列、新闻概要实体的单词序列以及新闻正文的单词。