CN113343142A

CN113343142A - 一种基于用户行为序列填充和筛选的新闻点击率预测方法

Info

Publication number: CN113343142A
Application number: CN202110527149.5A
Authority: CN
Inventors: 蔡世民; 黄振; 胡铮; 曾重庆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-09-03
Anticipated expiration: 2041-05-14
Also published as: CN113343142B

Abstract

该发明公开了一种基于用户行为序列填充和筛选的新闻点击率预测方法，属于信息处理领域，特别是基于用户行为序列填充和筛选的新闻点击率预测方法。和现有的技术相比，本发明在用户行为序列较短时，对行为序列进行了有意义的填充，使得序列填充用户潜在可能会点击的行为；当用户行为序列较长时，进行行为的筛选，使得行为序列能够近似全局兴趣的情况下兼顾考虑和候选新闻的关系；建立了用户行为序列填充和筛选方法，只需要通过简单的预训练方法就可以进行文本语义相似度的计算，从而进行用户行为的填充和筛选，大大的节约了计算时间和有助于方法的快速迁移；在真实的数据集上进行了大量的实验并且进行了充分的对比，本发明方法能够取得更好的实验结果。

Description

一种基于用户行为序列填充和筛选的新闻点击率预测方法

技术领域

本发明属于信息处理领域，特别是基于用户行为序列填充和筛选的新闻点击率预测方法。

背景技术

关键术语定义：

用户行为序列：用户行为序列是指用户与新闻产生实际交互的有效行为，用户行为可以反应用户的兴趣特点，从而根据用户的兴趣特点进行推荐他感兴趣的内容。

行为序列填充：在用户行为序列较短时，通过一定的技术手段进行补充，使得用户序列行为达到一定数量。

行为序列筛选：在用户行为序列较短时，通过一定的技术手段进行筛选，使得筛选的用户行为达到一定数量。

注意力网络：注意力网络是根据一段文本中不同文字的重要性程度，计算出相应的权重值，使得该值可以表示文字的重要性程度。

新闻点击率预测在线上新闻推荐平台中起着至关重要的作用，为了构建准确的新闻推荐方法，通常是根据用户的行为序列获取用户新闻兴趣，从而基于用户个人兴趣构建个性化新闻推荐。

线上新闻平台如：腾讯新闻、网易新闻、谷歌信息、微软新闻等极大的满足了用户在线观看新闻的需求。这些线上新闻平台每天会产生大量的新闻内容，他们的主要目的是预测用户对于指定新闻的点击概率。大量的用户在这些平台上产生了海量的新闻点击和浏览行为，如何充分的利用这些行为提高CTR的预测，成为了新闻线上平台一个至关重要的问题。

在传统方法中，如DeepFM、NFM等方法被提出，DeepFM方法将FM的方法和Wide&Deep方法进行了整合，延续了双方法组合的结构，同时将Wide&Deep的Wide部分替换成了FM，加强了浅层网络的组合能力；NFM用神经网络替换了FM中二阶隐向量的交叉方式，使得其具有更强的表达能力和特征交叉能力。在深度学习方法中，如NPA、NRMS等新闻推荐方法。NPA方法使用词嵌入方法表示新闻内容，通过CNN方法进行第一次提取新闻特征，再使用attention第二次提取新闻特征，得到最后候选新闻的表示，在其基础上再进行一次attention得到用户行为的表示。NRMS使用多头的attention神经网络进行候选新闻和用户行为方法的建立。

现有技术的缺点：

传统推荐方法，由于网络结构比较简单，文本的特征提取和特征交叉能力始终有限，不能进一步的提升文本的理解能力。深度推荐方法，进一步提取了文本的语义信息，然而没有对用户行为序列的充分关注使得用户行为序列表达不完整，不能再提升推荐效果。

同时，在用户序列较短时用户的行为序列不能完整的刻画用户的行为兴趣，这样导致用户的行为兴趣是不准确的，从而影响了新闻点击预测的准确性。在用户行为序列较长时，一般的方法是截取用户最近的历史行为，然而这样只能获得用户的局部兴趣，忽略了用户的全局的兴趣；还有一种方法是进行全局的随机抽样去近似用户的全局兴趣，但是这样却忽略了和候选新闻的关系。

发明内容

在本文中，为了解决上述出现的问题，尝试从数据视角出发。目标是建立一个用户行为序列的填充和筛选方法从而得到用户最终的行为序列，使得这个行为序列能够更好的进行新闻点击率的预测。

在同一个用户的不同候选新闻方面，其他方法是使用用户最近行为进行预测；而在本发明方法中会从行为序列中选择不同的行为，使用最后形成的行为序列进行预测。整体框架中包括了用户行为序列填充和筛选方法、新闻点击率预测方法，用户行为序列填充和筛选基于sentence-bert网络方法进行行为序列的填充和筛序；新闻点击率预测方法基于bert方法得到最终的预测概率。

本发明本技术方案为一种基于用户行为序列填充和筛选的新闻点击率预测方法，该方法包括：

步骤1：数据获取；

使用微软提供的新闻数据集MIND(Microsoft News Dataset)，从MIND数据集中随机抽样50000用户和他们的行为记录，记为MIND-small数据集；MIND-small数据集中包括两部分，用户数据、新闻数据；用户数据的属性包括：用户ID、时间戳、用户点击历史，新闻数据的属性包括：新闻ID、新闻标题、新闻摘要、新闻内容、新闻类别；

步骤2：用户行为序列填充，用户行序列是由用户点击的新闻组成，一个点击新闻代表了一个行为；

当用户的行为序列中的数量N小于等于G时采用符号“0”或者其它相应符号进行填充这些用户行为序列，G为用户行为序列可以填充的最小阈值，；

当用户行为序列中的数量N大于G少于阈值K时，将这些用户行为序列使用sentence-Bert方法得到用户行为序列向量，使用sentence-Bert方法得到所有新闻列表中每个新闻的句子向量，计算用户行为序列向量与新闻的句子向量的相关度，选取相关度最大的K-N个新闻进行用户行为填充；

步骤3：用户行为序列筛选，当用户行为序列中的数量N大于K时，对用户行为进行筛选；

计算该用户N个行为与候选新闻的相关度，从这N个行为中筛选出与候选新闻相关度最大的S个行为，S小于K，再从剩余行为中随机选择K-S个行为，共同组成K个行为；

步骤4：新闻点击预测；

将在获得最终的用户行为序列之后，构建新闻点击概率预测神经网络模型，该模型输入为用户行为序列和当前候选新闻，输出为候选新闻被点击的概率，该神经网络的损失函数L为：

y_i为新闻点击率样本标签，当用户点击了该候选新闻时为1，否则为0；

为模型实际的输出概率值，D为训练样本的总数量。

进一步的，所述步骤2中G大于等于6小于等于8，K大于等于12小于等于15。

进一步的，所述步骤2和步骤3中计算相关度为余弦相关度。

和现有的技术相比，本发明有益效果为：

1.在用户行为序列较短时，对行为序列进行了有意义的填充，使得序列填充用户潜在可能会点击的行为；当用户行为序列较长时，进行行为的筛选，使得行为序列能够近似全局兴趣的情况下兼顾考虑和候选新闻的关系

2.建立了用户行为序列填充和筛选方法，只需要通过简单的预训练方法就可以进行文本语义相似度的计算，从而进行用户行为的填充和筛选，大大的节约了计算时间和有助于方法的快速迁移。

3.本文提出的方法，在真实的数据集上进行了大量的实验并且进行了充分的对比，的方法能够取得更好的实验结果。

附图说明

图1为整体方法架构图。

图2为用户行为序列填充和筛选方法图。

图3为新闻点击率预测方法图。

具体实施方案

为了使本发明的目的更加清楚，以下结合附图对本发明进一步详细介绍。

图1可视化地表示出了本发明提出的新闻点击率预测方法的整体架构。具体而言包括用户行为序列填充和筛选方法、新闻点击率预测方法。用户和新闻构成了user-item的二部图，用户点击的新闻映射为初始用户行为，用户未点击的新闻是潜在的用户行为。在新闻填充和选择方法中，在未点击新闻中寻找潜在新闻进行行为填充；在点击新闻中选择候选新闻相关的新闻表示行为序列，二者共同形成了最终的用户行为序列。最终的用户行为序列和候选新闻共同输入到预测方法中，计算得到最终新闻点击概率。

图2介绍了用户行为序列填充和筛选方法，在图左边是用户序列填充方法：

将上述过程抽象为数学表达，用户行为序列中包括N个用户行为B＝{b₁，b₂...，b_N},新闻列表中包括M个新闻E＝{e₁，e₂...，e_M},候选新闻为C＝{c_i；i＝1，2，3，...},则：

sb_ei＝SB(e_i)，i＝1，2，...，M

SB表示Sentence-Bert方法，

表示将左右两边的行为拼接为一个行为，sb_b表示用户行为全局向量，sb_ei表示第i个新闻的全局向量，则：

s_i＝cosin(sb_b，sb_ei)，i＝1，2，...，M

cosin表示使用余弦相似度计算二者的相关度，s_i表示第i个新闻和当前用户行为的相似度，则最终的用户行为序列为：

top-sim表示选择一定数量的相似度最高的新闻和原始新闻共同组成最终的用户行为序列(ffb)，fill-zero表示使用符号“0”对行为序列进行填充形成最终的用户行为序列。图2左边为用户序列筛选方法：

抽象为数学表达式为：

sb_bi＝SB(b_i)，i＝1，2，...，N

sb_c＝SB(C)

s_bi＝cosin(sb_bi，sb_c)，i＝1，2，...，N

sb_bi表示用户行为序列中每个行为经过Sentence-Bert得到的向量表示，sb_c表示当前候选新闻经过Sentence-Bert的向量表示，s_bi计算二者的相关度使用余弦函数。从用户行为序列选择S个和候选新闻相关的：

fsb＝sort-sim(S，s_bi，B)，i＝1，2，...，N

sort-sim表示从用户行为序列中选择S个最相关的行为，使得用户行为序列中至少包含这S个行为。

最后得到用户行为序列的最终表达式为：

图3为新闻点击率预测方法：

整个过程描述为：

cls＝bert(b₁，b₂，...，b_i，C)，b_i∈fb

bert是Bert方法，cls是Bert方法输出的分类向量，通过Bert方法最终得到了用户行为和候选新闻的分类向量。在cls向量后面接上一层感知网络，通过softmax得到点击概率：

x_i＝cls_i×w+b

cls_i是每个训练样本的分类向量，w是感知网络的一次项参数，b是常数项参数，x_i是经过感知网络的神经网络向量，y_i是用户对当前候选新闻的点击概率。