CN115048586A

CN115048586A - 一种融合多特征的新闻推荐方法及系统

Info

Publication number: CN115048586A
Application number: CN202210958119.4A
Authority: CN
Inventors: 郑海利; 陈平华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-09-13
Anticipated expiration: 2042-08-11
Also published as: CN115048586B

Abstract

本发明提供了一种融合多特征的新闻推荐方法及系统，分别获取候选新闻特征信息和历史点击新闻特征信息；基于所述候选新闻特征信息，获得候选新闻表征向量；基于所述历史点击新闻特征信息，获得历史点击新闻表征向量；基于所述历史点击新闻表征向量和用户行为特征向量，获得用户兴趣向量；基于所述候选新闻表征向量和所述用户兴趣向量，获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。本发明充分利用新闻中的特征信息，形成更准确和全面的新闻表征，有效结合发生行为的上下文特征信息以及用户真实的行为特征信息，挖掘用户对新闻的喜好程度，建立更准确的兴趣模型。

Description

一种融合多特征的新闻推荐方法及系统

技术领域

本发明属于计算机应用技术领域，尤其涉及一种融合多特征的新闻推荐方法及系统。

背景技术

随着科技的迅速发展和广泛应用互联网信息技术，互联网已逐渐成为人们获取信息的重要渠道。世界上每天都有数以亿计的网络信息出现，人们从信息时代“客户时代”逐步进入信息超载时代。面对如此巨大的信息量，互联网用户往往无法快速有效地获取他们所需要的真正有价值的信息。个性化新闻推荐技术是一个帮助用户快速找到他们最有可能感兴趣的信息的工具，研究如何处理海量的异构新闻数据，构建最优的用户偏好模型，提高新闻个性化推荐的整体性能，能够帮助用户有效缓解信息过载，帮助平台增强用户的黏着性，实现双方的共赢。

新闻内容作为用户兴趣的反映，包含丰富的信息。比如用户即使点击新闻的内容不同，也可能属于一个类别，占多数的类别反映了用户的长期兴趣；新闻的关键词或者标签也可能直接反映用户的兴趣点。因此，充分利用新闻的特征信息是有效的。然而，现有的方法大多只考虑了标题和内容，很难学习到准确的新闻表征。

对用户的建模大多是基于静态的用户画像和最近的用户行为，假定每一个点击序列都能刻画用户的兴趣，但是在新闻推荐中，新闻具有很强的时效性，间隔很久浏览的新闻对当前用户的兴趣影响较小；用户的兴趣点常常发生漂移，兴趣跨度比较大，可能用户点击了热点新闻或者仅仅被标题吸引而不真正的对内容感兴趣。当前的方法没有很好的结合用户行为的特征信息建模用户的兴趣模型，模拟和理解真实的点击情况，导致对用户的推荐结果不够准确。

发明内容

为解决上述技术问题，本发明提出一种融合多特征的新闻推荐方法，该方法形成更准确的新闻表征，建立更准确的用户兴趣模型。

为实现上述目的，本发明提供了一种融合多特征的新闻推荐方法，包括如下步骤：

分别获取候选新闻特征信息和历史点击新闻特征信息；

基于所述候选新闻特征信息，获得候选新闻表征向量；

基于所述历史点击新闻特征信息，获得历史点击新闻表征向量；

基于所述历史点击新闻表征向量和用户行为特征向量，获得用户兴趣向量；

基于所述候选新闻表征向量和所述用户兴趣向量，获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。

优选的，所述候选新闻特征信息和所述历史点击新闻特征信息均包括标题特征、类别特征和正文特征。

优选的，获得所述候选新闻表征向量和所述历史点击新闻表征向量的方法均包括：

将所述标题特征、所述类别特征和所述正文特征分别转换为标题向量、类别向量和正文向量；

基于注意力机制，对所述标题向量、所述类别向量和所述正文向量进行融合，获得新闻表征向量。

优选的，将所述标题特征转换为所述标题向量的方法包括：

基于自然语言处理实体识别技术，获得新闻实体关键词；

基于训练好的词嵌入向量，将所述新闻实体关键词的单词序列转换为低维词向量序列；

基于卷积神经网络，对所述低维词向量序列进行卷积运算，获得所述低维词向量序列的局部上下文特征；

对所述低维词向量序列的局部上下文特征进行最大值池化，获得整体的标题向量表示；

对所述新闻实体关键词进行注意力系数求和，获得关注实体向量；

基于所述整体的标题向量表示和所述关注实体向量，获得所述标题向量。

优选的，将所述类别特征转换为所述类别向量的方法包括：

基于查表的方式，将所述类别特征转换为低维向量；

基于所述低维向量，获得所述类别向量。

优选的，将所述正文特征转换为所述正文向量的方法包括：基于训练语料和主题模型，从所述正文向量中提取潜在的主题分布；

基于所述主题分布，获得词分布；基于所述词分布，获得所述正文向量。

优选的，基于所述历史点击新闻表征向量和所述用户行为特征向量，获得用户兴趣向量的方法包括：

基于自注意力机制，获得所述历史点击新闻表征向量之间的相关性；

基于指数衰减函数，获得时间向量；

基于阅读时间上限阈值，获得用户对历史点击新闻的停留时间向量；

基于所述时间向量和所述用户对历史点击新闻的停留时间向量，利用元素积的方式，获得所述用户行为特征向量；

基于所述历史点击新闻表征向量之间的相关性和所述用户行为特征向量，利用GRU网络，获得用户的短期兴趣；

基于用户的嵌入向量，获得用户的长期兴趣；

基于全连接层，拼接所述用户的短期兴趣和所述用户的长期兴趣，获得用户兴趣向量。

一种融合多特征的新闻推荐系统，包括获取模块、候选新闻表征模块、历史点击新闻表征模块、用户兴趣挖掘模块和新闻推荐模块；

所述获取模块用于分别获取候选新闻特征信息和历史点击新闻特征信息；

所述候选新闻表征模块用于基于所述候选新闻特征信息，获得候选新闻表征向量；

所述历史点击新闻表征模块用于基于所述历史点击新闻特征信息，获得历史点击新闻表征向量；

所述用户兴趣挖掘模块用于基于所述历史点击新闻表征向量和所述用户行为特征向量，获得用户兴趣向量；

所述新闻推荐模块用于基于所述候选新闻表征向量和所述用户兴趣向量，获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。

与现有技术相比，本发明具有如下优点和技术效果：

现有技术在新闻表征阶段多由人工选取有用特征，并且没有充分利用新闻的多种特征信息。本发明技术结合新闻信息的特点，设计了一个合理的特征提取和融合方案，无需人工设计特征，并且可以附加别的特征信息，有很强的拓展性。

现有技术在用户兴趣建模阶段多采用特征交叉和记忆的方法，没有很好的利用用户的行为特征。本发明技术从用户可能的行为特点出发，考虑两种时间因素对用户兴趣的影响，是对用户时间点击情况的模拟和理解，能够更好的衡量不同新闻对用户兴趣建模的重要性。同时考虑长短期兴趣对用户感兴趣的新闻进行预测。本发明具有广阔的推广空间和使用价值。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一一种融合多特征的新闻推荐方法的流程示意图；

图2为本发明实施例二一种融合多特征的新闻推荐系统的结构示意图；

图3为本发明实施例二获得新闻表征向量的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一：

一种融合多特征的新闻推荐方法，如图1所示，具体方法包括：分别获取候选新闻特征信息和历史点击新闻特征信息；基于候选新闻特征信息，获得候选新闻表征向量；基于历史点击新闻特征信息，获得历史点击新闻表征向量；基于历史点击新闻表征向量和用户行为特征向量，获得用户兴趣向量；基于候选新闻表征向量和用户兴趣向量，获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。

优选的，候选新闻特征信息和历史点击新闻特征信息均包括标题特征、类别特征和正文特征。

优选的，获得候选新闻表征向量和历史点击新闻表征向量的方法均包括：

将标题特征、类别特征和正文特征分别转换为标题向量、类别向量和正文向量；基于注意力机制，对标题向量、类别向量和正文向量进行融合，获得新闻表征向量。

优选的，将标题特征转换为标题向量的方法包括：

基于自然语言处理实体识别技术，获得新闻实体关键词；基于训练好的词嵌入向量，将新闻实体关键词的单词序列转换为低维词向量序列；基于卷积神经网络，对低维词向量序列进行卷积运算，获得低维词向量序列的局部上下文特征；对低维词向量序列的局部上下文特征进行最大值池化，获得整体的标题向量表示；对新闻实体关键词进行注意力系数求和，获得关注实体向量；基于整体的标题向量表示和所述关注实体向量，获得标题向量。

对于新闻的标题特征，新闻标题本身是对内容的高度凝练，通常情况下包含实体关键词，用户大概率被陈述实体所吸引，通过自然语言处理中实体识别技术识别出新闻实体。然后通过训练好的词嵌入向量，将单词序列转换为低维词向量序列。一方面对标题向量通过CNN(卷积神经网络)，使用卷积运算来捕获单词的局部上下文特征，然后再通过最大值池化每一个卷积，拼接获得整体的标题向量表示。一维卷积层是深度学习中常用的架构，通过可训练参数构成的卷积核即矩阵参数在输入的矩阵上进行滑动计算。卷积对文本的高阶特征提取是利用卷积核提取局部特征，通过滑动得到全文的各个部分的局部特征，再通过池化操作选取突出特征。反复叠加卷积、池化操作从而得到高阶局部特征。卷积核的计算是卷积核与其当前输入矩阵被覆盖位置的部分对应相乘再求和得到当前部分位置的一个特征值。然后卷积核再像下平移对新覆盖的区域进行特征值计算然后继续滑动直到走完全部输入。此外，由于文本词向量的性质，对文本的一维卷积卷积核默认宽为词向量维度大小；另外由于卷积核内参数的不同，它与卷积部分的计算得到的特征值不同，我们可以将其视为是对不同特征的一个侧重提取。因此我们往往使用多个卷积核对同一输入进行计算得到不同的特征值使得提取到的高阶特征更加的丰富。另一方面，用户对不同关键实体的关注程度是不一样的，通过实体注意力层衡量用户感兴趣的点，使用注意力系数求和得到关注实体向量。整体的标题向量表示和关注实体向量，获得标题向量。

优选的，将类别特征转换为所述类别向量的方法包括：基于查表的方式，将所述类别特征转换为低维向量；基于所述低维向量，获得所述类别向量。

对于新闻的类别特征，用于提取新闻的显式主题特征，比如新闻可以分为财经、体育、科技等，同时大类别下可能存在子类别，直接反映用户的关注领域。类别特征采用查表的方式转换为低维向量，表的大小就是类别数。

优选的，将所述正文特征转换为所述正文向量的方法包括：基于训练语料和主题模型，从正文向量中提取潜在的主题分布；基于主题分布，获得词分布；基于词分布，获得正文向量。

对于新闻正文特征，通常长短不一，通过主题模型LDA从正文中提取潜在主题分布。给定一组由所有新闻正文组成的训练语料，LDA为每条新闻生成其主题分布，并且为每个主题生成其词分布。经过LDA生成K维向量，每一维表示新闻属于某一潜在主题的概率。然后经过一个MLP全连接层，使用非线性激活函数，这样能够使得主题分布映射到与标题和类别表示相同的隐空间中。

最后，对于新闻的特征，对于刻画用户的兴趣重要程度不一样，标题和关键实体常常反映用户的临时兴趣，而类别和潜在主题分布则体现用户对某一领域的长期兴趣，采用注意力机制用于建模不同新闻信息的不同的重要性程度并形成统一的新闻表示向量。分别记标题文本、标题关键实体、类别、正文主题分布的注意力权重为

采用神经网络拟合查询向量与各表示向量之间的相似性程度，然后利用softmax 函数对相似性计算结果进行归一化以求得权重系数,公式如下：

同理可求

则新闻的最终表征为：

新闻的最终表征即为候选新闻表征向量和历史点击新闻表征向量。

基于历史点击新闻表征向量和用户行为特征向量，获得用户兴趣向量的方法包括：

基于自注意力机制，获得历史点击新闻表征向量之间的相关性；

基于指数衰减函数，获得时间向量；基于阅读时间上限阈值，获得用户对历史点击新闻的停留时间向量；基于时间向量和用户对历史点击新闻的停留时间向量，利用元素积的方式，获得时间特征系数，即获得用户行为特征向量；基于历史点击新闻表征向量之间的相关性和用户行为特征向量，利用GRU网络，获得用户的短期兴趣；基于用户的嵌入向量，获得用户的长期兴趣；基于全连接层，拼接用户的短期兴趣和用户的长期兴趣，获得用户兴趣向量。

通过历史点击新闻表征向量，用户的历史点击序列编码成了向量矩阵。用户兴趣挖掘模块用来捕获用户随时间演化的动态兴趣，通过用户行为特征向量，获得用户兴趣向量，用户兴趣挖掘模块主要解决三个问题：挖掘不同新闻间的相关性、考虑用户行为特征建模用户兴趣、联合长短期兴趣。

首先，用户点击的新闻可能具备内在联系，最近自注意力机制在序列建模应用体现了强大的性能，它通过三个可学习的参数矩阵

处理输入形成

向量，意在学习上下文项目和当前项目的相关性大小，可以同时学习长短距离依赖，因此通过自注意力层增强新闻表征之间的相关性，历史点击新闻表征向量的向量矩阵通过自注意力层后形状没有变化。

由于新闻具有很强的时效性，都有新的新闻出现，而几天前的新闻对用户当前的兴趣影响较小，因此引入用户点击的时间因素是有必要的。这里采用指数衰减函数：

代表最近的一次点击距历史点击的时间间隔，

是可学习的参数，这样可以使得距离当前点击越久的新闻预测下一个新闻点击的影响就越小。最终得到时间向量

是用户点击序列的长度，R代表实数，长度为L的实数相连的每一维度反映了点击新闻时间的重要性系数。

除此之外，还有一个重要的用户行为特征是用户浏览当前新闻的停留时间

。通常来讲，用户如果在当前新闻停留时间较长，用户对当前新闻内容越感兴趣，这样能在一定程度上抑制用户单纯由于新闻标题吸引和对内容不感兴趣对用户兴趣建模的影响。为了考虑用户离开新闻页面导致的长时间停留情况，需要给阅读时间设置阅读时间上限的阈值，如500秒。用当前新闻停留时间除以序列中总的停留时间，可以反映用户对这些新闻的相对关注度：

则用户的停留时间向量

，每一维度反映了用户停留时间的重要性系数。

总和以上两种用户的时间行为特征，采用元素积的方式，每一维度对应相乘，得到时间特征系数：

则

, 采用元素积的方式在于二者可以相互辅助，即便距离当前时间较远的新闻，也可能由于停留时间较长而得到较大的注意力系数；而距离当前时间较近的新闻也会因为较小的停留时间而得到较小的注意力系数。对用户时间行为的考虑，是对用户兴趣的更全面、更准确的衡量。

为了捕捉用户随时间不断进化的兴趣，利用GRU网络从历史点击行为序列中建模用户的顺序兴趣。GRU 擅长处理具有时序特征的数据，其结合当前时刻的输入和上一时刻的隐状态输出，经特定计算，得到当前时刻的隐状态输出。该计算过程将被重复执行，并且通过重置门和更新门来控制信息的多少以及流向。注意力得分

在GRU的每一步中都可以增强相关兴趣所起的作用，减弱无关兴趣对总体结果的影响，更好地建模用户对目标项的兴趣变化。但是由于隐藏状态

只捕捉了用户兴趣之间的相互依赖关系，并不能有效的表示用户动态变化的兴趣。通过使用注意力分数

来控制GRU隐藏状态的更新来解决这个问题，保留原始重置门

的信息，注意力分数越小，对隐藏状态的影响越小：

是融合时间注意力分数后的更新门，能够对输入信息进行控制。最后将GRU网络的最后一个输出作为用户短期兴趣的表示，记为

。同时用户的长期兴趣反映用户的一般性特征，将用户的嵌入向量作为长期兴趣，记为

。最后将长期兴趣和短期兴趣拼接在一起，通过一个全连接层DNN，这样使得长短兴趣特征充分结合，得到用户兴趣向量，并且向量维度和候选新闻的表征维度相同。最后通过用户兴趣向量和候选新闻表征向量的内积作为用户对候选新闻的点击率。

对用户喜爱新闻的推荐的具体方法如下：

对在线新闻服务平台来说，用户和新闻表示可以提前离线计算出来，为了减少推荐延迟，点击率的计算应该尽可能简单。因此，使用内积计算用户对候选新闻的点击率：

此外，新闻推荐中正负样本比例高度不平衡，一个用户点击的新闻，即正样本，在新闻稿件库中的比例非常小，所以为了更好的训练模型，采用负采样策略，随机采样M条出现在该用户的会话中，但是未被点击的新闻作为负样本。则点击率的预测问题可以看作M+1类分类任务，采用交叉熵损失函数来优化该分类问题。M代表随机采样的条数，M+1代表分类个数。首先将这些点击概率进行softmax归一化以计算正样本的后验点击概率：

其中

是正样本，

是相对于正样本的R中的负样本，接着使用所有正样本的负对数似然函数作为最终的损失函数：

其中P表示所有正新闻样本的集合。

获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。

实施例二：

获取模块用于分别获取候选新闻特征信息和历史点击新闻特征信息；候选新闻特征信息和历史点击新闻特征信息均包括标题特征、类别特征和正文特征。

候选新闻表征模块用于基于所述候选新闻特征信息，获得候选新闻表征向量；

历史点击新闻表征模块用于基于所述历史点击新闻特征信息，获得历史点击新闻表征向量；

候选新闻表征模块和历史点击新闻表征模块向量转换的方法均如下所述：将标题特征、类别特征和正文特征分别转换为标题向量、类别向量和正文向量；基于注意力机制，对所述标题向量、所述类别向量和所述正文向量进行融合，获得新闻表征向量。获得新闻表征向量的具体流程如图3所示。

标题特征转换为标题向量的方法包括：基于自然语言处理实体识别技术，获得新闻实体关键词；基于训练好的词嵌入向量，将新闻实体关键词的单词序列转换为低维词向量序列；基于卷积神经网络，对低维词向量序列进行卷积运算，获得低维词向量序列的局部上下文特征；对低维词向量序列的局部上下文特征进行最大值池化，获得整体的标题向量表示；对新闻实体关键词进行注意力系数求和，获得关注实体向量；基于整体的标题向量表示和关注实体向量，获得所述标题向量。

类别特征转换为所述类别向量的方法包括：基于查表的方式，将类别特征转换为低维向量；基于所述低维向量，获得类别向量。

将正文特征转换为正文向量的方法包括：基于训练语料和主题模型，从正文向量中提取潜在的主题分布；基于所述主题分布，获得词分布；基于词分布，获得正文向量。

用户兴趣挖掘模块用于基于所述历史点击新闻表征向量，获得用户兴趣向量；基于自注意力机制，获得所述历史点击新闻表征向量之间的相关性；基于指数衰减函数，获得时间向量；基于阅读时间上限阈值，获得用户对历史点击新闻的停留时间向量；基于所述时间向量和所述用户对历史点击新闻的停留时间向量，利用元素积的方式，获得用户行为特征向量；基于历史点击新闻表征向量之间的相关性和所述用户行为特征向量，利用GRU网络，获得用户的短期兴趣；基于用户的嵌入向量，获得用户的长期兴趣；基于全连接层，拼接所述用户的短期兴趣和所述用户的长期兴趣，获得用户兴趣向量。

新闻推荐模块用于基于候选新闻表征向量和用户兴趣向量，获得用户对候选新闻的点击率，完成对用户喜爱新闻的推荐。整体结构如图2所示。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融合多特征的新闻推荐方法，其特征在于，

分别获取候选新闻特征信息和历史点击新闻特征信息；

基于所述候选新闻特征信息，获得候选新闻表征向量；

2.根据权利要求1所述的一种融合多特征的新闻推荐方法，其特征在于，

所述候选新闻特征信息和所述历史点击新闻特征信息均包括标题特征、类别特征和正文特征。

3.根据权利要求2所述的一种融合多特征的新闻推荐方法，其特征在于，获得所述候选新闻表征向量和所述历史点击新闻表征向量的方法均包括：

4.根据权利要求3所述的一种融合多特征的新闻推荐方法，其特征在于，将所述标题特征转换为所述标题向量的方法包括：

基于自然语言处理实体识别技术，获得新闻实体关键词；

5.根据权利要求3所述的一种融合多特征的新闻推荐方法，其特征在于，将所述类别特征转换为所述类别向量的方法包括：

基于查表的方式，将所述类别特征转换为低维向量；

基于所述低维向量，获得所述类别向量。

6.根据权利要求3所述的一种融合多特征的新闻推荐方法，其特征在于，将所述正文特征转换为所述正文向量的方法包括：

基于训练语料和主题模型，从所述正文向量中提取潜在的主题分布；

基于所述主题分布，获得词分布；

基于所述词分布，获得所述正文向量。

7.根据权利要求1所述的一种融合多特征的新闻推荐方法，其特征在于，基于所述历史点击新闻表征向量和所述用户行为特征向量，获得用户兴趣向量的方法包括：

基于指数衰减函数，获得时间向量；

基于用户的嵌入向量，获得用户的长期兴趣；

8.一种融合多特征的新闻推荐系统，其特征在于，包括获取模块、候选新闻表征模块、历史点击新闻表征模块、用户兴趣挖掘模块和新闻推荐模块；

所述用户兴趣挖掘模块用于基于所述历史点击新闻表征向量和用户行为特征向量，获得用户兴趣向量；