CN104166668A

CN104166668A - 基于folfm模型的新闻推荐系统及方法

Info

Publication number: CN104166668A
Application number: CN201410254094.5A
Authority: CN
Inventors: 张卫丰; 周磊; 王云; 王子元; 张迎周; 周国强
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2014-06-09
Filing date: 2014-06-09
Publication date: 2014-11-26
Anticipated expiration: 2034-06-09
Also published as: CN104166668B

Abstract

本发明提供一种基于FOLFM模型的新闻推荐系统及方法，在基于内容推荐方法的基础上，利用隐类模型和内容特征对新闻内容模型进行抽象表达，为每个用户构建其个性化的隐类偏好模型。通过对用户的实时行为记录进行实时训练得到用户对于某个隐类新闻的偏好，计算决定新闻是否推荐给用户，并经过一系列的处理过程得到最终的新闻推荐列表，本发明深入挖掘用户兴趣，提高推荐准确率及用户满意度，避免新闻的冷启动问题，在尽可能提高推荐效果的情况下保证性能。经实验表明，本发明既保证了高精度和高速度要求，又实现了用户视觉上的实时推荐。

Description

基于FOLFM模型的新闻推荐系统及方法

技术领域

本发明涉及一种个性化新闻推荐系统及方法，具体一种基于FOLFM隐语义模型的新闻推荐方法，主要改进传统LFM(Latent factor model，隐语义模型)为FOLFM(Fast Online Latent FactorModel，快速在线学习隐语义模型)并将其应用于挖掘新闻网站中的隐性反馈数据集，通过实时的新闻分类和用户兴趣聚类进行TopN推荐，属于自然语言处理领域。

背景技术

个性化推荐系统是一种帮助用户快速发现有用信息的工具，可以为不同的用户提供个性化服务，以满足其特定的兴趣和需求。与搜索引擎不同，推荐系统不需要用户提供明确的需求，而是通过分析用户的历史行为对用户的兴趣建模，并以此为依据主动给用户推荐能够满足他们兴趣和需求的信息。

在互联网的各类网站中都可以看到个性化推荐系统的应用，包括电子商务、电影及视频、音乐、社交网络等等。淘宝、亚马逊等应用推荐系统，通过协同过滤等个性化推荐模型预测用户可能感兴趣的商品为其推荐。协同过滤推荐(Collaborative Filtering，CF)是利用某个兴趣相投、拥有共同经验的群体的喜好来向使用者推荐其感兴趣的物品或信息。Facebook、Twitter等利用个性化推荐系统向用户推荐好友、音乐等内容，提高网站的点击率与转化率。

个性化新闻推荐系统是根据用户的兴趣特点和行为，向用户推荐其感兴趣的新闻资讯的推荐系统。个性化新闻推荐技术则是个性化推荐在新闻处理领域中的一个延伸应用，它是通过推荐系统将新闻自动推荐给对其感兴趣的用户，实现新闻网站及网站用户的利益双贏。个性化新闻推荐系统将个性化推荐应用于新闻的推荐，它可以帮助用户从互联网上的海量信息中轻松获取感兴趣的新闻，并挖掘用户可能感兴趣的内容。

新闻属于某个或多个主题类(例如体育、政治等)，所以每篇新闻的归属不是唯一的，且用户的兴趣分类粒度也是多样的且用户的兴趣多样性决定了向其推荐的新闻也必须是多样且新颖的。

传统的基于协同过滤的方法虽然得到了普遍应用，但它对用户的兴趣表示及建模不完整，只是采用相似用户的形式，无法准确表达用户的兴趣偏好。并且基于物品的协同过滤需要维系一张十分庞大的物品相关向量，计算效率低，难以应用于数据规模较大的海量新闻推荐。

在新闻推荐中，冷启动问题非常明显。每天都会有大量新的新闻，因此他们的生存周期很短，而推荐算法需要在它们短暂的时间内就将其推荐给对它们感兴趣的用户。所以，实时性在新闻的推荐系统中是非常重要的，传统的协同过滤方法每次训练都需要扫描所有用户的行为记录，无法满足实时性要求。

发明内容

本发明的目的是提供一种基于用户行为统计的自动兴趣聚类的推荐系统及方法，深入挖掘用户兴趣，提高推荐准确率及用户满意度，避免新闻的冷启动问题，在尽可能提高推荐效果的情况下保证性能。

本发明的技术解决方案是：

一种基于FOLFM模型的新闻推荐，包括样本采集处理模块、FOLFM模型训练模块、FOLFM推荐计算模块、新闻推荐生成模块，

样本采集处理模块：收集用户对于新闻链接的点击行为，根据用户历史上对首页链接的行为记录采集新闻样本；

FOLFM模型训练模块：利用最速下降法求最优化损失函数，得到FOLFM的模型参数：用户隐类偏好向量P和新闻隐类向量Q，将训练得到的模型缓存保存至数据库中；

FOLFM推荐计算模块：在基于内容推荐方法的基础上，利用隐类模型和内容特征对新闻内容模型进行抽象表达，为每个用户构建其个性化的隐类偏好模型；通过对用户的实时的行为记录的实时训练和计算用户对于某个隐类新闻的偏好，计算决定新闻是否推荐给用户，得到最终的新闻推荐列表；

新闻推荐生成模块：对后台新发布的新闻，结合用户的行为实时训练的除的FOLFM模型得到用户感兴趣的新发布的新闻，得到这些一位用户对应数条新闻的数据后，需要调用新闻推荐生成初始推荐列表并实时的更新推荐列表。

进一步地，样本采集处理模块的具体操作步骤如下：

步骤1.1)对于用户u有过行为的新闻链接i定义为(u，i)，并标记为正样本。

步骤1.2)根据用户行为不同，标记行为的权重为w，则对新闻i的兴趣度标记为Rui＝w；

步骤1.3)对于展示给用户u的新闻链接i，当用户从没发生过行为，就定义(u，i)为负样本，Rui＝0；

步骤1.4)过滤样本的网页标签和冗余信息保存为新闻文本存入mysql数据库；

步骤1.5)提取采样新闻内容属性(关键词、类别等)生成新闻i的内容特征向量Y_I，并提取关键词构成关键词序列并对应其新闻条目存于数据库。

进一步地，FOLFM模型训练模块的具体步骤如下：

步骤2)设置训练参数：隐特征的个数F，学习速率alpha，正则化参数lambda。并将参数写入配置文件保存；

步骤2.1)读取配置文件，初始化用户隐类偏好向量P，新闻隐类向量Q(初始值为0.1*rand(0，1)除以sqrt(dim)填充，dim表示维度)；

步骤2.2)开始迭代，从数据集中依次取出user以及该user喜欢的iterms集作为正样本且兴趣度为Rui；

步骤2.3)调用样本采集预处理模块，进行随机抽样，为user抽取与items数量相当的负样本，并将正负样本合并，用于优化计算；

步骤2.4)从数据库中取出item和user，对该item的兴趣度记为Rui；

步骤2.5)根据向量P和Q计算当前用户u对新闻i的兴趣度，计算公式为Rui’＝P*Q；

步骤2.6)计算当前的误差损失为C＝Rui-Rui’；

步骤2.7)代入误差、学习速率、正则化参数值，利用最速梯度下降法迭代F次，计算得到表示用户隐类偏好向量P和新闻隐类向量Q；

步骤2.8)调整学习速率，继续迭代优化损失函数找到最合适的参数P和Q，迭代次数小于规定步数转到步骤3)；

步骤2.9)将找到的最佳参数向量P和Q存入数据库。

进一步地，FOLFM推荐计算模块中，

用户的隐类偏好模型为F_U＝{P_U，X_U}，其中，P_U为用户的隐类兴趣偏好， X_U为用户的关键词兴趣，

用户的隐类兴趣偏好由一组权值向量表示：P_U＝{W_U1,W_U2,W_U3,....,W_U3}，W_Ui(1≤i≤m)代表用户对第i个隐类的兴趣偏好度，m为设定的隐类个数；对于用户的隐类偏好兴趣模型通过每过几个小时对用户行为记录的扫描然后调用“FOLFM模型训练模块”训练得到；

用户的关键词兴趣由向量空间模型表示，即一组关键词权值序列：

X_U＝{(X_U1,ω_U1)(X_U2,ω_U2)(X_U3,ω_U3),...,(X_Un,ω_Un)}，

其中，X_Uj(1≤j≤n)表示用户感兴趣的关键词，ω_Uj表示用户对关键词X_Uj感兴趣的程度；用户的关键词兴趣序列基于用户的历史阅读行为和新闻的关键词权值计算得到。

进一步地，用户关键词兴趣计算方法：

步骤3)对于每一个用户，选择用户的n个权值较大的关键词作为种子；

步骤3.1)遍历每一篇用户产生行为的对应新闻，对于不同的用户行为赋予不同的权值Xj；

步骤3.2)遍历每一个关键词的权值；

步骤3.3)判断是否接受该关键词，接收并且Xu存在该关键词，则权值增加，否则向Xu中加入该关键词权值。不接受则舍弃该关键词。回到步骤3)继续遍历每个关键词的权值；

步骤3.4)关键词重新排序前n个；

步骤3.5)回到步骤3.1)；

步骤3.6)将计算得到的用户的关键词序列保存到数据库。

进一步地，FOLFM推荐计算模块中，新闻模型构建及新加入新闻的推荐计算

将新闻表示为一个三维的模型，包括隐类特征向量、关键词权值和新闻时间，N_S＝{Q_S，X_S，tt_S}；

新闻表示为一组隐类向量，即：Q_S＝{W_n,W_n2,W_n3,..W_ni....,W_nm}，向量中得每一维表示新闻n在第i个隐类的权值，m为设定的隐类个数，新闻内容模型的隐类特征向量Qs通过实时调用“FOLFM模型训练模块”训练得到；

新闻内容模型的关键词权值X_S采用向量空间模型方法，应用TF-IDF计算得到，向量的每一维表示新闻的一个关键词及其对应权值，即X_S＝{(X_S1,ω_S1)(X_S2,ω_S2)(X_S3,ω_S3),...,(X_Sn,ω_Sn)}，其中，X_Sj(1≤j≤n)表示新闻的第j个关键词，ω_Sn对应该关键词X_Sj的权值，n为关键词的个数。

进一步地，计算用户u对于新闻i准确的兴趣值的具体步骤如下：

步骤4)利用新闻链接的内容属性(关键词、类别等)得到链接的内容特征向量Xs；

步骤4.1)读取用户历史行为记录中的内容特征兴趣得到用户对于该内容特征的兴趣程度Y_I；

步骤4.2)计算Xs*Y_I得到用户对于新闻的兴趣值并将新闻的id送入新闻推荐生成模块；

步骤4.3)系统后台实时收集用户最近几个小时用户u对新闻i的兴趣样本并加入系统缓存，每过几个小时待收集完新的用户行为后清空缓存。

步骤4.4)调用“FOLFM模型训练模块”进行训练得到模型参数P_U和Q_I；

步骤4.5)然后通过以下公式：R_UI＝X_S*Y_I+P_U*Q_I，计算得到用户u对于新闻i准确的兴趣值，然后调用推荐生成模块。

进一步地，新闻推荐列表生成模块的具体步骤如下：

步骤5)将推荐计算模块传递过来的新闻ID加入推荐列表队列并存入缓存；

步骤5.1)读取每个用户的初始新闻推荐列表；

步骤5.2)删除列表中内容和主题相似的新闻；

步骤5.3)过滤列表中质量较低或用户己经有过行为的新闻；

步骤5.4)根据用户的隐类偏好编号对列表中新闻进行分组；

步骤5.5)每个分组组内的新闻基于时间权值的降序排列；

步骤5.6)选取每个隐类组靠前的新闻即TopN选择；

步骤5.7)更新每个在线活动用户的推荐列表并使用Ajax技术将新闻异步的推送到用户浏览前台界面。

一种基于FOLFM隐语义模型的新闻推荐方法，在基于内容推荐方法的基础上，利用隐类模型和内容特征对新闻内容模型进行抽象表达；为每个用户构建其个性化的隐类偏好模型；通过对用户的实时的行为记录的实时训练和计算用户对于某个隐类新闻的偏好；计算决定新闻是否推荐给用户，得到最终的新闻推荐列表。

具体步骤如下：

步骤1)根据用户页面点击记录抽取新闻样本，进行样本标记并存入数据库；

步骤1.1)对同一时间段用户有过行为(阅读、发布、评论、收藏)的新闻标记为正样本并根据浏览行为赋权重，对用户没有过的行为的新闻标记为负样本且权重为0；

步骤1.2)对抽取的新闻链接(新闻概要)进行整理编号，然后将用户进行编号以及浏览过的新闻编号分别成对编号并赋权重存数据库；

步骤2)提取用户浏览过新闻的关键字并根据用户行为赋上关键字权值，存入数据库；

步骤3)初始化参数训练用户兴趣模型：初始化FOLFM模型训练参数，包括隐特征的个数、学习速率、正则化参数，并将参数写入配置文件；

步骤3.1)初始化新闻模型表示的隐类向量和用户兴趣模型向量；

步骤3.2)读取用户的历史访问记录，使用最速梯度下降法进行迭代计算出FOLFM模型参数：用户隐类偏好向量P和新闻隐类向量Q，

步骤3.3)将此作为用户的长期兴趣偏好模型存于数据库，并按设定的t小时收集用户的历史记录更新此模型；

步骤4)利用新闻链接的内容属性(关键词、类别等)得到链接的内容特征向量；

步骤4.1)根据用户历史行为记录得到用户对于该内容的兴趣程度，同时读取用户的长期感兴趣的FOLFM模型；

步骤4.2)计算出用户对于当前新闻的兴趣，两者结合得到当天的新闻估计推荐；

步骤5)实时兴趣精确推荐计算：一旦用户有了浏览行为后，实时收集用户对链接的行为并利用FOLFM计算实时的用户隐类偏好向量模型和新闻隐类向量模型；

步骤6)通过FOLFM公式计算出同一时段发布的新闻的用户的感兴趣程度。此处只需计算当前时间段某位正处于活动用户的模型，而不用训练所有用户的FOLFM模型。

步骤7)实时生成推荐列表并更新；

步骤7.1)对用户感兴趣且未访问过N新闻链接进行排序并分组；

步骤7.2)对访问过的新闻进行过滤；

步骤7.3)使用Ajax技术将最终TopN的新闻推送到用户当前浏览的前端的UI界面，然后根据根据用户的动作实时更新推荐列表展示给用户。

有益效果：由于FOLFM是一种基于机器学习的方法，且采用最优化的理论进行学习，具有较好的理论基础，本发明具有以下一些特殊优点和有益成果：

高准确率：机器学习主要的评价指标为准确率(precision)和召回率(recall)，在推荐系统中，准确率描述最终的推荐列表中有多少比例是发生过的用户-物品评分记录，召回率描述有多少比例的用户-物品评分记录包含在最终的推荐列表中。显然精度和召回率越高表示效果越好。本发明提出的方法采用最优化方法进行迭代计算出的FOLFM模型对于新闻推荐的准确率和召回率均达到了理想的效果。

解决新闻实时性问题：由于新闻的实时性特性，决定对于新闻的推荐也必须是实时性的，而现在大部分的传统的新闻推荐都是离线的计算，待用户再次登陆的时候才进行推荐，往往是一天计算一次，且要扫描所有用户的历史行为记录表，因此效率并不高，本发明采用长期学习和短期实时学习相结合的方法既满足了新闻推荐实时性的要求，并且有较高的推荐效率和精度。

解决冷启动问题：数据库中存放着用户常访问的新闻的特征关键词，每天用户只要登陆系统就会有较为切合的新闻推荐给用户，解决了新闻推荐中的冷启动问题。

应用领域广泛：由于本发明实际提出了一种利用最优化理论计算的隐含语义方法，我们不需要关心分类的角度，结果都是基于用户行为统计自动聚类的，不需要关心分类粒度的问题，通过设置FOLFM的最终分类数就可控制粒度，分类数越大，粒度越细。对于一个item，并不是明确的划分到某一类，而是计算其属于每一类的概率，是一种标准的软分类。对于一个user，我们可以得到他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。对于每一个class，我们可以得到类中每个item的权重，越能代表这个类的item，权重越高。因此本发明对于推荐系统中的各种推荐问题几乎都能应用。

附图说明

图1是本发明方案的总体模块图。

图2是本发明方案的新闻预处理流程图。

图3是本发明方案的FOLFM样本训练算法流程图。

图4是本发明方案的用户兴趣关键词计算方法流程图。

图5是本发明方案的新闻推荐生成模块。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例为一种基于FOLFM隐语义模型的新闻推荐系统及方法，涉及一种针对用户隐性行为数据集的隐类模型最优化建模，通过对用户的实时的行为记录的训练和计算用户对于某个隐类新闻的偏好，计算决定新闻是否推荐给用户，并经过一系列的缓存存储和MongoDB数据库存储优化和处理得到最终的新闻推荐列表。

该系统的设计主旨是在基于内容推荐方法的基础上，利用隐类模型和内容特征对新闻内容模型进行抽象表达，为每个用户构建其个性化的隐类偏好模型。通过对用户的实时行为记录进行实时训练得到用户对于某个隐类新闻的偏好，计算决定新闻是否推荐给用户，并经过一系列的处理过程得到最终的新闻推荐列表，如图1所示。目标是深入挖掘用户兴趣，提高推荐准确率及用户满意度，避免新闻的冷启动问题，在尽可能提高推荐效果的情况下保证性能。

实施例技术方案主要分为四大部分，由4个模块组成：新闻数据采集处理模块、FOLFM模型训练模块、基于FOLFM模型推荐计算模块、新闻推荐生成模块。样本采集处理模块，负责对新加入的新闻和用户有过行为的新闻样本进行预处理，FOLFM模型训练模块负责对采样样本进行训练得到用户的隐类偏好向量和新闻隐类向量，FOLFM推荐计算模块负责对实时训练的模型结果进行建模计算并送入推荐生成模块，新闻推荐生成模块负责生成初始推荐列表以及实时得对列表进行更新。其中，最核心的是FOLFM模型训练和基于FOLFM模型推荐计算模块。

1.样本采集预处理模块

因为本发明主要以优化点击率为目标，因此主要收集用户对于新闻链接的点击行为。采集样本时遵循以下原则：

1)对于每个用户，要保证正负样本的平衡；

2)对于每个用户采样负样本时，选取那些很热门，而用户却没有行为的新闻。

如图2所示，具体操作步骤如下：

步骤1)根据用户历史上对首页链接的行为记录采集新闻样本。

2.FOLFM模型训练模块

FOLFM模型训练模块包括新闻模型和用户兴趣模型，新闻模型由隐类向量表示，用于表示某个隐类与新闻之间的关系。用户兴趣模型采用隐类偏好向量P表示用户的兴趣与某个隐类的关系，新闻隐类模型采用新闻隐类向量Q表示某篇新闻与各个隐类的分布关系。

FOLFM模型训练模块利用最速下降法求最优化损失函数，从而得到FOLFM的模型参数：用户隐类偏好向量P和新闻隐类向量Q。如图3所示，具体步骤如下：

步骤2.4)从数据库中取出item和user，对该item的兴趣度记为Rui；

步骤2.6)计算当前的误差损失为C＝Rui-Rui’；

步骤2.9)将找到的最佳参数向量P和Q存入数据库；

3.FOLFM推荐计算模块

a)用户隐类偏好模型构建计算

本推荐方法定义用户的隐类偏好模型为F_U＝{P_U，X_U}

定义一:用户的隐类兴趣偏好P_U

用户的隐类偏好由一组权值向量表示：P_U＝{W_U1,W_U2,W_U3,....,W_U3}，W_Ui(1≤i≤m)代表用户对第i个隐类的兴趣偏好度，m为设定的隐类个数。对于用户的隐类偏好兴趣模型通过每过几个小时对用户行为记录的扫描然后调用“FOLFM模型训练模块”训练得到。

定义二:用户的关键词兴趣X_U

该部分定义用于解决用户当天第一次登陆系统或者用户没有行为时的冷启动问题，用户对用户进行估计推荐。

用户的关键词兴趣由向量空间模型表示,即一组关键词权值序列：

X_U＝{(X_U1,ω_U1)(X_U2,ω_U2)(X_U3,ω_U3),...,(X_Un,ω_Un)}，

其中，X_Uj(1≤j≤n)表示用户感兴趣的关键词，ω_Uj表示用户对关键词X_Uj感兴趣的程度。用户的关键词兴趣序列基于用户的历史阅读行为和新闻的关键词权值计算得到。

用户关键词兴趣计算方法，如图4所示：

步骤3.1)遍历每一篇用户产生行为的对应新闻，对于不同的用户行为赋予不同的权值X_j；

步骤3.2)遍历每一个关键词的权值；

步骤3.3)判断是否接受该关键词,接收并且Xu存在该关键词，则权值增加，否则向Xu中加入该关键词权值。不接受则舍弃该关键词。回到步骤3)继续遍历每个关键词的权值；

步骤3.4)关键词重新排序前n个；

步骤3.5)回到步骤3.1)；

步骤3.6)将计算得到的用户的关键词序列保存到数据库；

b)新闻模型构建及新加入新闻的推荐计算

该推荐方法将新闻表示为一个三维的模型，包括隐类特征向量、关键词权值和新闻时间，N_S＝{Q_S，X_S，tt_S}。用户关心的新闻是关于隐类的概率分布，而用户对于新闻的行为记录，反应了用户对于新闻内容的实时兴趣变化，因此新闻可以表示为一组隐类向量，即：Q_S＝{W_n,W_n2,W_n3,..W_ni....,W_nm},向量中得每一维表示新闻n在第i个隐类的权值,m为设定的隐类个数。新闻内容模型的隐类特征向量Qs通过实时调用“FOLFM模型训练模块”训练得到。

新闻内容模型的关键词权值X_S采用传统的向量空间模型方法,应用TF-IDF计算得到,向量的每一维表示新闻的一个关键词及其对应权值，即X_S＝{(X_S1,ω_S1)(X_S2,ω_S2)(X_S3,ω_S3),...,(X_Sn,ω_Sn)}，其中，X_Sj(1≤j≤n)表示新闻的第j个关键词,ω_Sn对应该关键词X_Sj的权值，n为关键词的个数。具体步骤如下：

步骤4.5)然后通过以下公式：R_UI＝X_S*Y_I+P_U*Q_I，计算得到用户u对于新闻i准确的兴趣值然后调用推荐生成模块。

5.新闻推荐列表生成模块

对于后台新发布的新闻，结合用户的行为实时训练的除的FOLFM模型得到哪些用户分别对哪些新发布的新闻感兴趣，得到这些一位用户对应数条新闻的数据后，需要调用新闻推荐生成初始推荐列表并实时的更新推荐列表。这些推荐列表保存在MongDB数据库中。如图5所示，具体步骤如下：

步骤5.1)读取每个用户的初始新闻推荐列表；

步骤5.2)删除列表中内容和主题相似的新闻；

步骤5.3)过滤列表中质量较低或用户己经有过行为的新闻；

步骤5.4)根据用户的隐类偏好编号对列表中新闻进行分组；

步骤5.5)每个分组组内的新闻基于时间权值的降序排列；

步骤5.6)选取每个隐类组靠前的新闻即TopN选择；

基于FOLFM隐语义模型的新闻推荐方法

该方法通过分析用户行为，发现物品之间或者是用户之间的相关性，并据此向用户进行推荐。基于内容的推荐方法起源于信息检索和信息过滤的研究，是协同过滤推荐的延伸与发展。该方法是对推荐对象进行内容上的挖掘与分析，通过用户历史行为获得用户的兴趣，并向用户推荐在内容上与其兴趣最匹配的物品。该方法的核心在于对推荐对象内容特征的挖掘，以及对内容特征和用户行为兴趣的模型构建。

推荐过程中通过预先计算内容特征预判用户的兴趣链接内容解决冷启动，然后实时计算用户的隐类偏好进行个性化推荐。具体步骤如下：

步骤1)获取设定的某一时间段的活跃用户账号列表；

步骤1.1)获取第一个用户账号；

步骤1.2)查找日志文件记录表中该时间段该用户的访问记录；

步骤1.2.1)根据访问记录抽取用户访问过的新闻，标记为正样本；

步骤1.2.2)查找新闻库中这一时间段发布在首页该用户未访问的新闻标记为负样本；

步骤1.2.3)将正负样本合并构成新闻样本集；

步骤1.3)获取第一条新闻样本；

步骤1.4)判断当前新闻样本是否正样本，是则转步骤1.5)，否则转步骤1.6)；

步骤1.5)对标记过的正样本新闻根据其浏览行为(浏览，点评，收藏，转载)赋权重；

步骤1.6)对用户没有产生过行为的新闻样本标记为负样本且权重为0；

步骤1.7)遍历下一条新闻样本；

步骤1.8)判断当前新闻样本是否是最后一个新闻样本集末端，是则转步骤1.9)，否则转步骤1.3)；

步骤1.9)对抽取的新闻链接(新闻概要)进行整理编号；

步骤1.10)将用户进行编号以及浏览过的新闻编号分别成对编号并赋权重存入用户新闻表中；

步骤1.11)遍历下一个用户账号；

步骤1.12)判断当前用户账号是不是用户列表末端，是则转步骤1.4)，否则转步骤1.13)；

步骤1.13)更新用户新闻表；

步骤2)遍历获取新加入新闻表中新加入的新闻；

步骤2.1)读取当前新闻的链接摘要及类别信息；

步骤2.2)利用关键词提取技术对读取的摘要和类别进行关键特征提取；

步骤2.2.1)遍历提取到的每个关键特征；

步骤2.2.2)计算当前关键特征的权重；

步骤2.2.3)判断关键特征是否遍历结束，是则转步骤2.3)，否则转步骤2.2.2)；

步骤2.3)对提取的关键特征及其权重组合新闻存放到新闻表对应列种；

步骤3)初始化用户兴趣特征向量X_U＝{(K_U1,ω_U1)(K_U2,ω_U2)(K_U3,ω_U3),...,(K_un,ω_un)}，Kui表示用户u感兴趣的内容特征K_i；

步骤3.1)遍历用户新闻表，计算用户兴趣内容特征；

步骤3.2)获取一个用户，获取用户产生行为的对应新闻的关键特征及权重；

步骤3.3)选择的n个权值较大的关键特征作为种子；

步骤3.3.1)遍历每一个关键特征的权值；

步骤3.3.2)判断Xu是否接受该关键词，是则转到步骤3.3.3)，否则转到步骤3.3.4)；

步骤3.3.3)接收并且Ku存在该关键词转到步骤3.3.3.1)，接收Ku不存在该关键词转到步骤3.3.3.2)；

步骤3.3.3.1)权值增加；

步骤3.3.3.2)向Ku中加入该关键特征的权值；

步骤3.3.4)不接受则舍弃该关键词；

步骤3.3.5)转到步骤3.3.1)继续遍历每个关键特征的权值，遍历结束转到步骤3.5)；

步骤3.5)关键特征重新排序前n个；

步骤3.6)是否到达当前用户访问过的新闻列末端，是则转步骤3.7)，否则转步骤3.2)；

步骤3.7)将计算得到的用户的关键特征序列保存到数据库用户表中；

步骤4)读取用户新闻表，获取步骤1)抽样得到的新闻样本集，准备训练模型；

步骤4.1)初始化用户隐类偏好模型及新闻隐类模型；

步骤4.2)初始化FOLFM模型训练参数(隐特征的个数，学习速率，正则化参数)；

步骤4.3)使用最速梯度下降法进行迭代计算出FOLFM模型参数：用户隐类偏好向量P和新闻隐类向量Q；

步骤4.4)将训练得到的模型缓存保存至数据库中；

步骤4.5)实时收集用户访问记录并将访问记录更新至系统缓存中；

步骤4.6)监听新闻后台发布行为，是否有新新闻加入，是则转到步骤2)对新加入的新闻进行关键特征提取，并且同时转到步骤5)；

步骤5)计算用户的初始推荐列表；

步骤5.1)监控用户在线列表，取出最新登陆的用户ID；

步骤5.2)获取第一个用户兴趣内容特征；

步骤5.3)遍历新加入新闻表获得最新加入的新闻；

步骤5.3.1)获得最新加入新闻的关键内容特征；

步骤5.3.2)将关键内容特征与用户兴趣内容特征结合计算得到用户对于新加入新闻的预判兴趣；

步骤5.3.3)对兴趣值进行排序，并将排名在预设数之内的新闻加入用户自己的初始推荐列表；

步骤5.3.4)将用户的初始推荐列表存放在分布式数据库中；

步骤5.3.5)判断新加入的新闻表列表是否到达末端，是则转步骤5.5)，否则转步骤5.4)；

步骤5.4)判断在线用户列表中是否有新用户到达，是则转步骤5.1)；

步骤5.5)监控新闻表动态；

步骤6)计算精确推荐结果；

步骤6.1)取出系统缓存中用户的行为记录进行整合更新至用户行为日志文件；

步骤6.2)取出实时训练得到的模型文件进行计算得到用户短期兴趣结果；

步骤6.3)合并计算用户长期兴趣结果与短期兴趣结果得到精确推荐结果；

步骤7)更新初始推荐列表；

步骤7.2)对访问过的新闻进行过滤；

经实验表明，该方法既保证了高精度和高速度要求，又实现了用户视觉上的实时推荐。

Claims

1.一种基于FOLFM模型的新闻推荐系统，其特征在于：包括样本采集处理模块、FOLFM模型训练模块、FOLFM推荐计算模块、新闻推荐生成模块，

2.如权利要求1所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，样本采集处理模块的具体操作步骤如下：

步骤1.5)提取采样新闻内容属性生成新闻i的内容特征向量YI，并提取关键词构成关键词序列并对应其新闻条目存于数据库。

3.如权利要求1所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，FOLFM模型训练模块的具体步骤如下：

步骤2.1)读取配置文件，初始化用户隐类偏好向量P，新闻隐类向量Q；

步骤2.4)从数据库中取出item和user，对该item的兴趣度记为Rui；

步骤2.6)计算当前的误差损失为C＝Rui-Rui’；

步骤2.9)将找到的最佳参数向量P和Q存入数据库。

4.如权利要求3所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，FOLFM推荐计算模块中，

用户的隐类偏好模型为F_U＝{P_U，X_U}，其中，P_U为用户的隐类兴趣偏好，X_U为用户的关键词兴趣，

X_U＝{(X_U1,ω_U1)(X_U2,ω_U2)(X_U3,ω_U3),...,(X_Un,ω_Un)}，

5.如权利要求4所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，用户关键词兴趣计算方法：

步骤3.2)遍历每一个关键词的权值；

步骤3.4)关键词重新排序前n个；

步骤3.5)回到步骤3.1)；

步骤3.6)将计算得到的用户的关键词序列保存到数据库。

6.如权利要求1所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，FOLFM推荐计算模块中，新闻模型构建及新加入新闻的推荐计算

7.如权利要求1-6任一项所述的基于FOLFM隐语义模型的新闻推荐系统，其特征在于，计算用户u对于新闻i准确的兴趣值的具体步骤如下：

步骤4)利用新闻链接的内容属性得到链接的内容特征向量Xs；

8.如权利要求1所述的基于FOLFM隐语义模型的新闻推荐方法，其特征在于，新闻推荐列表生成模块的具体步骤如下：

步骤5.1)读取每个用户的初始新闻推荐列表；

步骤5.2)删除列表中内容和主题相似的新闻；

步骤5.3)过滤列表中质量较低或用户己经有过行为的新闻；

步骤5.4)根据用户的隐类偏好编号对列表中新闻进行分组；

步骤5.5)每个分组组内的新闻基于时间权值的降序排列；

步骤5.6)选取每个隐类组靠前的新闻即TopN选择；

9.一种基于FOLFM隐语义模型的新闻推荐方法，其特征在于，

在基于内容推荐方法的基础上，利用隐类模型和内容特征对新闻内容模型进行抽象表达；

为每个用户构建其个性化的隐类偏好模型；

通过对用户的实时的行为记录的实时训练和计算用户对于某个隐类新闻的偏好；

计算决定新闻是否推荐给用户，得到最终的新闻推荐列表。

10.如权利要求9所述的基于FOLFM隐语义模型的新闻推荐方法，其特征在于，具体步骤如下：

步骤1.1)对同一时间段用户有过行为的新闻标记为正样本并根据浏览行为赋权重，对用户没有过的行为的新闻标记为负样本且权重为0；

步骤1.2)对抽取的新闻链接进行整理编号，然后将用户进行编号以及浏览过的新闻编号分别成对编号并赋权重存数据库；

步骤3.2)读取用户的历史访问记录，使用最速梯度下降法进行迭代计算出FOLFM模型参数：用户隐类偏好向量P和新闻隐类向量Q；

步骤4)利用新闻链接的内容属性得到链接的内容特征向量；

步骤7)实时生成推荐列表并更新；

步骤7.2)对访问过的新闻进行过滤；