CN106599174A

CN106599174A - 一种新闻实时推荐系统及其方法

Info

Publication number: CN106599174A
Application number: CN201611138281.2A
Authority: CN
Inventors: 侯朋; 李勇波; 孙傲冰; 季统凯; 张恒
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-04-26

Abstract

本发明涉及大数据技术领域，尤其是一种新闻实时推荐系统及其方法。本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台，采集层采集主要中文新闻网站新闻内容，包括新闻链接、新闻标题、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题，数据处理层是一个能够实时计算的流处理架构。本发明把推荐系统分成离线计算和在线计算两部分，能够充分利用传统的离线推荐算法，并结合在线处理方法，提高推荐系统实时计算的能力；采用Spark做在线处理，实现了推荐系统的实时性。

Description

一种新闻实时推荐系统及其方法

技术领域

本发明涉及大数据技术领域，尤其是一种新闻实时推荐系统及其方法。

背景技术

随着互联网信息技术的发展，用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心，只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性，已不能满足用户的个性查询。因此人民希望新闻能够更加智能化，根据自己的喜好推荐自己需要的信息。

发明内容

本发明解决的技术问题在于提供一种新闻实时推荐系统及其方法；对互联网新闻门户进行数据采集，对所有新闻数据进行分析与主题抽取，有效解决系统初始化无历史数据时的冷启动问题。

本发明解决上述技术问题的技术方案是：

所述的系统包括数据采集层、数据处理层、实时推荐层；

所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库；将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源；

所述的数据处理层是一个能够实时计算的流处理架构；该架构把推荐系统分成离线计算和在线计算两部分，利用离线推荐算法结合在线处理，提高推荐系统实时计算的能力；所述的在线处理采用Spark实现；

所述的推荐层基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐。

所述系统的实现方法，其特征在于：所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库，包括如下步骤：

第一步，获取待采集的URL；

第二步，通过数据路由器对URL进行过滤；

第三步，抓取页面数据；

第四步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL集合；

第五步，自动文本特征提取，生成网页指纹；

第六步，检测是否为有相同文章；

第七步，如果已有相同文章则放弃抓取返回第一步，否则对正文文本进行分词操作；

第八步，用TF_IDF算法提取N个关键词；

第九步，找到与其重合度最高的m篇文章；

第十步，若其重合度大于c则归为相应主题数据库；

第十一步，建立倒排索引以供其他模块使用；

所述的数据处理层按照如下步骤处理数据：

第一步，对用户-新闻数据进行采集，进行实时推荐需要两部分数据集：一是初始离线的数据集，二是当前一段时间内实时产生的数据集；

第二步，实时流计算，源源不断的数据流经过系统时，连续地计算；系统实时的接收用户点击信息，然后进行模型训练，最后将数据动态地传送到数据库HBase中；

所述的推荐层按照如下步骤运行：

第一步，分别加载新闻数据集与用户点击数据集；

第二步，对数据集进行分解；

第三部，设置模型参数；

第四步，训练推荐模型；

第五步，通过推荐模型对新闻进行预测评分；

第六步，计算RSME；

第七步，选择RSME最小值，得出最优推荐模型；

第八步，使用最优模型对用户推荐新闻，并保存在数据库中。

所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤：

第一步，采用正则表达式去除文本中html标签；

第二步，采用最大路径算法对标签后的文本进行分词；

第三步，分词后进行实体抽取；

第四步，对抽取的关键词进行排名；

第五步，形成关键词向量，对文档d其内容形成的关键词向量如下：

d_i＝{(e₁，w₁)，(e₂，w₂)，...}其中，e_i就是关键词，w_i是关键词对应的权重，

第六步，计算文本向量空间相似度，使用倒排索引加速相似度计算；

第七步，对计算结果持久化到数据库。

所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤：

第一步，获取用户的注册信息；

第二步，对用户特征属性进行划分；

第三步，训练用户分类器；

第四步，使用分类器对用户进行分类；

第五步，对用户分类结果持久化到数据库。

所述的设置模型参数包括设置numHi，numIt，lambda等参数，numHi是模型中隐语义因子的个数，numIt是迭代的次数，lambda是正则化参数；

其中，其中，X_obj，i为观测值，X_model，i为真值。

本发明把推荐系统分成离线计算和在线计算两部分，能够充分利用传统的离线推荐算法，并结合在线处理方法，提高推荐系统实时计算的能力。该系统采用Spark做在线处理，实现了推荐系统的实时性。推荐层基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐等。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明运行流程图；

图2是本发明数据采集流程图；

图3是本发明数据处理结构图；

图4是本发明实时推荐流程图。

具体实施方式

如图1-4所示，本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台，采集层采集国内外主要中文新闻网站新闻内容，包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题，数据处理层是一个能够实时计算的流处理架构。

如图1、2所示：所述的通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库，包括如下流程：

第一步，获取待采集的URL；

第二步，通过数据路由器对URL进行过滤；

第三步，抓取页面数据；

第五步，自动文本特征提取，生成网页指纹；

第六步，检测是否为有相同文章；

第八步，用TF_IDF算法提取N个关键词；

第九步，找到与其重合度最高的m篇文章；

第十步，若其重合度大于c则归为相应主题数据库；

第十一步，建立倒排索引以供其他模块使用。

如图3所示，所述的针对推荐系统的实时性问题，数据处理层是一个能够实时计算的流处理架构，包括如下步骤：

第一步，是要对用户-新闻数据进行采集。进行实时推荐需要两部分数据集：一是初始离线的数据集，二是当前一段时间内实时产生的数据集。

第二步，实时流计算，实时流计算就是指源源不断的数据流经过系统时，系统能够连续地计算。为了确保推荐系统的实时性和精确性，系统需要提供实时接收，实时传送和实时处理动态数据的能力。系统实时的接收用户点击信息，然后进行模型训练，最后将数据动态地传送到数据库HBase中。

如图4所示，基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐，包括如下步骤：

第一步，分别加载news.db和clicks.db数据到news RDD和clicks RDD中；

第二步，对clicks RDD的数据进行分解；

第三部，设置numHi，numIt，lambda等参数，numHi是模型中隐语义因子的个数，numIt是迭代的次数，lambda是正则化参数；

第四步，训练推荐模型；

第五步，通过推荐模型对新闻进行预测评分；

第六步，计算其中，其中，X_obj，i为观测值，X_model，i为真值。

第七步，选择RSME最小值，得出最优推荐模型；

Claims

1.一种新闻实时推荐系统，其特征在于：所述的系统包括数据采集层、数据处理层、实时推荐层；

2.一种权利要求1所述系统的实现方法，其特征在于：所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库，包括如下步骤：

第一步，获取待采集的URL；

第二步，通过数据路由器对URL进行过滤；

第三步，抓取页面数据；

第五步，自动文本特征提取，生成网页指纹；

第六步，检测是否为有相同文章；

第八步，用TF_IDF算法提取N个关键词；

第九步，找到与其重合度最高的m篇文章；

第十步，若其重合度大于c则归为相应主题数据库；

第十一步，建立倒排索引以供其他模块使用；

所述的数据处理层按照如下步骤处理数据：

所述的推荐层按照如下步骤运行：

第一步，分别加载新闻数据集与用户点击数据集；

第二步，对数据集进行分解；

第三部，设置模型参数；

第四步，训练推荐模型；

第五步，通过推荐模型对新闻进行预测评分；

第六步，计算RSME；

第七步，选择RSME最小值，得出最优推荐模型；

3.根据权利要求2所述的方法，其特征在于：所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤：

第一步，采用正则表达式去除文本中html标签；

第二步，采用最大路径算法对标签后的文本进行分词；

第三步，分词后进行实体抽取；

第四步，对抽取的关键词进行排名；

第七步，对计算结果持久化到数据库。

4.根据权利要求2所述的方法，其特征在于：所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤：

第一步，获取用户的注册信息；

第二步，对用户特征属性进行划分；

第三步，训练用户分类器；

第四步，使用分类器对用户进行分类；

第五步，对用户分类结果持久化到数据库。

5.根据权利要求3所述的方法，其特征在于：所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤：

第一步，获取用户的注册信息；

第二步，对用户特征属性进行划分；

第三步，训练用户分类器；

第四步，使用分类器对用户进行分类；

第五步，对用户分类结果持久化到数据库。

6.根据权利要求2至5任一项所述的方法，其特征在于：所述的设置模型参数包括设置numHi，numIt，lambda等参数，numHi是模型中隐语义因子的个数，numIt是迭代的次数，lambda是正则化参数；

其中，x_obj，i为观测值，X_model，i为真值。