CN102495872B

CN102495872B - 对移动设备用户进行个性化新闻推荐的方法和装置

Info

Publication number: CN102495872B
Application number: CN 201110391300
Authority: CN
Inventors: 陈恩红; 怀宝兴; 宝腾飞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2013-07-24
Anticipated expiration: 2031-11-30
Also published as: CN102495872A

Abstract

本发明涉及一种对移动设备用户进行个性化新闻推荐的方法和装置。该方法主要包括：通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储，对所述新闻数据进行聚类，将所述新闻数据划分为多个簇；根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度，获取所述移动设备用户感兴趣的簇；根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻。本发明实施例可以实现根据移动设备用户的需要向移动设备用户个性化推荐其所感兴趣的新闻。

Description

对移动设备用户进行个性化新闻推荐的方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种对移动设备用户进行个性化新闻推荐的方法和装置。

背景技术

近年来，移动设备诸如智能手机、平板电脑等变得流行起来，移动设备上的应用程序的数量也以非常快的速度增加，比如iOS和Android平平台上的应用程序数量已经超过50万。很多传统的只能在PC(personal computer，个人计算机)上做的事情，目前人们更愿意在移动设备上完成，比如随身携带智能手机看新闻、听音乐、玩游戏等。

然而，由于移动设备的屏幕小、分辨率低，移动设备用户阅读新闻的体验并不好，主要表现在：

1、网页格式不兼容，大多数网页都为大屏幕设计；

2、信息过载，移动设备用户需要从大量的新闻中寻找自己感兴趣的新闻。

飞速发展的网络技术与其它相关的数据传播技术使得新闻等资讯可以更及时，更快捷地发布和传播，这为人们共享消息提供了前所未有的便利。目前我国上网移动设备用户数量达到近四亿，占人口总数的29％以上，其中超过80％网络移动设备用户使用在线新闻资讯服务。然而，随着传播途径和媒介的不断增多，大量的在线重复新闻、移动设备用户无关新闻等(例如，谷歌、百度每天发布的新闻数量都超过十万条)逐渐将移动设备用户淹没在信息的海洋里。

发明内容

本发明的实施例提供了一种对移动设备用户进行个性化新闻推荐的方法，以实现根据移动设备用户的需要向移动设备用户个性化推荐其所感兴趣的新闻。

一种对移动设备用户进行个性化新闻推荐的方法，包括：

通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储，对所述新闻数据进行聚类，将所述新闻数据划分为多个簇；

根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度，获取所述移动设备用户感兴趣的簇；

根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻。

一种对移动设备用户进行个性化新闻推荐的装置，包括：

新闻数据抓取模块，用于通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储；

新闻数据聚类模块，用于对所述新闻数据抓取模块所存储的新闻数据进行聚类，将所述新闻数据划分为多个簇；

移动设备用户感兴趣的簇获取模块，用于根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度，获取所述移动设备用户感兴趣的簇；

移动设备用户感兴趣的新闻获取模块，用于根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过对新闻数据进行聚类，根据移动设备用户的个性化配置信息、新闻数据的聚类结果以及新闻内容来向移动设备用户推荐新闻，从而可以实现根据移动设备用户的需要向移动设备用户个性化推荐其所感兴趣的新闻。

附图说明

图1为本发明实施例一提供的一种对移动设备用户进行个性化新闻推荐的方法的处理流程示意图；

图2为本发明实施例二提供的一种对移动设备用户进行个性化新闻推荐的装置的具体结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，以对本发明实施例进行清楚、完整地描述人员。

实施例一

个性化新闻推荐是指利用个性化的信息过滤技术，为每个移动设备用户寻找其所关心的新闻并进行推荐。移动设备用户具备不同于传统阅读新闻的固定设备用户的特点，移动设备客户端一般对应固定的移动设备用户，可以理解，一个人的手机一般都是他自己用，而传统的新闻推荐系统面对的固定设备用户则可能随时变化，可以理解，一个电脑可能很多人在使用；另外一个特点是移动设备用浏览器阅读新闻十分的不方便，而且移动设备用户一般很少为客户端安装多个相同功能的应用程序，这样导致移动设备用户会更加专一的使用客户端，那么系统收集到的移动设备用户行为等信息将更加丰富且更接近移动设备用户真正的浏览意图，而使用固定电脑的用户则有多种途径阅读新闻，而且阅读新闻的设备也许分散在多个设备(电脑)上，那么收集到的信息将会产生偏置且稀疏。

该实施例为提供了一种对移动设备用户进行个性化新闻推荐的方法，该方法采用个性化推荐技术，利用移动设备用户的自定义偏好以及历史阅读行为来计算移动设备用户对新闻的关心程度，让移动设备用户能够阅读到自己感兴趣的新闻。

该方法的具体处理流程如图1所示，包括如下的处理步骤：

步骤S101：通过分布式的网页爬虫从互联网上实时抓取新闻信息。

网页爬虫能够识别新闻并爬取之，其功能是定期从网络上收集新出现的新闻网页；将其内容以增量的形式存储起来；计算其与以往新闻的相关度；并按时间组织构成新闻事件序列。

为了实时抓取新闻，本发明实施例采用分布式的网页爬虫，在服务器底层作为一个独立的模块进行实时抓取新闻，新闻的来源非常广泛，包括各大新闻网站以及门户网站，如新浪新闻、搜狐新闻等。

该模块采用分布式爬虫的方式部署，分布式爬虫的系统结构有很多种，工作方式也各不相同。本发明实施例采用的网页爬虫系统的拓扑结构属于分布式拓扑结构，这种分布式网页爬虫系统中包括一个作为中心节点的网页爬虫和多个作为分支节点的网页爬虫，分支节点只与中心节点通信，当有分支节点加入或者退出时，只与中心节点通信即可，不会出现系统视图不一致的情况。

由于本发明实施例的抓取目标非常的明确，即只抓取新闻信息，所以本发明实施例用一个配置文件来存储各大新闻网站的RSS(RDF SiteSummary，网站摘要描述)地址，将上述配置文件中存储的RSS地址分配给所述作为中心节点的网页爬虫和多个作为分支节点的网页爬虫。

这样每个节点有自己明确的任务，多个节点同时对新闻进行抓取，保证了本系统所抓取的新闻的高实时性。当爬行节点爬取到新的新闻时，就将其提交给中心节点，在所述中心节点中存储所有网页爬虫抓取的新闻。这种结构的最大优点在于由于中心节点的存在，使得分布式系统的管理和维护比较简单。

步骤S102：对网页爬虫爬取的新闻数据进行预处理，采用K-means(k平均聚类)算法对预处理后的新闻数据进行聚类，将所述新闻数据划分为多个簇。

S101抓取的新闻数据是原生的新闻数据，存储在文本文件中，数据预处理就是把这些原生的新闻数据处理成算法可接受的数据。这个环节主要分为2个步骤：

首先，将S101抓取的新闻数据进行预标记处理，提取有效特征，使得适用于后面的推荐算法。预标记处理的主要思路是根据抓取的新闻数据的基本信息抽取新闻数据的主题分布，该基本信息如：新闻的category(领域)，author(作者)，以及新闻的title(标题)和description(简介)等，新闻数据的主题分布的抽取采用的方法是LDA(Latent Dirichlet Allocation，隐含狄利克雷分配算法)，根据LDA方法从标签库里面选择相应的标签赋予新闻数据，作为新闻数据的主题分布。

然后，对上述预标记处理的新闻数据进行聚类，采用新闻相似度作为度量标准对新闻数据进行小粒度聚类，最终将新闻数据以多个簇的形式存储在服务器中，并实时更新。

上述对新闻数据进行预标记处理的具体处理过程如下：

网页爬虫抓取的新闻数据具有如下属性：

{Title，Description，FullText，PubDate，Source，Author，Category，Link}

很容易理解，Title表示新闻的标题、Description表示新闻的简介、FullText表示新闻的正文、PubDate表示新闻的发布时间、Source表示新闻的来源(如新浪、腾讯等)、Author表示新闻的作者、Category表示新闻的所属领域(如体育、财经等)、Link表示新闻的连接地址。

本发明实施例给新闻数据定义这样一个数据结构：

News＝{Id，Title，Link，PubDate，Description，FullText，Topic，Labels}

其中Id唯一标识一个新闻，是预处理的时候为新闻赋予的一个整数；Title、PubDate都保持不变；这里保留Description是因为客户端给移动设备用户呈现的第一眼是新闻的简介，不仅节省了移动设备用户判断自己是否需要看这条新闻的时间，而且增加了移动设备屏幕有限空间中可显示的新闻条数；该数据结构保留了新闻的连接地址，是方便移动设备用户在客户端浏览的时候，如果想查看原网站的内容，则可以点击该连接地址，通过移动设备自带的浏览器进行浏览；Topic(主题)属性并不显示给移动设备用户看，只是作为推荐算法用的一个属性；而Labels(标签)则是移动设备用户可以自定义的，移动设备用户可以为看过的新闻进行标记，这样会丰富新闻信息，对推荐算法的准确性来说是不可或缺的。

首先利用LDA方法对新闻数据的标题和全文文本进行主题挖掘，将挖掘出来的主题赋予给上述数据结构中的“Topic”属性。将抓取新闻时候自动获得的“Title，Link，PubDate，Description，FullText”信息作为属性值赋予上述数据结构中的对应的属性，从而完成对新闻数据进行预标记处理的过程。

完成了预标记处理的新闻数据已经是比较完整的数据，每个数据结构代表一个新闻，这个数据结构有着新闻的重要特征而不冗余，这样，新闻和新闻之间就会存在某种关联，是一种相似性的关联，所有新闻放在一起会形成一个空间，这个空间里面的每个点就代表一个新闻，点之间有“引力”吸引着，越是接近的新闻，其相似度就越大，点之间的互相吸引的力度就越大，基于此，我们利用新闻之间的相似度作为度量标准，采用经典的K-means算法进行新闻聚类，而且是小粒度的聚类，这样能够保证移动设备用户被推荐到合适数量的新闻。这里的相似度计算公式为：

NewsSim(n₁，n₂)

＝w₁*CateSim(n₁，n₂)+w₂*TitleSim(n₁，n₂)+w₃

*DesSim(n₁，n₂)

其中n₁、n₂表示2个待计算相似度的新闻，NewsSim(n₁，n₂)表示n₁、n₂的相似度，CateSim(n₁、n₂)表示n₁、n₂的领域相似度，TitleSim(n₁，n₂)表示n₁、n₂的标题相似度，DesSim(n₁、n₂)表示n₁、n₂的简介相似度，w₁、w₂、w₃表示三者权重，并且满足w₁+w₂+w₃＝1。

本发明实施例根据新闻数据结构的特点，对传统的K-means算法稍作修改以达到良好的效果。核心思想就是算法以k为输入参数，把n个对象的集合分为k个簇，使得簇内的新闻相似度最高，而簇之间的新闻相似度非常低。K-means算法进行新闻聚类的流程如下：

初始条件：k(簇的数目)，D(新闻数据集)

算法开始：

从D中任意选择k个新闻分别分配到k个簇中，并分别作为k个簇的初始中心。

按照上述相似度计算公式，计算D中剩下的每个新闻与上述每个簇的初始中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中。

更新每个簇的中心点，方法是通过计算每个簇中的所有点之间的相似度，找出与其它所有点的相似度值之和最大的点，此点即为簇的新中心点。

算法重复以上步骤，一直到所述新闻数据集中所有的新闻数据都分配到所述k个簇中，簇结构不再发生变化，算法结束。

上述每个簇都有一个主题分布，簇的主题是簇中的绝大多数的新闻数据的主题分布。

步骤S103：客户端程序将移动设备用户的一些点击和选择操作进行指令序列化得到一些指令，再将这些指令进行整合和转换最终形成一条命令，将上述命令发送到服务器端。

移动设备用户的浏览行为(点击、选择等)用一个三元组来表示，信息形如：

<userID，<<newsID，operation>，<newsID，operation>，...>>

其中userID是唯一标识一个移动设备用户的字符串，二元组中的第二元表示移动设备用户的浏览行为，其中<newsID，operation>表示移动设备用户userID在id为newsID新闻上的操作，operation则包括：{clickTime，labels}，clickTime表示移动设备用户点击新闻的时间，labels则用一个字符串表示移动设备用户对此新闻打的新标签，可以为空，若不为空，则系统会为之提供两种选择：感兴趣、不感兴趣。

如一个移动设备用户浏览行为信息可以是：<874958，<<948728473，<20110811132134，感兴趣>>，<948728746，<20110811132244，不感兴趣>>>>

可以看到，移动设备用户874958浏览了id为948728473、948728746的新闻，浏览时间分别为：2011年08月11日13:21:34和13:22:44。

之后便是将浏览行为序列化的过程，系统将上述类型的信息转化为一个字符串，并且在字符串的末尾会加上合成此信息的时间标签。序列化信息中移动设备用户id与操作行为以及时间标签用分隔符asc(5)分割；操作行为之间用分隔符asc(6)分割；操作行为中新闻id与操作之间用分隔符asc(7)分割；对新闻的标签，感兴趣用1表示，不感兴趣用0表示，这样点击新闻的时间和标签可以连接为一个数字串。上例中的移动设备用户浏览行为可序列化如下结果：

874958asc(5)948728473asc(7)201108111321341asc(6)948728746asc(7)201108111322440asc(5)20110811132500

这里采用的分隔符asc(5)、asc(6)、asc(7)指的是ASCII码中的5、6、7，是移动设备用户手写输入不可见的字符，这使得浏览行为的原始信息中不会有分隔符存在，所以以此作为分隔符很安全，能够保证解析指令的时候不会出错。

服务器端程序负责将从客户端接收到的上述命令转化为算法可接受的数据结构。转化方法类似客户端合成的方法，只是顺序反过来。

步骤S104：服务器端程序根据上述步骤103得到的数据结构、移动设备用户的个性化配置信息、上述步骤S102得到的新闻的聚类结果以及新闻内容，根据设定的推荐算法从新闻数据集中计算出移动设备用户需要的新闻。

移动设备用户的个性化配置信息保存在移动设备用户的客户端，并且上传到服务器端。移动设备用户可以通过客户端修改自己的个性化偏好。移动设备用户的个性化配置信息里面包含有三方面的内容：主题分布、行为模式、新闻实体。本发明实施例采用一个三维向量来表示每个移动设备用户的个性化配置信息：

User＝<T，P，E>

其中，T用来表示移动设备用户所阅读的新闻内容，主题分布正好是新闻内容的良好刻画，它可以反映移动设备用户对哪一些领域较为感兴趣。通常可以用一个主题向量{<t₁，w₁>，<t₂，w₂>，...}来表示，这里，t为能表示主题的一个词语，对应的w表示该主题相应的权重。为此，本发明实施例还需要定义一个主题词典，这里包含了所有表征主题的词语，并且，这个词典是增量式的，当有新的主题出现时会及时添加到词典中。

P用来表示移动设备用户的行为模式，移动设备用户的行为模式的表示方法有很多种，而协同过滤则是非常好的一个手段，本发明实施例基于协同过滤的思想，认为那些有相同或者相似阅读习惯的移动设备用户具有相似的行为模式，因此本发明实施例利用相似移动设备用户列表来表示移动设备用户的行为模式，用一个一维向量P＝<U₁，U₂，...>来表示。

E表示新闻实体，这里所谓的新闻实体是指可以表示新闻的发生时间、地点、新闻相关人、发生了什么事情。用一个一维向量E＝<E₁，E₂，...>表示，可以用一个开源的工具NLP tool-GATE获得。

每个新闻也有相关的配置信息，其所包含的属性对应着移动设备用户的个性化配置信息，本发明实施例将所有的新闻内容N用一个三维向量来表示N＝<T，P，E>

其中，T为新闻内容的主题分布，为一个主题向量集合，T＝{<t₁，w₁>，<t₂，w₂>，...}，上述t₁为第一条新闻的主题，w₁表示第一条新闻的权重，t₂为第二条新闻的主题，w₂表示第二条新闻的权重。这里的主题分布和移动设备用户的配置信息中的主题分布都来自于主题词典；

P用来表示与本新闻有关的行为模式，用一个一维向量P＝<U₁，U₂，...>来表示，P里面的每个元素表示阅读过本新闻的移动设备用户；

E表示新闻实体，表示新闻的发生时间、地点、新闻相关人、发生了什么事情。用一个一维向量E＝<E₁，E₂，...>表示，同样用开源的工具NLPtool-GATE获得。

上述设定的推荐算法是基于移动设备用户的个性化配置信息和新闻数据(包括新闻的聚类结果和新闻内容)完成的，主要分为两个阶段：

a)，首先根据移动设备用户的个性化配置信息中的新闻主题分布和各个簇的新闻主题分布之间的相似度，获取所述移动设备用户感兴趣的簇。

根据移动设备用户的个性化配置信息中的主题向量T＝{<t₁，w₁>，<t₂，w₂>，...}，为移动设备用户确定他感兴趣的簇用的方法是：

针对每个簇，利用余弦相似度计算方法计算

T_c表示簇的主题分布

T_u表示移动设备用户的个性化配置信息中的主题向量；

分别针对每个簇计算出一个Sim(T_c，T_u)，为Sim(T_c，T_u)定义一个阈值，将大于该阈值的Sim(T_c，T_u)对应的簇确定为移动设备用户感兴趣的簇。据此可以过滤出移动设备用户所感兴趣的所有簇。

步骤：进入推荐算法的阶段b，根据所述移动设备用户的个性化配置信息中的新闻主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的新闻主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻。

针对所述移动设备用户感兴趣的簇中的每个新闻数据，计算

NPSim (F_{n}, F_{u})

= \frac{α * TSim (T_{n}, T_{u}) + β * PSim (P_{n}, P_{u}) + γ * ESim (E_{n}, E_{u})}{\sqrt{α^{2} + β^{2} + γ^{2}}}

其中F_n表示新闻的配置信息，F_u表示移动设备用户的个性化配置信息

T_n表示新闻的配置信息中的主题分布，T_u表示移动设备用户的个性化配置信息中的主题分布，P_n表示新闻的配置信息中的行为模式，P_u表示移动设备用户的个性化配置信息中的行为模式，E_n表示新闻的配置信息中的新闻实体，E_u表示移动设备用户的个性化配置信息中的新闻实体，上述TSim的计算方法为上述余弦相似度计算方法，PSim、ESim的计算方法都是Jaccard相似度计算方法，上述α、β、γ为设定的常数，分别表示对三个相似度的置信程度。

Jaccard相似度方法，是一种有效衡量样本相似性的方法，利用Jaccard相似度来表示样本之间的相似度，基本原理是计算两个样本相同因素的比值，其公式为：

Sim (A, B) = \frac{| A \cap B |}{| A \cup B |}

所述

所述

所述

在这里，同样为计算出的NPSim(F_n，F_u)定义一个阈值，将大于该阈值的Sim(T_c，T_u)对应的新闻数据确定为移动设备用户感兴趣的新闻数据。

步骤S105：将移动设备用户感兴趣的新闻数据进行语音化后发送给移动设备用户或者直接发送给移动设备用户。

在得到了移动设备用户所感兴趣的新闻数据后，根据上述步骤S103得到的数据结构获取移动设备用户是否要对新闻进行语音化，如果移动设备用户不需要语音化，则直接将移动设备用户所感兴趣的新闻数据解析成移动设备用户的客户端能兼容的新闻数据，并发送给移动设备用户的客户端，在移动设备用户的客户端上进行展示。

如果移动设备用户需要语音化，则对上述移动设备用户所感兴趣的新闻数据进行语音化处理，然后将语音信息和文本信息进行压缩后，发送给移动设备用户的客户端，在移动设备用户的客户端上进行展示。实现语音新闻的推送，使移动设备用户能够方便的随时随地用耳朵“阅读”新闻。

语音合成技术是指把文本信息语音化的技术，目前，常用的语音合成技术主要有：共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。它们各有优缺点，在应用过程中往往将多种技术有机地结合在一起，或将一种技术的优点运用到另一种技术上，以克服另一种技术的不足

2010年10月，科大讯飞推出语音云平台，创造性的将语音库，训练模型等资源消耗部分至于云中，从而极大的提高了计算效率，为语音技术的使用指明一条新的道路。特别是，语音云平台通过开放API(Application ProgrammingInterface，应用程序编程接口)，第三方厂商也可以按自己意愿使用讯飞语音云的各项服务。

上述语音化处理过程可以采用科大讯飞推出的语音云平台来实现，移动设备用户可以按需要使用讯飞语音云的各项服务，进行语音个性化操作，如将发声设置为“东北话男声”等。

上述本发明实施例中的对移动设备用户进行个性化新闻推荐的方法可以应用在基于云计算的云平台上，上述K-means聚类算法和推荐算法都可以基于云平台。

实施例二

本实施例提供了一种对移动设备用户进行个性化新闻推荐的装置，其具体结构如图2所述，包括如下模块：

新闻数据抓取模块21，用于通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储；

新闻数据聚类模块22，用于对所述新闻数据抓取模块所存储的新闻数据进行聚类，将所述新闻数据划分为多个簇；

移动设备用户感兴趣的簇获取模块23，用于根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度，获取所述移动设备用户感兴趣的簇；

移动设备用户感兴趣的新闻获取模块24，用于根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻。

具体的，所述的新闻数据抓取模块21，还用于将多个网页爬虫组成分布式网页爬虫系统，所述分布式网页爬虫系统中包括一个作为中心节点的网页爬虫和多个作为分支节点的网页爬虫；

用配置文件来存储各大新闻网站的网站摘要描述RSS地址，将所述配置文件中存储的所有RSS地址分配给所述作为中心节点的网页爬虫和多个作为分支节点的网页爬虫；

所述作为中心节点的网页爬虫和多个作为分支节点的网页爬虫分别利用分配的RSS地址实时从网络中抓取新闻，各个分支节点将抓取的新闻提交给中心节点，在所述中心节点中存储所有网页爬虫抓取的新闻。

具体的，所述的新闻数据聚类模块22，还用于首先利用LDA方法对每个新闻数据的标题和全文文本进行主题挖掘，提取出每个新闻的主题分布，并获取每个新闻的领域、标题和简介；

从待分类的新闻数据集中任意选择k个新闻分别分配到k个簇中，并分别作为k个簇的初始中心；

按照设定的相似度计算公式，计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的初始中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中；

所述相似度计算公式为：

NewsSim(n₁，n₂)

＝w₁*CateSim(n₁，n₂)+w₂*TitleSim(n₁，n₂)+w₃

*DesSim(n₁，n₂)

其中n₁、n₂表示2个待计算相似度的新闻，NewsSim(n₁，n₂)表示n₁、n₂的相似度，CateSim(n₁、n₂)表示n₁、n₂的领域相似度，TitleSim(n₁，n₂)表示n₁、n₂的标题相似度，DesSim(n₁、n₂)表示n₁、n₂的简介相似度，w₁、w₂、w₃表示三者权重，并且满足w₁+w₂+w₃＝1；

更新每个簇的中心点，重新计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中，一直到所述新闻数据集中所有的新闻数据都分配到所述k个簇中。

具体的，所述的移动设备用户感兴趣的簇获取模块23，还用于针对每个簇，利用余弦相似度计算方法计算：

所述T_c表示簇的主题分布，所述T_u表示移动设备用户的个性化配置信息中的主题分布；

将大于设定的阈值的Sim(T_c，T_u)对应的簇确定为移动设备用户感兴趣的簇。

具体的，所述的移动设备用户感兴趣的新闻获取模块24，还用于建立每个新闻数据的配置信息，所述配置信息中包括：主题分布、行为模式和的新闻实体；

针对所述移动设备用户感兴趣的簇中的每个新闻数据，

计算

NPSim (F_{n}, F_{u})

= \frac{α * TSim (T_{n}, T_{u}) + β * PSim (P_{n}, P_{u}) + γ * ESim (E_{n}, E_{u})}{\sqrt{α^{2} + β^{2} + γ^{2}}}

其中F_n表示新闻数据的配置信息，F_u表示移动设备用户的个性化配置信息

T_n表示新闻数据的配置信息中的主题分布，T_u表示移动设备用户的个性化配置信息中的主题分布，P_n表示新闻数据的配置信息中的行为模式，P_u表示移动设备用户的个性化配置信息中的行为模式，E_n表示新闻数据的配置信息中的新闻实体，E_u表示移动设备用户的个性化配置信息中的新闻实体，所述α、β、γ为设定的常数；

所述

所述

所述

将大于设定的阈值的NPSim(F_n，F_u)对应的新闻数据确定为移动设备用户感兴趣的新闻数据。

上述本发明实施例中的对移动设备用户进行个性化新闻推荐的装置可以设置在一个基于云计算的云平台上，搭建上述云平台的方法有多种，比如，可以采用Hadoop作为基础平台来构建云平台。Hadoop是Apache软件基金会(Apache SoftwareFoundation)组织下的一个开源项目，提供分布式计算环境下的可靠、可扩展软件。是一个更容易开发和并行处理大规模数据的分布式计算平台，也是目前最为广泛应用的开源云计算软件平台。它可以帮助我们方便地在普通硬件上架设自己的大规模机群系统，它是现在实现云计算的一个主要可选方式之一。

应用本发明实施例的装置对移动设备用户进行个性化新闻推荐的具体处理过程与前述方法实施例类似，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本发明实施例通过对新闻数据进行聚类，根据移动设备用户的个性化配置信息、新闻数据的聚类结果以及新闻内容来向移动设备用户推荐新闻，从而可以实现根据移动设备用户的需要向移动设备用户个性化推荐其所感兴趣的新闻。

本发明实施例在预处理过程中采用分层聚类的方法，使得算法的运行时间减少。本发明实施例提出的分层聚类采用二层聚类，第一层聚类是领域聚类，为数据划分出大的簇来，这种聚类每天只聚类一次，新抓取的新闻则通过计算其与每个簇的中心点的相似度来决定其属于那个簇；第二层聚类则分别对第一层聚类的大簇进行聚类，由于使用的是云计算平台，聚类的运行会分工给不同的机器，使第二层聚类能够并行进行；由于第二层聚类会并行处理，那么聚类的时间会比在一个机器上运行节省约k-1/(m＊k)的时间，k为第一层聚类的簇个数，m为云平台处理器的个数。

本发明实施例的推荐算法综合考虑的移动设备用户的自定义配置以及其历史阅读行为作为个性化偏好信息，更加充分的提现了移动设备用户的喜好，系统可以灵活地为移动设备用户的自定义配置信息赋予较高的权重，并且移动设备用户通过修改自定义配置信息则能够及时修正推荐的结果。

本发明实施例还为移动设备用户提供了语音阅读的方式，移动设备用户在享受个性化新闻推荐的服务的同时，还可以通过收听的方式进行阅读新闻。无论是开车、跑步、户外强烈光线、移动设备用户视力不好、屏幕分辨率低等条件下，都不影响阅读新闻。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对移动设备用户进行个性化新闻推荐的方法，其特征在于，包括：

通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储，对所述新闻数据进行聚类，将所述新闻数据划分为多个簇，具体的：首先利用LDA方法对每个新闻数据的标题和全文文本进行主题挖掘，提取出每个新闻的主题分布，并获取每个新闻的领域、标题和简介；从待分类的新闻数据集中任意选择k个新闻分别分配到k个簇中，并分别作为k个簇的初始中心；按照设定的相似度计算公式，计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的初始中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中；

所述相似度计算公式为：

NewsSim(n₁，n₂)

＝w₁*CateSim(n₁，n₂)+w₂*TitleSim(n₁，n₂)+w₃

*DesSim(n₁，n₂)

其中n₁、n₂表示2个待计算相似度的新闻，NewsSim(n₁，n₂)表示n₁、n₂的相似度，CateSim（n₁、n₂）表示n₁、n₂的领域相似度，TitleSim（n₁，n₂）表示n₁、n₂的标题相似度，DesSim（n₁、n₂）表示n₁、n₂的简介相似度，w₁、w₂、w₃表示三者权重，并且满足w₁+w₂+w₃＝1；

更新每个簇的中心点，重新计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中，一直到所述新闻数据集中所有的新闻数据都分配到所述k个簇中；且上述聚类算法应用在基于云计算的云平台上；根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度，获取所述移动设备用户感兴趣的簇；

2.根据权利要求1所述的对移动设备用户进行个性化新闻推荐的方法，其特征在于，通过网页爬虫从网络上实时抓取新闻数据，包括：

将多个网页爬虫组成分布式网页爬虫系统，所述分布式网页爬虫系统中包括一个作为中心节点的网页爬虫和多个作为分支节点的网页爬虫；

3.根据权利要求1所述的对移动设备用户进行个性化新闻推荐的方法，其特征在于，所述的根据移动设备用户的个性化配置信息中的新闻主题分布和各个簇的新闻主题分布之间的相似度，获取所述移动设备用户感兴趣的簇，包括：

针对每个簇，利用余弦相似度计算方法计算：

4.根据权利要求1或2或3所述的对移动设备用户进行个性化新闻推荐的方法，其特征在于，所述的根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度，获取所述移动设备用户感兴趣的新闻，包括：

建立每个新闻数据的配置信息，所述配置信息中包括：主题分布、行为模式和新闻实体；

针对所述移动设备用户感兴趣的簇中的每个新闻数据，

计算

\begin{matrix} NPSim (F_{n}, F_{u}) \\ = \frac{α * TSim (T_{n}, T_{u}) + β * PSim (P_{n}, P_{u}) + γ * ESim (E_{n}, E_{u})}{\sqrt{α^{2} + β^{2} + γ^{2}}} \end{matrix}

所述

TSim (T_{n}, T_{u}) = \frac{T_{n} \cdot T_{u}}{| | T_{n} \cdot T_{u} | |},

所述

PSim (P_{n}, P_{u}) = \frac{| P_{n} \cap P_{u} |}{| P_{n} \cup P_{u} |},

所述

ESim (E_{n}, E_{u}) = \frac{| E_{n} \cap E_{u} |}{| E_{n} \cup E_{u} |}

将大于设定的阈值的NPSim(F_n,F_u)对应的新闻数据确定为移动设备用户感兴趣的新闻数据。

5.一种对移动设备用户进行个性化新闻推荐的装置，其特征在于，包括：

新闻数据抓取模块，用于通过网页爬虫从网络上实时抓取新闻数据，将抓取的新闻数据进行存储;

所述的新闻数据聚类模块，还用于首先利用LDA方法对每个新闻数据的标题和全文文本进行主题挖掘，提取出每个新闻的主题分布，并获取每个新闻的领域、标题和简介；从待分类的新闻数据集中任意选择k个新闻分别分配到k个簇中，并分别作为k个簇的初始中心；按照设定的相似度计算公式，计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的初始中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中；

所述相似度计算公式为：

NewsSim(n₁，n₂)

＝w₁*CatsSim(n₁，n₂)+w₂*TitleSim(n₁，n₂)+w₃

*DesSim(n₁，n₂)

更新每个簇的中心点，重新计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的中心点之间的相似度，将每个新闻分配到最大的相似度计算结果对应的簇中，一直到所述新闻数据集中所有的新闻数据都分配到所述k个簇中；

6.根据权利要求5所述的对移动设备用户进行个性化新闻推荐的装置，其特征在于：

所述的新闻数据抓取模块，还用于将多个网页爬虫组成分布式网页爬虫系统，所述分布式网页爬虫系统中包括一个作为中心节点的网页爬虫和多个作为分支节点的网页爬虫；

7.根据权利要求5所述的对移动设备用户进行个性化新闻推荐的装置，其特征在于：

所述的移动设备用户感兴趣的簇获取模块，还用于针对每个簇，利用余弦相似度计算方法计算：

Sim (T_{c}, T_{u}) = \frac{T_{c} \cdot T_{u}}{| | T_{c} | | | | T_{u} | |}

8.根据权利要求6至7任一项所述的对移动设备用户进行个性化新闻推荐的装置，其特征在于：

所述的移动设备用户感兴趣的新闻获取模块，还用于建立每个新闻数据的配置信息，所述配置信息中包括：主题分布、行为模式和的新闻实体；

针对所述移动设备用户感兴趣的簇中的每个新闻数据，

计算

\begin{matrix} NPSim (F_{n}, F_{u}) \\ = \frac{α * TSim (T_{n}, T_{u}) + β * PSim (P_{n}, P_{u}) + γ * ESim (E_{n}, E_{u})}{\sqrt{α^{2} + β^{2} + γ^{2}}} \end{matrix}

所述

TSim (T_{n}, T_{u}) = \frac{T_{n} \cdot T_{u}}{| | T_{n} \cdot T_{u} | |},

所述

PSim (P_{n}, P_{u}) = \frac{| P_{n} \cap P_{u} |}{| P_{n} \cup P_{u} |},

所述

ESim (E_{n}, E_{u}) = \frac{| E_{n} \cap E_{u} |}{| E_{n} \cup E_{u} |}