CN105224699A - 一种新闻推荐方法及装置 - Google Patents
一种新闻推荐方法及装置 Download PDFInfo
- Publication number
- CN105224699A CN105224699A CN201510793972.5A CN201510793972A CN105224699A CN 105224699 A CN105224699 A CN 105224699A CN 201510793972 A CN201510793972 A CN 201510793972A CN 105224699 A CN105224699 A CN 105224699A
- Authority
- CN
- China
- Prior art keywords
- news
- user
- module
- interest model
- kinds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种新闻推荐方法及装置,该方法包括:获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并计算得到用户在选定时刻的新闻兴趣模型,按照该选定时刻的新闻兴趣模型,加权平均得到预置时间段内的最终新闻兴趣模型,按照最终新闻兴趣模型聚类各用户,并根据最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集,将该新闻候选集中的新闻推荐给用户。本发明根据用户的新闻兴趣模型和新闻热度向用户推荐新闻,可提高新闻推荐的合理性和准确性。
Description
技术领域
本发明属于计算机及网络技术领域,尤其涉及一种新闻推荐方法及装置。
背景技术
大型门户网站每天发布的各类文章非常之多,但是有的文章用户访问占比却不到10%,大量的文章无人浏览而得不到展示的机会。在这种情况下,对用户实施文章推荐是众多网站的首要选择。然而,大型网站的用户访问量是巨大的,每天的用户访问日志量多达亿级别。尤其是新闻类文章,每天待发布的热点新闻数量巨大,同时热点新闻对时效性要求比较高,这也对热点新闻的推荐系统提出了挑战。
现有技术中,推荐方法主要分为两种:第一种是基于内容的推荐,即,对物品(item)和用户(user)分别建模,然后计算用户和物品的模型相似度,把和用户的模型相似度最高的物品推荐给用户;第二种是基于协同过滤的推荐,即,根据用户的访问记录挖掘出相似度,而不再根据用户和物品本身的属性计算相似度,并且协同过滤推荐与业务无关。
但是在上述现有技术中,基于内容的推荐通常不考虑像新闻热点因素,即没有考虑新闻的生命周期,所以推荐效果并不理想;而基于协同过滤的推荐是基于访问记录进行的推荐,只有被访问过的热点新闻才能被推荐,对时效性要求非常高的热点新闻来说,达不到实时推送的效果。热点新闻生命周期极其短暂,很可能下一时刻就被下一条热点新闻取代而造成无人访问的结果,从而导致访问记录非常稀疏,给实施根据访问记录来计算相似度的方法造成一定程度的困难,并且计算的相似度准确性不高。
发明内容
本发明提供一种新闻推荐方法及装置,通过综合用户对新闻的真实兴趣和新闻的时效性向用户推荐新闻,以提高推荐新闻的准确率。
本发明第一方面提供一种新闻推荐方法,包括:
将新闻按照内容进行分类;获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型;按照所述最终新闻兴趣模型聚类各用户,并根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;将所述新闻候选集中的新闻推荐给所述用户。
本发明第二方面提供一种新闻推荐装置,包括:
分类模块,用于将新闻按照内容进行分类;获取模块,用于获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量;计算模块,用于根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;所述计算模块,还用于按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型;聚类模块,用于按照所述最终新闻兴趣模型聚类各用户;确定模块,用于根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;推荐模块,用于将所述新闻候选集中的新闻推荐给所述用户。
从上述本发明实施例可知,相较于现有技术,本发明一方面通过根据用户对不同类别的新闻点击量以及对应的总点击量建立新闻兴趣模型,平衡点击分布中新闻热度的影响,可提高新闻推荐的合理性和准确性,另一方面通过将新闻兴趣度相似的用户进行聚类,可加快推送速度且可保证实时性,并且通过计算当前一段较长时间内用户的最终新闻兴趣模型,可进一步提高推荐准确性和时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的新闻推荐方法的实现流程示意图;
图2是本发明第二实施例提供的新闻推荐装置的结构示意图;
图3是本发明第三实施例提供的新闻推荐装置的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种新闻推荐方法,该方法主要包括以下步骤:
S101、将新闻按照内容进行分类。
按照内容将新闻分类,新闻可分为社会类、军事类、科技类、财经类、娱乐类、教育类等类别。
具体地,可通过多项式模型的朴素贝叶斯分类算法来对新闻进行分类,其优点在于,对热点新闻之类的新闻信息,朴素贝叶斯分类算法的分类和训练的速度都很快。对新闻分类的主要目的是实现对各网站门户新闻的自动分类,从而为用户兴趣分析提供基础数据,以新闻的内容的类别为粒度来描述用户的兴趣。
S102、获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并根据各类新闻的该点击量和该点击总量,计算得到该用户在该选定时刻的新闻兴趣模型。
需要说明的是,用户对新闻的点击分布是指用户对新闻的点击量的分布情况,可以反映用户对不同类新闻的不同兴趣,但由于用户对新闻的点击行为,受用户自身的真实兴趣和新闻热点两个因素的影响,无法准确的反映该用户对新闻的真实兴趣。因此,用全体用户的点击分布平衡单个用户的点击分布中新闻热点这个因素的影响,更能反映用户的真实兴趣。
下面建立用户的新闻兴趣模型,该新闻兴趣模型是指用户和其感兴趣的新闻的对应关系,即,用户对各类新闻的新闻兴趣度。获取t时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并根据各类新闻的该点击量和该点击总量,计算得到该用户在t时刻的新闻兴趣模型。
具体地,用u表示该用户,ci表示类别为i的新闻的所有文章,I(u,ci)表示用户u对ci的新闻兴趣度。
采用贝叶斯全概率公式来计算用户的新闻兴趣度计算公式为:
p(click|category=ci)
根据贝叶斯全概率公式:
其中,表示用户u点击ci新闻的点击分布,即,用户u对ci的新闻的点击量;
N(u,ci)表示用户u点击过的ci中的新闻数量,N(u)表示用户u点击过的所有类别的新闻总数;
D(ci)表示全体用户点击ci的点击分布,即所有用户对ci的点击量;
p(category=ci|click)近似为用户u对ci的点击分布D(u,ci);
pt(category=ci)近似为全体用户对ci的点击分布D(ci);
pt(click)为描述用户点击事件的概率常量,因此,t时刻用户u对ci产生的兴趣度计算公式可简化为:
所以,用全体用户的点击分布Dt(ci)平衡单个用户u的点击分布Dt(u,ci)中ci类新闻热点这个因素的影响,更能反映用户的真实兴趣。
用全体用户的点击分布Dt(ci)对在门户网站中占主导地位的新闻分类的权重进行了惩罚,使得对新闻推荐的结果更具有多样性。
S103、按照该选定时刻的新闻兴趣模型,加权平均得到包含多个该选定时刻的预置时间段内的最终新闻兴趣模型。
最终新闻兴趣模型,是计算包含多个该选定时刻的预置时间段内的用户新闻兴趣额度,可进一步增加确定用户新闻兴趣度的准确度。新闻热度具有时效性,以及为了计算的简便,本实施例中,该预置时间段为该选定时刻所在的当天24小时。
具体地,根据前述用户在时刻t的新闻兴趣度的贝叶斯计算公式(I),计算当天的用户对各类新闻的最终新闻兴趣度。
其中,I(u,ci)表示用户对ci的新闻的最终兴趣度。kt是新闻在t时刻的时刻权重值,kt的范围是0~1,鉴于新闻的时效性,时间越靠近当前时刻,新闻的时刻权重值越大。It(u,ci)表示用户在t时刻对ci的新闻的兴趣度。
经过上述加权平均得到的计算结果,更接近用户的真实兴趣模型。此时,可以为该用户添加新闻兴趣标签,即记录该用户的最终新闻兴趣模型信息。
S104、按照该最终新闻兴趣模型聚类各用户,并根据该最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集。
将对新闻的兴趣向量相似的用户聚成一个用户类,向属于同一个聚类的用户推荐相同的新闻。把用户进行聚类的目的主要是降维,避免对每个用户都进行推荐运算,提高系统的性能。
具体地,采用基于K-Means算法的MapReduce模型实现用户聚类,流程如下:
(1)通过MapReduce模型中的map端提取各个用户的关于新闻兴趣度的特征向量;
(2)计算每个用户最近的中心点,通过map端计算,输出聚类中心;
(3)根据聚类中心收集数据点,形成第i次迭代的聚类;
(4)在reduce端对形成的每个聚类重新计算新的中心点,输出第i+1次迭代产生的聚类中心;
(5)判断第i次和i+1次聚类中心的距离是否小于预置的阈值,若是,则迭代结束;若否,则重新进入map端迭代计算,以此循环;
(6)输出最终聚类结果。
可以为聚类后的用户打上新闻兴趣标签,即,表明用户对不同类别新闻的不同兴趣度。
根据用户的新闻的最终新闻兴趣模型和新闻热度,筛选出向用户推荐的新闻候选集。可以向用户推荐其新闻兴趣度最高的类型的新闻,也可以推荐新闻兴趣度较高的几个类型的新闻。
S105、将该新闻候选集中的新闻推荐给该用户。
将该新闻候选集中的新闻按照一定的规则推荐给用户,例如,可根据发布时间的先后顺序推荐给用户。
作为本发明的一个实施例,在步骤S102和步骤S103之间还包括以下步骤:
S102'、根据新闻热度和新闻内容,确定各类新闻中每条新闻的权重值。
需要说明的是,在各类新闻中,可以将新闻热度这个因素加入到确定权重值的设定中。新闻热度通常根据点击次数或转载次数确定,而一般情况下,各大门户网站的推荐新闻更容易被用户点击,被其他网站转载,新闻热度最高,各大门户网站的首页新闻的点击次数和转载次数会稍逊于推荐新闻,而除了这两类之外的新闻的点击次数和转载次数会更低一些,因此新闻热度就稍差。据此,本实施例中,可将各大门户网站的推荐新闻的权重值设置为最高权重值,将各大门户网站的首页新闻的权重值设置为仅次于推荐新闻的权重值,然后此两类之外的新闻按照以下方式计算得到。
计算各类别下每条新闻的权重值具体可以是:
首先,将每条新闻的初始权重值设置为0,对每条新闻的标题和关键词进行分词,根据得到的分词对预置时间段内的新闻,例如可以是当天24小时的新闻进行搜索,搜索结果显示各分词出现的频率,利用杰卡德公式对搜索结果进行各分词的相似度计算,按照相似度从高到低排序,保留大于预置阈值的结果集,并按照预置数值增加大于该预置阈值的结果集中的分词对应的新闻的权重值,例如,将在该结果集中出现的分词对应的新闻的权重值增加1。
则S105具体包括:将该新闻候选集中的新闻按照发布时间以及权重值进行降序排列,并按照排列的先后顺序向该用户推荐新闻。
将该新闻候选集中的新闻按照发布时间以及权重值进行降序排列,即,发布时间越晚的新闻排列顺序越靠前,权重值越高的新闻排序越靠前。发布时间和权重值两个排列标准中,可以发布时间为重,也可以权重值为重,即,可以先按照发布时间对新闻进行降序排列的基础上,再按照权重值进行降序排列,也可以先按照权重值进行降序排列的基础上,再按照发布时间进行降序排列。
按照排列的先后顺序向该用户推荐新闻。例如,用户喜欢体育类新闻,则推送顺序为:当前门户网站的体育类的推荐新闻、体育类的首页新闻、按照权重值从高到低的顺序排列的前两种以外的其余体育类新闻。
定期获取用户点击新闻的历史记录,根据该历史记录更新该用户的新闻兴趣模型,以计算用户随时间不断变化的兴趣度,提高新闻推荐效果。
本发明实施例中,一方面通过根据用户对不同类别的新闻点击量以及对应的总点击量建立新闻兴趣模型,平衡点击分布中新闻热度的影响,可提高新闻推荐的合理性和准确性,另一方面通过将新闻兴趣度相似的用户进行聚类,可加快推送速度且可保证实时性,并且通过计算当前一段较长时间内用户的最终新闻兴趣模型,可进一步提高推荐准确性和时效性。
请参阅图2,图2是本发明第二实施例提供的新闻推荐装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分。本实施例提供的新闻推荐装置可以是上述第一实施例提供的新闻推荐方法的执行主体,例如服务器或服务器中的一个模块。具体地,该装置主要包括:分类模块201、获取模块202、计算模块203、聚类模块204、确定模块205以及推荐模块206。
其中,分类模块201,用于将新闻按照内容进行分类;
获取模块202,用于获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量;
计算模块203,用于根据各类新闻的该点击量和该点击总量,计算得到该用户在该选定时刻的新闻兴趣模型;
计算模块203,还用于按照该选定时刻的新闻兴趣模型,加权平均得到包含多个该选定时刻的预置时间段内的最终新闻兴趣模型;
聚类模块204,用于按照该最终新闻兴趣模型聚类各用户;
确定模块205,用于根据该最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;
推荐模块206,用于将该新闻候选集中的新闻推荐给该用户推荐新闻。
需要说明的是,以上图2示例的新闻推荐装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将该访问装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成(本说明书提供的各个实施例都可应用上述描述原则)。未尽细节请参见前述图1所示实施例的描述。
从上述图2示例的新闻推荐装置可知,本实施例提供的新闻推荐装置一方面通过根据用户对不同类别的新闻点击量以及对应的总点击量建立新闻兴趣模型,平衡点击分布中新闻热度的影响,可提高新闻推荐的合理性和准确性,另一方面通过将新闻兴趣度相似的用户进行聚类,可加快推送速度且可保证实时性,并且通过计算当前一段较长时间内用户的最终新闻兴趣模型,可进一步提高推荐准确性和时效性。
请参阅图3,图3是本发明第三实施例提供的新闻推荐装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分。本实施例提供的新闻推荐装置可以是上述第一实施例提供的新闻推荐方法的执行主体,例如服务器或服务器中的一个模块。具体地,该装置主要包括:分类模块301、获取模块302、计算模块303、确定模块304、分词模块3041、搜索模块3042、计算子模块3043、排序子模块3044、更新权重模块3045、聚类模块305、排序模块306以及推荐模块307。
其中,分类模块301,用于将新闻按照内容进行分类;
分类模块301,还用于通过朴素贝叶斯分类算法,将新闻按照内容进行分类。
获取模块302,用于获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量;
计算模块303,用于根据各类新闻的该点击量和该点击总量,计算得到该用户在该选定时刻的新闻兴趣模型;
计算模块303,还用于根据各类新闻的该点击量和该点击总量,通过贝叶斯全概率算法计算得到该用户在该选定时刻的新闻兴趣模型;
确定模块304,用于根据新闻热度和新闻内容,确定各类新闻中每条新闻的权重值;
确定模块304进一步包括:
分词模块3041,用于对每条新闻的标题和关键词进行分词;
搜索模块3042,用于根据分词对该预置时间段内的新闻进行搜索;
计算子模块3043,用于通过杰卡德公式对搜索结果进行相似度计算;
排序子模块3044,用于按照计算得到的相似度从高到低排列;
更新权重模块3045,用于保留相似度大于阈值的结果集,并按照预置数值增加该结果集中的分词对应的新闻的权重值。
进一步地,计算模块303,还用于按照该选定时刻的新闻兴趣模型,加权平均得到包含多个该选定时刻的预置时间段内的最终新闻兴趣模型;
聚类模块305,用于按照该最终新闻兴趣模型聚类各用户;
确定模块304,还用于根据该最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;
排序模块306,用于将该新闻候选集中的新闻按照发布时间以及该权重值进行降序排列;
推荐模块307,用于按照排列的先后顺序向该用户推荐新闻。
进一步地,获取模块302,还用于定期获取该用户点击新闻的历史记录。
该装置还包括:
更新模块308,用于根据该历史记录更新该用户的新闻兴趣模型。
本实施例中未尽细节请参见前述图1及图2所示实施例的描述。
从上述图3示例的新闻推荐装置可知,本实施例提供的新闻推荐装置一方面通过根据用户对不同类别的新闻点击量以及对应的总点击量建立新闻兴趣模型,平衡点击分布中新闻热度的影响,可提高新闻推荐的合理性和准确性,另一方面通过将新闻兴趣度相似的用户进行聚类,可加快推送速度且可保证实时性,并且通过计算当前一段较长时间内用户的最终新闻兴趣模型,可进一步提高推荐准确性和时效性。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种新闻推荐方法及装置,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种新闻推荐方法,其特征在于,所述方法包括:
将新闻按照内容进行分类;
获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;
按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型;
按照所述最终新闻兴趣模型聚类各用户,并根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;
将所述新闻候选集中的新闻推荐给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述将新闻按照内容进行分类包括:
通过朴素贝叶斯分类算法,将新闻按照内容进行分类。
3.根据权利要求1或2所述的方法,其特征在于,所述根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型包括:
根据各类新闻的所述点击量和所述点击总量,通过贝叶斯全概率算法计算得到所述用户在所述选定时刻的新闻兴趣模型。
4.根据权利要求3所述的方法,其特征在于,所述计算得到所述用户在所述选定时刻的新闻兴趣模型与所述按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型之间,包括:
根据新闻热度和新闻内容,确定各类新闻中每条新闻的权重值;
则所述将所述新闻候选集中的新闻推荐给所述用户包括:
将所述新闻候选集中的新闻按照发布时间以及所述权重值进行降序排列,并按照排列的先后顺序向所述用户推荐新闻。
5.根据权利要求4所述的方法,其特征在于,所述根据新闻热度和新闻内容,确定各类新闻中每条新闻的权重值包括:
对每条新闻的标题和关键词进行分词,并根据分词对所述预置时间段内的新闻进行搜索;
通过杰卡德公式对搜索结果进行相似度计算,并按照计算得到的相似度从高到低排列;
保留相似度大于阈值的结果集,并按照预置数值增加所述结果集中的分词对应的新闻的权重值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
定期获取所述用户点击新闻的历史记录,根据所述历史记录更新所述用户的新闻兴趣模型。
7.一种新闻推荐装置,其特征在于,所述装置包括:
分类模块,用于将新闻按照内容进行分类;
获取模块,用于获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量;
计算模块,用于根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;
所述计算模块,还用于按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型;
聚类模块,用于按照所述最终新闻兴趣模型聚类各用户;
确定模块,用于根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;
推荐模块,用于将所述新闻候选集中的新闻推荐给所述用户。
8.根据权利要求7所述的装置,其特征在于,所述分类模块用于通过朴素贝叶斯分类算法,将新闻按照内容进行分类;
所述计算模块用于根据各类新闻的所述点击量和所述点击总量,通过贝叶斯全概率算法计算得到所述用户在所述选定时刻的新闻兴趣模型。
9.根据权利要求8所述的装置,其特征在于,
所述确定模块,用于根据新闻热度和新闻内容,确定各类新闻中每条新闻的权重值;
所述装置,还包括:
排序模块,用于将所述新闻候选集中的新闻按照发布时间以及所述权重值进行降序排列;
所述推荐模块,用于按照排列的先后顺序向所述用户推荐新闻;
其中,所述确定模块具体包括:
分词模块,用于对每条新闻的标题和关键词进行分词;
搜索模块,用于根据分词对所述预置时间段内的新闻进行搜索;
计算子模块,用于通过杰卡德公式对搜索结果进行相似度计算;
排序子模块,用于按照计算得到的相似度从高到低排列;
更新权重模块,用于保留相似度大于阈值的结果集,并按照预置数值增加所述结果集中的分词对应的新闻的权重值。
10.根据权利要求9所述的装置,其特征在于,
所述获取模块,还用于定期获取所述用户点击新闻的历史记录;
所述装置还包括:
更新模块,用于根据所述历史记录更新所述用户的新闻兴趣模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510793972.5A CN105224699B (zh) | 2015-11-17 | 2015-11-17 | 一种新闻推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510793972.5A CN105224699B (zh) | 2015-11-17 | 2015-11-17 | 一种新闻推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105224699A true CN105224699A (zh) | 2016-01-06 |
CN105224699B CN105224699B (zh) | 2020-01-03 |
Family
ID=54993667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510793972.5A Active CN105224699B (zh) | 2015-11-17 | 2015-11-17 | 一种新闻推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224699B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574213A (zh) * | 2016-02-26 | 2016-05-11 | 江苏大学 | 一种基于数据挖掘技术的微博推荐方法及装置 |
CN105787055A (zh) * | 2016-02-26 | 2016-07-20 | 合网络技术(北京)有限公司 | 信息推荐方法及装置 |
CN105808773A (zh) * | 2016-03-28 | 2016-07-27 | 北京麒麟合盛网络技术有限公司 | 一种新闻推送方法及装置 |
CN105843963A (zh) * | 2016-04-19 | 2016-08-10 | 北京金山安全软件有限公司 | 一种网站选取方法及服务器 |
CN105868332A (zh) * | 2016-03-28 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种热点概念的推荐方法和装置 |
CN105893467A (zh) * | 2016-03-28 | 2016-08-24 | 北京麒麟合盛网络技术有限公司 | 一种信息分类方法及装置 |
CN106202394A (zh) * | 2016-07-07 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 文本资讯的推荐方法及系统 |
CN106372113A (zh) * | 2016-08-22 | 2017-02-01 | 上海亿账通互联网科技有限公司 | 新闻内容的推送方法及系统 |
CN106980629A (zh) * | 2016-01-19 | 2017-07-25 | 华为技术有限公司 | 一种网络资源推荐方法及计算机设备 |
CN107103049A (zh) * | 2017-03-31 | 2017-08-29 | 努比亚技术有限公司 | 一种推荐方法及网络设备 |
CN107506387A (zh) * | 2017-07-26 | 2017-12-22 | 侯小芳 | 一种互联网大数据匹配方法 |
CN107958042A (zh) * | 2017-11-23 | 2018-04-24 | 维沃移动通信有限公司 | 一种目标专题的推送方法及移动终端 |
CN108512711A (zh) * | 2017-02-24 | 2018-09-07 | 合网络技术(北京)有限公司 | 得到瞬时接口访问统计量的方法、装置和设备 |
CN108710635A (zh) * | 2018-04-08 | 2018-10-26 | 达而观信息科技(上海)有限公司 | 一种内容推荐方法及装置 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN108897774A (zh) * | 2018-05-31 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 一种获取新闻热点的方法、设备及存储介质 |
CN109145218A (zh) * | 2018-09-10 | 2019-01-04 | 北京点网聚科技有限公司 | 一种文章推荐方法及装置 |
CN109241410A (zh) * | 2018-08-15 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 一种文章推荐方法和装置 |
CN109409928A (zh) * | 2018-09-14 | 2019-03-01 | 上海晶赞融宣科技有限公司 | 一种素材推荐方法、装置、存储介质、终端 |
CN109478301A (zh) * | 2016-01-29 | 2019-03-15 | 微软技术许可有限责任公司 | 网络内容的及时传播 |
CN109785698A (zh) * | 2017-11-13 | 2019-05-21 | 上海流利说信息技术有限公司 | 用于口语水平评测的方法、装置、电子设备以及介质 |
CN110012318A (zh) * | 2018-01-05 | 2019-07-12 | 武汉斗鱼网络科技有限公司 | 一种确定用户兴趣方法、存储介质、设备及系统 |
CN111191117A (zh) * | 2019-12-11 | 2020-05-22 | 中国地质大学(武汉) | 一种用于政务地图服务的精准性用户兴趣检测方法及系统 |
CN111225267A (zh) * | 2018-11-26 | 2020-06-02 | 中国电信股份有限公司 | 内容缓存调度方法、装置和系统、内容分发网络节点 |
CN112231593A (zh) * | 2020-12-15 | 2021-01-15 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
CN112328881A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
CN113688225A (zh) * | 2021-08-23 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
CN113837842A (zh) * | 2021-09-29 | 2021-12-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于用户行为数据的商品推荐方法及设备 |
CN115374370A (zh) * | 2022-10-26 | 2022-11-22 | 小米汽车科技有限公司 | 基于多模型的内容推送方法、装置和电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446959A (zh) * | 2008-12-30 | 2009-06-03 | 深圳市迅雷网络技术有限公司 | 一种基于互联网的新闻推荐方法和系统 |
CN101694659A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于多主题追踪的个性化网络新闻推送方法 |
CN102236710A (zh) * | 2011-06-30 | 2011-11-09 | 百度在线网络技术(北京)有限公司 | 一种用于在查询结果中展现新闻信息的方法与设备 |
US8095521B2 (en) * | 2007-03-30 | 2012-01-10 | Amazon Technologies, Inc. | Recommendation system with cluster-based filtering of recommendations |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103309864A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种搜索结果显示方法、装置及系统 |
CN103383702A (zh) * | 2013-07-17 | 2013-11-06 | 中国科学院深圳先进技术研究院 | 一种基于用户投票排名的个性化新闻推荐的方法及系统 |
CN103927347A (zh) * | 2014-04-01 | 2014-07-16 | 复旦大学 | 一种基于用户行为模型和蚁群聚类的协同过滤推荐算法 |
CN104166668A (zh) * | 2014-06-09 | 2014-11-26 | 南京邮电大学 | 基于folfm模型的新闻推荐系统及方法 |
CN104462156A (zh) * | 2013-09-25 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的特征提取、个性化推荐方法和系统 |
CN104935970A (zh) * | 2015-07-09 | 2015-09-23 | 三星电子(中国)研发中心 | 进行电视内容推荐的方法及电视客户端 |
-
2015
- 2015-11-17 CN CN201510793972.5A patent/CN105224699B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8095521B2 (en) * | 2007-03-30 | 2012-01-10 | Amazon Technologies, Inc. | Recommendation system with cluster-based filtering of recommendations |
CN101446959A (zh) * | 2008-12-30 | 2009-06-03 | 深圳市迅雷网络技术有限公司 | 一种基于互联网的新闻推荐方法和系统 |
CN101694659A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于多主题追踪的个性化网络新闻推送方法 |
CN102236710A (zh) * | 2011-06-30 | 2011-11-09 | 百度在线网络技术(北京)有限公司 | 一种用于在查询结果中展现新闻信息的方法与设备 |
CN103309864A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种搜索结果显示方法、装置及系统 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103383702A (zh) * | 2013-07-17 | 2013-11-06 | 中国科学院深圳先进技术研究院 | 一种基于用户投票排名的个性化新闻推荐的方法及系统 |
CN104462156A (zh) * | 2013-09-25 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的特征提取、个性化推荐方法和系统 |
CN103927347A (zh) * | 2014-04-01 | 2014-07-16 | 复旦大学 | 一种基于用户行为模型和蚁群聚类的协同过滤推荐算法 |
CN104166668A (zh) * | 2014-06-09 | 2014-11-26 | 南京邮电大学 | 基于folfm模型的新闻推荐系统及方法 |
CN104935970A (zh) * | 2015-07-09 | 2015-09-23 | 三星电子(中国)研发中心 | 进行电视内容推荐的方法及电视客户端 |
Non-Patent Citations (2)
Title |
---|
ABHINANDAN DAS等: "Google News Personalization: Scalable Online Collaborative Filtering", 《16TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB PAGES》 * |
JIAHUI LIU等: "Personalized News Recommendation Based on Click Behavior", 《15TH INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980629A (zh) * | 2016-01-19 | 2017-07-25 | 华为技术有限公司 | 一种网络资源推荐方法及计算机设备 |
US10839032B2 (en) | 2016-01-19 | 2020-11-17 | Huawei Technologies Co., Ltd. | Network resource recommendation method and computer device |
CN109478301B (zh) * | 2016-01-29 | 2022-04-01 | 微软技术许可有限责任公司 | 网络内容的及时传播 |
CN109478301A (zh) * | 2016-01-29 | 2019-03-15 | 微软技术许可有限责任公司 | 网络内容的及时传播 |
CN105787055B (zh) * | 2016-02-26 | 2020-04-21 | 合一网络技术(北京)有限公司 | 信息推荐方法及装置 |
CN105787055A (zh) * | 2016-02-26 | 2016-07-20 | 合网络技术(北京)有限公司 | 信息推荐方法及装置 |
CN105574213A (zh) * | 2016-02-26 | 2016-05-11 | 江苏大学 | 一种基于数据挖掘技术的微博推荐方法及装置 |
CN105868332A (zh) * | 2016-03-28 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种热点概念的推荐方法和装置 |
CN105893467A (zh) * | 2016-03-28 | 2016-08-24 | 北京麒麟合盛网络技术有限公司 | 一种信息分类方法及装置 |
CN105808773A (zh) * | 2016-03-28 | 2016-07-27 | 北京麒麟合盛网络技术有限公司 | 一种新闻推送方法及装置 |
CN105843963A (zh) * | 2016-04-19 | 2016-08-10 | 北京金山安全软件有限公司 | 一种网站选取方法及服务器 |
CN106202394A (zh) * | 2016-07-07 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 文本资讯的推荐方法及系统 |
US10783206B2 (en) | 2016-07-07 | 2020-09-22 | Tencent Technology (Shenzhen) Company Limited | Method and system for recommending text content, and storage medium |
CN106372113B (zh) * | 2016-08-22 | 2018-03-20 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法及系统 |
CN106372113A (zh) * | 2016-08-22 | 2017-02-01 | 上海亿账通互联网科技有限公司 | 新闻内容的推送方法及系统 |
CN108512711A (zh) * | 2017-02-24 | 2018-09-07 | 合网络技术(北京)有限公司 | 得到瞬时接口访问统计量的方法、装置和设备 |
CN108512711B (zh) * | 2017-02-24 | 2021-07-13 | 阿里巴巴(中国)有限公司 | 得到瞬时接口访问统计量的方法、装置和设备 |
CN107103049A (zh) * | 2017-03-31 | 2017-08-29 | 努比亚技术有限公司 | 一种推荐方法及网络设备 |
CN107506387A (zh) * | 2017-07-26 | 2017-12-22 | 侯小芳 | 一种互联网大数据匹配方法 |
CN109785698A (zh) * | 2017-11-13 | 2019-05-21 | 上海流利说信息技术有限公司 | 用于口语水平评测的方法、装置、电子设备以及介质 |
CN107958042B (zh) * | 2017-11-23 | 2020-09-08 | 维沃移动通信有限公司 | 一种目标专题的推送方法及移动终端 |
CN107958042A (zh) * | 2017-11-23 | 2018-04-24 | 维沃移动通信有限公司 | 一种目标专题的推送方法及移动终端 |
CN110012318A (zh) * | 2018-01-05 | 2019-07-12 | 武汉斗鱼网络科技有限公司 | 一种确定用户兴趣方法、存储介质、设备及系统 |
CN110012318B (zh) * | 2018-01-05 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种确定用户兴趣方法、存储介质、设备及系统 |
CN108710635A (zh) * | 2018-04-08 | 2018-10-26 | 达而观信息科技(上海)有限公司 | 一种内容推荐方法及装置 |
CN108897774A (zh) * | 2018-05-31 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 一种获取新闻热点的方法、设备及存储介质 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN109241410A (zh) * | 2018-08-15 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 一种文章推荐方法和装置 |
CN109145218A (zh) * | 2018-09-10 | 2019-01-04 | 北京点网聚科技有限公司 | 一种文章推荐方法及装置 |
CN109145218B (zh) * | 2018-09-10 | 2021-11-02 | 北京一点网聚科技有限公司 | 一种文章推荐方法及装置 |
CN109409928A (zh) * | 2018-09-14 | 2019-03-01 | 上海晶赞融宣科技有限公司 | 一种素材推荐方法、装置、存储介质、终端 |
CN111225267A (zh) * | 2018-11-26 | 2020-06-02 | 中国电信股份有限公司 | 内容缓存调度方法、装置和系统、内容分发网络节点 |
CN111191117A (zh) * | 2019-12-11 | 2020-05-22 | 中国地质大学(武汉) | 一种用于政务地图服务的精准性用户兴趣检测方法及系统 |
CN112328881A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
CN112328881B (zh) * | 2020-11-05 | 2024-04-02 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
CN112231593B (zh) * | 2020-12-15 | 2021-03-12 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
CN112231593A (zh) * | 2020-12-15 | 2021-01-15 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
CN113688225A (zh) * | 2021-08-23 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
CN113688225B (zh) * | 2021-08-23 | 2024-03-15 | 平安国际智慧城市科技股份有限公司 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
CN113837842A (zh) * | 2021-09-29 | 2021-12-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于用户行为数据的商品推荐方法及设备 |
CN115374370A (zh) * | 2022-10-26 | 2022-11-22 | 小米汽车科技有限公司 | 基于多模型的内容推送方法、装置和电子设备 |
CN115374370B (zh) * | 2022-10-26 | 2023-04-07 | 小米汽车科技有限公司 | 基于多模型的内容推送方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105224699B (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224699A (zh) | 一种新闻推荐方法及装置 | |
Zhu et al. | Heterogeneous hypergraph embedding for document recommendation | |
CN109543109B (zh) | 一种融合时间窗技术和评分预测模型的推荐算法 | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
Liao et al. | Evaluating the effectiveness of search task trails | |
CN104268292B (zh) | 画像系统的标签词库更新方法 | |
Zhang et al. | Enabling kernel-based attribute-aware matrix factorization for rating prediction | |
CN104572962A (zh) | 一种app推荐的方法和系统 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN104090919A (zh) | 推荐广告的方法及广告推荐服务器 | |
CN104239338A (zh) | 信息推荐方法及装置 | |
Kamehkhosh et al. | A Comparison of Frequent Pattern Techniques and a Deep Learning Method for Session-Based Recommendation. | |
CN104252456A (zh) | 一种权重估计方法、装置及系统 | |
CN105913296A (zh) | 一种基于图的个性化推荐方法 | |
CN109460519B (zh) | 浏览对象推荐方法及装置、存储介质、服务器 | |
CN104142999A (zh) | 搜索结果展示方法及装置 | |
CN105574213A (zh) | 一种基于数据挖掘技术的微博推荐方法及装置 | |
CN112070577A (zh) | 一种商品推荐方法、系统、设备及介质 | |
CN113254810B (zh) | 搜索结果输出方法、装置、计算机设备及可读存储介质 | |
CN113837842A (zh) | 一种基于用户行为数据的商品推荐方法及设备 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
CN110795613A (zh) | 商品搜索方法、装置、系统及电子设备 | |
Isoni | Machine learning for the web | |
Sagar et al. | Analysis of prediction techniques based on classification and regression | |
Singh et al. | Relative similarity based approach for improving aggregate recommendation diversity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |