CN103077190A - 基于排序学习技术的热门事件排名方法 - Google Patents
基于排序学习技术的热门事件排名方法 Download PDFInfo
- Publication number
- CN103077190A CN103077190A CN2012105602126A CN201210560212A CN103077190A CN 103077190 A CN103077190 A CN 103077190A CN 2012105602126 A CN2012105602126 A CN 2012105602126A CN 201210560212 A CN201210560212 A CN 201210560212A CN 103077190 A CN103077190 A CN 103077190A
- Authority
- CN
- China
- Prior art keywords
- event
- news
- hot
- ratio
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于排序学习技术的热门事件排名方法,该方法包括:A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;C、收集训练数据,并标注事件热度的步骤;D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。利用本发明方法,能够对互联网上的新闻数据进行处理,并根据事件的相关特征,获得对有新闻价值的新闻事件的排名,增强新闻的分类性。
Description
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种基于排序学习(learning torank)技术的热门事件排名方法。
背景技术
随着互联网的发展,新闻已经不再局限于电视、报纸这类传统传播方式,网络平台已经成为新闻传播的新途径。新闻网站、论坛、社交网络等都是发布新闻或发表言论的新型媒介。海量信息带来资讯价值的同时,也给用户阅读带来了不便,不利于用户关注热点事件,如何从海量信息中挖掘出热门新闻事件,使得用户不遗漏值得关注的新闻事件成为当下热门的研究点。
目前大部分的网站都在显著位置对新闻事件进行排名或推荐,有些网站只给出最新的新闻事件,有的则根据新闻的点击量给出简单的新闻事件排名,部分网站的热点新闻是由编辑提供的,新闻搜索则只能根据特定关键词给出相关新闻。由此可见,自动有效的热点新闻事件排名对于新闻的展示非常有必要。
排序学习(Learning to Rank),作为一种基于监督学习的排序方法,最早用于搜索引擎检索结果的排序。传统的排序方法一般是通过构造一个排序函数(Scoring Function)来实现,但由于影响排序的因素很多,对于传统的排序模型,参数增加会使传统的经验方法调整参数变得困难。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于排序学习(learning to rank)技术的热门事件排名方法,其利用机器学习技术,对互联网上的新闻数据进行处理,并根据事件的相关特征,获得对有新闻价值的新闻事件的排名,增强新闻的分类性。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于排序学习技术的热门事件排名方法,该方法包括:
A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;
B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;
C、收集训练数据,并标注事件热度的步骤;
D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。
其中:步骤B所述的特征项,主要包括事件中热词的比例、事件新闻数比例、知名媒体新闻比例、知名媒体评论比例、相关微博数量比例以及事件热度得分。
所述事件热度得分hot(d)具体为:
其中:decay(t)为衰减函数,d为当前时刻,ωt为事件在第t个时刻新增的报道量;ωd为事件在当前时刻的报道量。
本发明所提供的基于排序学习(learning to rank)技术的热门事件排名方法,具有以下优点:
本发明方法主要针对当前新闻网页资源过多,可读性差的现况,利用机器学习技术,利用聚类处理将新闻网页映射为事件,通过提取排名所需的各项特征,将新闻事件进行排名,增强新闻事件的分类性。利用该方法,能够增强可读性,不仅提高了用户体验,还提升了新闻价值。
附图说明
图1为本发明基于排序学习技术的热门事件排名方法。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
图1为本发明基于排序学习(Learning to rank)技术的热门事件排名方法。这里,基于排序学习的热门事件排名策略,分为线上和线下两部分。线下部分用于收集数据,利用聚类算法生成事件,在提取相关事件特征之后,人工标注数据,并将数据划分为训练集合测试集,根据训练样本和测试样本训练出排序模型。
如图1所示,该方法主要包括如下步骤:
步骤10:在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤。进一步地,还可利用事件的开始时间,将事件划分到不同的日期。
这里,新闻网页抓取的过程。例如:收集部分新闻网站作为抓取种子,如人民网、新华网、网易新闻等,从这些网站上获取新闻网页,并进行正文提取,获得新闻的发布时间和媒体信息,如新闻有评论模块,则抓取其页面上的评论数目。从新闻网页获取事件,主要通过聚类算法实现,利用聚类算法将新闻网页映射到事件。
步骤11:为每个事件提取排名所需的各种特征的步骤。通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备。
例如,主要特征项包括但不限于如下几项。
1)事件中热词的比例:对于每天的事件,我们利用TFIDF统计这一天中出现在各个新闻中的词,并认为前N个词为这一天的新闻热词,统计各个事件中热词的比例。统计事件热词比例,可利用TF-IDF模型将新闻网页转化为向量空间,为新闻中的每个词计算权重weight(d,w),计算方法如公式(1)所示:
其中:tf(d,w)为一个词w在新闻d中出现的次数,df(w)是词w出现的新闻文档数,N是训练数据中一天的文档数。
利用词的权重,我们可以获得每天的热词,并可以间接获得每个事件的关键词。
2)事件新闻数比例:对于每个事件,统计新闻的数量,并计算其在新闻总量中的比重。
3)知名媒体新闻比例:收集知名媒体表,如新浪、网易、人民网等,统计事件中新闻知名媒体的数量占其新闻报道媒体总量的比例。
4)知名媒体评论比例:对于各个事件,收集知名媒体新闻页面上用户评论的数量,针对每个事件,统计评论数量占据新闻评论总量的比例。
5)相关微博数量比例:对于各个事件,根据事件关键词在微博上搜索微博数量,统计每个事件微博数量占整个微博数量的比例。
6)热度得分:对于各个事件而言,为其计算热度得分,一般而言,媒体报道量直观的反应了这个事件的流行度,但是随着时间的推移之前的报道在当前看来已经没那么重要,本发明提出了一种热度得分公式来为每个事件计算其热度得分。计算计算热度得分的过程:
事件的报道量是一个事件是否热门最直接的反应,新闻事件有其特定的生命周期,从发生、发展到衰亡,事件的影响力随着时间的推移而逐步下降,且这种衰减因子不应当是一个固定的值,衰减因子应当随时间的增长而变大。我们借助艾宾浩斯记忆曲线来计算衰减因子,因此衰减函数decay(t)如公式(2)所示:
设定当前时刻为d,ωt为事件在第t个时刻新增的报道量,ωd为事件在当前时刻的报道量。则事件热度得分hot(d)可利用(3)式获得:
步骤12:收集训练数据,并标注事件热度的步骤。如,可以将事件热度规定为5个等级。具体如下:
给出以下评判标准,先标注事件后给相应事件打分,针对一个事件,取所有打分的平均分。
步骤13:利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分,存入事件索引,从而得到热门事件的排名信息。
这里,该排名(Learning to Rank)模型,利用排序向量机(Ranking SVM),将不同等级得分的事件映射为偏序关系,建立模型输入,调节参数,并利用测试数据,测试准确率。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (3)
1.一种基于排序学习技术的热门事件排名方法,其特征在于,该方法包括:
A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;
B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;
C、收集训练数据,并标注事件热度的步骤;
D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。
2.根据权利要求1所述的基于排序学习技术的热门事件排名方法,其特征在于,步骤B所述的特征项,主要包括事件中热词的比例、事件新闻数比例、知名媒体新闻比例、知名媒体评论比例、相关微博数量比例以及事件热度得分。
3.根据权利要求2所述的基于排序学习技术的热门事件排名方法,其特征在于,所述事件热度得分hot(d)具体为:
其中:decay(t)为衰减函数,d为当前时刻,ωt为事件在第t个时刻新增的报道量;ωd为事件在当前时刻的报道量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105602126A CN103077190A (zh) | 2012-12-20 | 2012-12-20 | 基于排序学习技术的热门事件排名方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105602126A CN103077190A (zh) | 2012-12-20 | 2012-12-20 | 基于排序学习技术的热门事件排名方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103077190A true CN103077190A (zh) | 2013-05-01 |
Family
ID=48153720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012105602126A Pending CN103077190A (zh) | 2012-12-20 | 2012-12-20 | 基于排序学习技术的热门事件排名方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103077190A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
CN103957275A (zh) * | 2014-05-19 | 2014-07-30 | 北京奇虎科技有限公司 | 用户评论信息的推送方法、客户端、服务器及系统 |
CN104035994A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 一种基于网络数据的电视剧点播量预测方法 |
CN104281577A (zh) * | 2013-07-02 | 2015-01-14 | 威盛电子股份有限公司 | 数据文件的排序方法 |
CN104598539A (zh) * | 2014-12-30 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种互联网事件热度计算方法及终端 |
CN105677906A (zh) * | 2015-05-07 | 2016-06-15 | 浚鸿数据开发股份有限公司 | 网络事件自动搜集分析系统及方法 |
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
CN106156364A (zh) * | 2016-08-02 | 2016-11-23 | 西南石油大学 | 一种基于时间流的计算新闻事件动态影响力的方法与系统 |
CN106447239A (zh) * | 2016-11-21 | 2017-02-22 | 北京字节跳动科技有限公司 | 一种数据发布的审核方法及装置 |
CN107239497A (zh) * | 2017-05-02 | 2017-10-10 | 广东万丈金数信息技术股份有限公司 | 热门内容搜索方法和系统 |
CN108090157A (zh) * | 2017-12-12 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种热点新闻挖掘方法、装置及服务器 |
CN108153818A (zh) * | 2017-11-29 | 2018-06-12 | 成都东方盛行电子有限责任公司 | 一种基于大数据的聚类方法 |
CN108197292A (zh) * | 2018-01-22 | 2018-06-22 | 成都睿码科技有限责任公司 | 一种新闻传播量的度量方法及系统 |
CN108376175A (zh) * | 2018-03-02 | 2018-08-07 | 成都睿码科技有限责任公司 | 一种展示新闻事件的可视化方法 |
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109344316A (zh) * | 2018-08-14 | 2019-02-15 | 优视科技(中国)有限公司 | 新闻热度计算方法及装置 |
CN110825958A (zh) * | 2019-09-24 | 2020-02-21 | 广州数知科技有限公司 | 一种基于网络热度的热点事件智能排序算法 |
CN110990690A (zh) * | 2019-11-12 | 2020-04-10 | 上海易点时空网络有限公司 | 帖子推荐的方法及装置 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112699314A (zh) * | 2020-12-25 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 热点事件确定方法、装置、电子设备及存储介质 |
CN113010779A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113946736A (zh) * | 2021-10-18 | 2022-01-18 | 北京清博智能科技有限公司 | 一种计算事件热度系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1822000A (zh) * | 2006-02-14 | 2006-08-23 | 北大方正集团有限公司 | 一种自动检测新闻事件的方法 |
CN102831193A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于分布式多级聚类的话题检测装置及方法 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN102831192A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于话题的新闻检索装置及方法 |
-
2012
- 2012-12-20 CN CN2012105602126A patent/CN103077190A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1822000A (zh) * | 2006-02-14 | 2006-08-23 | 北大方正集团有限公司 | 一种自动检测新闻事件的方法 |
CN102831193A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于分布式多级聚类的话题检测装置及方法 |
CN102831192A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于话题的新闻检索装置及方法 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281577A (zh) * | 2013-07-02 | 2015-01-14 | 威盛电子股份有限公司 | 数据文件的排序方法 |
CN103886105B (zh) * | 2014-04-11 | 2017-05-17 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
CN103957275A (zh) * | 2014-05-19 | 2014-07-30 | 北京奇虎科技有限公司 | 用户评论信息的推送方法、客户端、服务器及系统 |
CN104035994A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 一种基于网络数据的电视剧点播量预测方法 |
CN104035994B (zh) * | 2014-06-11 | 2017-04-12 | 华东师范大学 | 一种基于网络数据的电视剧点播量预测方法 |
CN104598539A (zh) * | 2014-12-30 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种互联网事件热度计算方法及终端 |
CN104598539B (zh) * | 2014-12-30 | 2018-06-15 | 中国联合网络通信有限公司广东省分公司 | 一种互联网事件热度计算方法及终端 |
CN105677906A (zh) * | 2015-05-07 | 2016-06-15 | 浚鸿数据开发股份有限公司 | 网络事件自动搜集分析系统及方法 |
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
CN106156364A (zh) * | 2016-08-02 | 2016-11-23 | 西南石油大学 | 一种基于时间流的计算新闻事件动态影响力的方法与系统 |
CN106447239A (zh) * | 2016-11-21 | 2017-02-22 | 北京字节跳动科技有限公司 | 一种数据发布的审核方法及装置 |
CN107239497A (zh) * | 2017-05-02 | 2017-10-10 | 广东万丈金数信息技术股份有限公司 | 热门内容搜索方法和系统 |
CN108153818B (zh) * | 2017-11-29 | 2021-08-10 | 成都东方盛行电子有限责任公司 | 一种基于大数据的聚类方法 |
CN108153818A (zh) * | 2017-11-29 | 2018-06-12 | 成都东方盛行电子有限责任公司 | 一种基于大数据的聚类方法 |
CN108090157A (zh) * | 2017-12-12 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种热点新闻挖掘方法、装置及服务器 |
CN108197292A (zh) * | 2018-01-22 | 2018-06-22 | 成都睿码科技有限责任公司 | 一种新闻传播量的度量方法及系统 |
CN108376175A (zh) * | 2018-03-02 | 2018-08-07 | 成都睿码科技有限责任公司 | 一种展示新闻事件的可视化方法 |
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109344316A (zh) * | 2018-08-14 | 2019-02-15 | 优视科技(中国)有限公司 | 新闻热度计算方法及装置 |
CN110825958A (zh) * | 2019-09-24 | 2020-02-21 | 广州数知科技有限公司 | 一种基于网络热度的热点事件智能排序算法 |
CN110990690A (zh) * | 2019-11-12 | 2020-04-10 | 上海易点时空网络有限公司 | 帖子推荐的方法及装置 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN110990574B (zh) * | 2019-12-17 | 2023-05-09 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112307336B (zh) * | 2020-10-30 | 2024-04-16 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112699314A (zh) * | 2020-12-25 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 热点事件确定方法、装置、电子设备及存储介质 |
CN113010779A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113010779B (zh) * | 2021-03-10 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113946736A (zh) * | 2021-10-18 | 2022-01-18 | 北京清博智能科技有限公司 | 一种计算事件热度系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103077190A (zh) | 基于排序学习技术的热门事件排名方法 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
CN103886054B (zh) | 一种网络教学资源的个性化推荐系统和推荐方法 | |
CN102831234B (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
CN103699626B (zh) | 一种微博用户个性化情感倾向分析方法及系统 | |
CN105740366A (zh) | 微博用户兴趣推理方法及装置 | |
CN106802915A (zh) | 一种基于用户行为的学术资源推荐方法 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN103793503A (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
CN104199874A (zh) | 一种基于用户浏览行为的网页推荐方法 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN103678564A (zh) | 一种基于数据挖掘的互联网产品调研系统 | |
CN105574047A (zh) | 一种基于网站主页特征分析的中文网站分类方法和系统 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN102768679B (zh) | 一种搜索方法及搜索系统 | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
CN103838732A (zh) | 一种生活服务领域垂直搜索引擎 | |
CN106484829A (zh) | 一种微博排序模型的建立及微博多样性检索方法 | |
CN102693304A (zh) | 一种搜索引擎的反馈信息处理方法及搜索引擎 | |
CN104572877A (zh) | 游戏舆情的检测方法及系统 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN102737090B (zh) | 网页搜索结果排序方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130501 |