CN103164427B - 新闻聚合方法及装置 - Google Patents

新闻聚合方法及装置 Download PDF

Info

Publication number
CN103164427B
CN103164427B CN201110414469.6A CN201110414469A CN103164427B CN 103164427 B CN103164427 B CN 103164427B CN 201110414469 A CN201110414469 A CN 201110414469A CN 103164427 B CN103164427 B CN 103164427B
Authority
CN
China
Prior art keywords
news
newsgroup
time point
hot
media event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110414469.6A
Other languages
English (en)
Other versions
CN103164427A (zh
Inventor
胡珉
罗治国
孙少陵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201110414469.6A priority Critical patent/CN103164427B/zh
Publication of CN103164427A publication Critical patent/CN103164427A/zh
Application granted granted Critical
Publication of CN103164427B publication Critical patent/CN103164427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种新闻聚合方法及装置,该方法包括步骤:确定出热点新闻;当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;对选择出的各新闻进行文本聚合处理,得到各新闻组;若当前规定时间点为第一个规定时间点,则将得到的各新闻组确认为该热点新闻的新闻事件,否则将得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻的新闻事件。本发明技术方案解决了现有技术进行新闻聚合时无法将相关新闻聚合在一起进行展现,因此新闻传播性以及用户黏度不高的问题。

Description

新闻聚合方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种新闻聚合方法及装置。
背景技术
随着信息化技术的迅速发展,每时每刻都会产生大量的新闻,新闻是指最新发生的、人们未知、欲知、应知的事实的报道,如何将新闻快速而有效的传播出去,成为当今社会一个非常重要的问题。除了传统的报纸、电视等可以用来作为新闻传播的媒介之外,网络也是新闻传播的一个重要媒介。
现有技术利用网络来传播新闻时,首先将各个新闻网站的新闻采集下来并进行分析,按照类别进行分类聚合,然后再呈现给用户,新闻的类别可以包括:焦点报道、国际/港台、内地、财经、娱乐、科技、互联网、体育、社会、汽车、房产、教育等。
目前进行新闻聚合的新闻聚合系统包括新闻采集分析服务器、新闻库、分类服务器以及分类特征库,其架构如图1所示,基于上述新闻聚合系统,现有技术的新闻聚合方法如图2所示,其具体处理流程如下:
步骤21,新闻采集分析服务器获得新闻种子统一资源定位符(URL,UniformResourceLocator);
步骤22,新闻采集分析服务器根据获得的新闻种子URL,定时从新闻网站中采集各新闻;
步骤23,新闻采集分析服务器对采集出来的每一个新闻分别进行分析,分析出新闻的标题、发布时间、正文,并将分析结果发送到新闻库中;
步骤24,分类服务器通过对分类特征库进行学习,形成分类模型;
步骤25,分类服务器利用支持向量机(SVM,SupportVectorMachine)算法以及形成的分类模型,根据新闻的标题、发布时间、正文,对新闻库中的各新闻进行分类处理,并整合成用户可以查看的新闻界面。
由上可见,现有技术进行新闻聚合时,仅仅是对采集到的新闻进行分类后按照类别进行展现,这样就会导致无法将相关新闻聚合在一起进行展现,展现形式比较离散,用户无法了解新闻发生的前因后果,不能了解新闻事件的全貌,因此新闻传播性以及用户黏度不高。
发明内容
本发明实施例提供一种新闻聚合方法及装置,用以解决现有技术进行新闻聚合时无法将相关新闻聚合在一起进行展现,因此新闻传播性以及用户黏度不高的问题。
本发明实施例技术方案如下:
一种新闻聚合方法,该方法包括:在新闻库存储的新闻中确定出热点新闻;当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组;若当前规定时间点为第一个规定时间点,则将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
一种新闻聚合装置,包括:热点新闻确定单元,用于在新闻库存储的新闻中确定出热点新闻;相关新闻选择单元,用于当到达规定时间点时,根据热点新闻确定单元确定出的热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;文本聚合处理单元,用于根据相关新闻选择单元选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组;第一新闻事件确定单元,用于在当前规定时间点为第一个规定时间点时,将文本聚合处理单元在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件;合并处理单元,用于在当前规定时间点不为第一个规定时间点时,将文本聚合处理单元在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理;第二新闻事件确定单元,用于将合并处理单元合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
由上述处理过程可知,本发明实施例技术方案中,在进行新闻聚合时,先要在新闻库存储的新闻中确定出热点新闻,当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻,然后根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组,针对得到的各新闻组,若当前规定时间点为第一个规定时间点,则将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则还要将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。由上可见,本发明实施例提出的新闻聚合方法是定时将热点新闻的很多相关新闻形成各新闻组,并将各新闻组确定为当前的新闻事件,新闻事件提供给用户的不仅仅是一条新闻,而是很多相关的新闻,定时的将相关新闻形成新闻组有助于用户了解新闻发生的前因后果,了解新闻事件的全貌,从而提高了新闻传播的有效性以及用户黏度。
附图说明
图1为现有技术中,新闻聚合系统架构示意图;
图2为现有技术中,新闻聚合方法流程示意图;
图3为本发明实施例一中,新闻聚合方法流程示意图;
图4为本发明实施例二中,当到达第一个规定时间点时,将各新闻组按照发布时间点由先到后的顺序进行排序后的结果示意图;
图5为本发明实施例二中,当到达第二个规定时间点时,将各新闻组按照发布时间点由先到后的顺序进行排序后的结果示意图;
图6为本发明实施例三中,新闻聚合系统架构示意图;
图7为本发明实施例三中,新闻聚合方法具体实现流程示意图;
图8为本发明实施例四中,新闻聚合装置结构示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
实施例一
如图3所示,为本发明实施例一提出的新闻聚合方法流程示意图,其具体处理流程如下:
步骤31,在新闻库存储的新闻中确定出热点新闻。
其中,新闻库存储的新闻可以是通过下述方式得到的:新闻采集分析服务器定时从新闻网站中采集出各新闻,将采集到的新闻发送到新闻库中。
本发明实施例一中,进行新闻聚合的设备可以但不限于为新闻事件整合服务器。
新闻事件整合服务器可以但不限于采用下述方式在新闻库存储的新闻中确定出热点新闻:
新闻事件整合服务器先在搜索日志中获得各搜索关键词的搜索次数,然后获得搜索次数大于规定阈值的搜索关键词,并针对获得的每个搜索关键词,分别在新闻库存储的新闻中,搜索与该搜索关键词对应的各新闻,然后在搜索到的各新闻中确定出满足预设条件的新闻,并将选择出的新闻确认为热点新闻。
上述预设条件可以但不限于为新闻的转载次数最多或新闻的点击浏览次数最多。新闻库中不但存储有新闻采集分析服务器采集到的各新闻,还对应存储有各新闻的转载次数以及点击浏览次数。其中,新闻的转载次数是指新闻在各网站中被转载的次数,新闻的点击浏览次数可以为新闻在各网站中点击浏览次数的最大值,也可以为在所有网站中的点击浏览次数的和。
步骤32,当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻。
上述热点新闻的新闻关键词可以是预先确定的,例如,新闻采集分析服务器采集新闻的同时,对采集出来的每一个新闻分别进行分析,分析出新闻的标题和正文,并根据分析出的标题和正文,确定该新闻的新闻关键词,后续在确定出热点新闻之后,可以直接获得该热点新闻的新闻关键词;此外,也可以在确定出热点新闻之后,再确定该热点新闻的新闻关键词,其中确定新闻关键词的方法和预先确定新闻关键词时的确定方法一致,这里不再赘述。
在选择与热点新闻相关的各新闻时,可以在发布时间位于当前规定时间点对应的时间段内的各新闻中,根据该热点新闻的新闻关键词进行搜索,搜索到的各新闻即为与该热点新闻相关的各新闻。
其中,各规定时间点与对应的时间段可以是预先设定的,各规定时间点对应的时间段的时间长度可以一致,该时间长度可以但不限于为任意两个相邻规定时间点之间的时间长度。例如,预先设定各规定时间点与对应的时间段如表一所示。
表一:
规定时间点 07:00 08:00 09:00
对应的时间段 [06:00,07:00] (07:00,08:00] (08:00,09:00]
由表一可知,若当前规定时间点为07:00,则发布时间位于当前规定时间点对应的时间段内的新闻,即是发布时间位于[06:00,07:00]这一时间段内的新闻;若当前规定时间点为08:00,则发布时间位于当前规定时间点对应的时间段内的新闻,即是发布时间位于(07:00,08:00]这一时间段内的新闻;若当前规定时间点为09:00,则发布时间位于当前规定时间点对应的时间段内的新闻,即是发布时间位于(08:00,09:00]这一时间段内的新闻。
步骤33,根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组。
其中,文本聚合处理的方法可以为:根据选择出的各新闻的新闻关键词,将具有相同的新闻关键词的各新闻划入一个新闻组中,从而得到各新闻组,例如,选择出的各新闻与各新闻的新闻关键词的对应关系如表二所示。
表二:
新闻 新闻一 新闻二 新闻三 新闻四 新闻五 新闻六
新闻关键词 A+B A+C A+C A+B A+C A+D
由表二可知,新闻一和新闻四具有相同的新闻关键词A+B,新闻二、新闻三和新闻五具有相同的新闻关键词A+C,新闻六具有新闻关键词A+D,因此划分出的各新闻组、各新闻以及各新闻的新闻关键词之间的对应关系可以如表三所示。
表三:
由表三可知,新闻一和新闻四具有相同的新闻关键词A+B,所以划入新闻组一中;新闻二、新闻三和新闻五具有相同的新闻关键词A+C,所以划入新闻组二中;新闻六具有新闻关键词A+D,所以划入新闻组三中。
由于将新闻展现给用户之后,用户可能会对新闻发表相应评论,例如在微博或博客中针对某新闻发表评论,或者在论坛中针对某新闻发表评论,为了让用户获知其他用户针对新闻发表的评论,从而对新闻进行更加深入的了解,本发明实施例一提出,在对选择出的各新闻进行文本聚合处理,得到各新闻组之后,还可以但不限于包括下述处理过程:针对得到的每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息,并将获得的评论信息添加进该新闻组中。
上述评论信息可以但不限于包括用户在微博或博客中发表的评论信息、以及用户在论坛中发表的评论信息。
为了后续对各新闻组进行排序展现,本发明实施例一中,在获得针对每个新闻组中的各新闻的评论信息后,还可以构建新闻组中每个新闻的新闻N元组,N为正整数,对N的取值本发明不做具体限定,例如,N可以取5,那么新闻的新闻五元组可以为{发布时间、人物、发生地点、内容、评论信息}。
步骤34,若当前规定时间点为第一个规定时间点,则将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
若当前规定时间点为第一个规定时间点,则由于不存在上一个规定时间点,因此可以直接将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
其中,所述合并处理的方法可以为:针对在当前规定时间点得到的各新闻组,分别将该新闻组的新闻关键词和该热点新闻在上一规定时间点的新闻事件中的各新闻组的新闻关键词逐个进行比较,若存在与该新闻组的比较结果相同的新闻组,则将该新闻组与比较结果相同的新闻组合并为一个新闻组。也就是说,在当前规定时间点得到的各新闻组以及该热点新闻在上一规定时间点的新闻事件中的各新闻组中,将新闻关键词相同的新闻组合并为一个新闻组。
得到该热点新闻在当前规定时间点的新闻事件之后,可以将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序,并将排序后的各新闻组展现给用户。
为了使用户能够清楚的了解新闻事件发生的前因后果,本发明实施例一提出,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序时,可以按照新闻组对应的发布时间由先到后的顺序,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序。
针对每个新闻预先构建的新闻五元组为{发布时间、人物、发生地点、内容、评论信息},针对每个新闻组,可直接从该新闻组中各新闻的新闻五元组中提取出发布时间,若新闻组中各新闻的发布时间均相同,则将该发布时间确认为该新闻组对应的发布时间;若新闻组中各新闻的发布时间不同,则可以将距离当前时间点最近的发布时间作为该新闻组对应的发布时间,例如,该新闻组中各新闻的发布时间如表四所示。
表四:
新闻 发布时间
新闻一 2011年1月1日9点30分
新闻二 2010年1月20日9点30分
新闻三 2011年6月5日10点
新闻四 2011年10月1日11点30分
新闻五 2011年12月1日19点30分
由表四可知,该新闻组的各新闻中,发布时间距离当前时间点最近的新闻为新闻五,其发布时间为2011年12月1日19点30分,所以将新闻五的发布时间作为该新闻组对应的发布时间。
此外,为了使用户能够清楚的了解新闻事件中各新闻组中各新闻的发生地点,本发明实施例一提出,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序时,可以按照新闻组对应的发生地点的优先级顺序,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序。
其中,各新闻组对应的发生地点可以通过先前为每个新闻构建的新闻N元组中包含的发生地点来确定,例如,针对每个新闻预先构建的新闻五元组为{发布时间、人物、发生地点、内容、评论信息},针对每个新闻组,可直接从该新闻组中各新闻的新闻五元组中提取出发生地点,若该新闻组中各新闻的发生地点均相同,则将该发生地点确认为该新闻组对应的发生地点;若新闻组中各新闻的发生地点不同,则将在该新闻组的各新闻中出现次数最多的发生地点作为该新闻组对应的发生地点,例如,该新闻组中各新闻的发生地点如表五所示。
表五:
新闻 发生地点
新闻一 北京
新闻二 上海
新闻三 天津
新闻四 北京
新闻五 北京
由表五可知,在该新闻组的各新闻中出现次数最多的发生地点为北京,所以将北京作为该新闻组对应的发生地点。
本发明实施例一中,预先针对各发生地点设置优先级顺序,例如发生地点为北京、安徽、天津、上海、河北,预先设置的优先级顺序为北京、上海、天津、河北、安徽。
由上述处理过程可知,本发明实施例技术方案中,在进行新闻聚合时,先要在新闻库存储的新闻中确定出热点新闻,当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻,然后根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组,针对得到的各新闻组,若当前规定时间点为第一个规定时间点,则将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则还要将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。由上可见,本发明实施例提出的新闻聚合方法是定时将热点新闻的很多相关新闻形成各新闻组,并将各新闻组确定为当前的新闻事件,新闻事件提供给用户的不仅仅是一条新闻,而是很多相关的新闻,定时的将相关新闻形成新闻组有助于用户了解新闻发生的前因后果,了解新闻事件的全貌,从而提高了新闻传播的有效性以及用户黏度。
下面给出更为详细的实施方式。
实施例二
新闻事件整合服务器从新闻库存储的各新闻中,确定出热点新闻为有关乔布斯逝世的一条新闻,当到达第一个规定时间点(2011年10月6日12点)时,根据该热点新闻的新闻关键词(乔布斯、逝世),在发布时间位于2011年10月6日0点~2011年10月6日12点这一时间段内的各新闻中,确定与该热点新闻相关的各新闻。其中,选择出与该热点新闻相关的各新闻的方法可以采用利用该热点新闻的新闻关键词,在发布时间位于2011年10月6日0点~2011年10月6日12点这一时间段内的新闻中进行搜索的方法。
新闻事件整合服务器根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组。上述文本聚合处理可以为将具有相同新闻关键词的各新闻划入一个新闻组,例如,此时划分出的各新闻组、各新闻以及各新闻的新闻关键词之间的对应关系如表六所示。
表六:
新闻事件整合服务器针对划分出的每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息,并将获得的评论信息添加进该新闻组中,然后将得到的各新闻组确认为该热点新闻在当前规定时间点(2011年10月6日12点)的新闻事件,并将各新闻组按照发布时间点由先到后的顺序进行排序后展现给用户,如图4所示。
当到达第二个规定时间点(2011年10月7日0点)时,根据该热点新闻的新闻关键词(乔布斯、逝世),在发布时间位于2011年10月6日12点~2011年10月7日0点这一时间段内的各新闻中,确定与该热点新闻相关的各新闻。其中,选择出与该热点新闻相关的各新闻的方法可以采用利用该热点新闻的新闻关键词,在发布时间位于2011年10月6日12点~2011年10月7日0点这一时间段内的新闻中进行搜索的方法。
新闻事件整合服务器根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组。上述文本聚合处理可以为将具有相同新闻关键词的各新闻划入一个新闻组,例如,此时划分出的各新闻组、各新闻以及各新闻的新闻关键词之间的对应关系如表七所示。
表七:
新闻事件整合服务器针对划分出的每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息,并将获得的评论信息添加进该新闻组中,然后将此时得到的各新闻组和该热点新闻在上一规定时间点(2011年10月6日12点)的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,此时该新闻事件中的各新闻组、各新闻以及各新闻的新闻关键词之间的对应关系如表八所示。
表八
新闻事件整合服务器将该新闻事件中的各新闻组按照发布时间点由先到后的顺序进行排序后展现给用户,如图5所示。
后续在达到每个规定时间点时,新闻事件整合服务器均按照上述处理流程进行新闻聚合以及新闻组排序处理,具体过程这里不再赘述。
实施例三
如图6所示,为本发明实施例三提出的新闻聚合系统架构示意图,包括新闻采集分析服务器、新闻库、多数据源采集分析服务器、多数据源库以及新闻事件整合服务器。基于图6所示的新闻聚合系统,本发明实施例三中的新闻聚合方法具体实现流程如图7所示,其具体处理流程如下:
步骤71,新闻采集分析服务器获得新闻种子URL。
步骤72,新闻采集分析服务器根据获得的新闻种子URL,定时从新闻网站中采集各新闻。
步骤73,新闻采集分析服务器将采集到的新闻保存到新闻库中,并对采集出来的每一个新闻分别进行分析,分析出新闻的标题、发布时间和正文。
其中,新闻的标题、发布时间和正文可以通过解析网页的超文本标记语言(HTML,HypertextMarkupLanguage)标签、可视化模块抽取等技术实现。
新闻采集分析服务器可以根据分析出的标题和正文,确定新闻的新闻关键词。
步骤74,多数据源采集分析服务器获得多数据源种子URL。
其中,多数据源可以但不限于包括用户在论坛中发表的评论信息、用户在微博或博客中发表的评论信息等。
步骤75,多数据源采集分析服务器根据获得的多数据源种子URL,定时从多数据源网站中采集各多数据源。
步骤76,多数据源采集分析服务器将采集出来的多数据源保存到多数据源库中。
步骤77,新闻事件整合服务器在新闻库存储的新闻中确定出热点新闻。
为了便于将各新闻在该新闻所属类别下进行展示,在确定热点新闻之前,还可以包括一个对新闻库存储的新闻进行分类处理的过程:先通过对分类特征库进行学习,形成分类模型,然后利用预先设定的算法(例如SVM算法)以及形成的分类模型,根据新闻的标题、发布时间、正文,对新闻库中的各新闻进行分类处理。
相应的,在确定热点新闻时,可以在每个类别下,分别确定热点新闻。
步骤78,当到达规定时间点时,新闻事件整合服务器根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻。
其中,若对各新闻进行了分类处理,则当到达规定时间点时,新闻事件整合服务器根据热点新闻的新闻关键词,在该热点新闻所属类别下、发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻。
步骤79,新闻事件整合服务器根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组。
步骤710,针对每个新闻组,新闻事件整合服务器分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息(即多数据源),并将获得的评论信息添加进该新闻组中。
步骤711,若当前规定时间点为第一个规定时间点,则新闻事件整合服务器将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则新闻事件整合服务器将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
步骤712,新闻事件整合服务器将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序,并将排序后的各新闻组展现给用户。
其中,若对各新闻进行了分类处理,则将排序后的各新闻组展现给用户时,可以将排序后的各新闻组在该热点新闻所属类别下进行展现。
实施例四
相应的,本发明实施例四提供了一种新闻聚合装置,其结构如图8所示,包括:
热点新闻确定单元81,用于在新闻库存储的新闻中确定出热点新闻;
相关新闻选择单元82,用于当到达规定时间点时,根据热点新闻确定单元81确定出的热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;
文本聚合处理单元83,用于根据相关新闻选择单元82选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组;
第一新闻事件确定单元84,用于在当前规定时间点为第一个规定时间点时,将文本聚合处理单元83在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件;
合并处理单元85,用于在当前规定时间点不为第一个规定时间点时,将文本聚合处理单元83在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理;
第二新闻事件确定单元86,用于将合并处理单元85合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件。
较佳地,热点新闻确定单元81具体包括:
搜索关键词获得子单元,用于获得搜索次数大于规定阈值的搜索关键词;
热点新闻确认子单元,用于针对搜索关键词获得子单元获得的每个搜索关键词,分别在新闻库存储的新闻中,搜索与该搜索关键词对应的各新闻,在搜索到的各新闻中确定出满足预设条件的新闻,并将选择出的新闻确认为热点新闻。
较佳地,相关新闻选择单元82具体包括:
新闻搜索子单元,用于在发布时间位于当前规定时间点对应的时间段内的新闻中,根据热点新闻确定单元确定出的热点新闻的新闻关键词进行新闻搜索;
相关新闻确认子单元,用于将新闻搜索子单元搜索到的各新闻确认为与该热点新闻相关的各新闻。
较佳地,还包括:
评论信息获得单元,用于在文本聚合处理单元83对选择出的各新闻进行文本聚合处理,得到各新闻组之后,针对每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息;
评论信息添加单元,用于将评论信息获得单元获得的评论信息添加进该新闻组中。
较佳地,还包括:
新闻组排序单元,用于针对第一新闻事件确定单元84确定出的该热点新闻在当前规定时间点的新闻事件以及第二新闻事件确定单元86确定出的该热点新闻在当前规定时间点的新闻事件,分别将该新闻事件中的各新闻组进行排序;
展现单元,用于将新闻组排序单元排序后的各新闻组展现给用户。
更佳地,新闻组排序单元,具体用于按照新闻组对应的发布时间由先到后的顺序,将该新闻事件中的各新闻组进行排序。
更佳地,新闻组排序单元,具体用于按照新闻组对应的发生地点的优先级顺序,将该新闻事件中的各新闻组进行排序。
本发明实施例四还提出一种新闻事件整合服务器,至少包括上述新闻聚合装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种新闻聚合方法,其特征在于,包括:
在新闻库存储的新闻中确定出热点新闻;
当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;
根据选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组;
若当前规定时间点为第一个规定时间点,则将在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件,否则将在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件;
在新闻库存储的新闻中确定出热点新闻,具体包括:
获得搜索次数大于规定阈值的搜索关键词;
针对获得的每个搜索关键词,分别在新闻库存储的新闻中,搜索与该搜索关键词对应的各新闻,在搜索到的各新闻中确定出满足预设条件的新闻,并将选择出的新闻确认为热点新闻。
2.如权利要求1所述的方法,其特征在于,所述预设条件为:
转载次数最多;或
点击浏览次数最多。
3.如权利要求1所述的方法,其特征在于,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻,具体包括:
在发布时间位于当前规定时间点对应的时间段内的新闻中,根据热点新闻的新闻关键词进行新闻搜索;并
将搜索到的各新闻确认为与该热点新闻相关的各新闻。
4.如权利要求1所述的方法,其特征在于,对选择出的各新闻进行文本聚合处理,得到各新闻组之后,还包括:
针对每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息,并将获得的评论信息添加进该新闻组中。
5.如权利要求1所述的方法,其特征在于,还包括:
将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序;并
将排序后的各新闻组展现给用户。
6.如权利要求5所述的方法,其特征在于,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序,具体包括:
按照新闻组对应的发布时间由先到后的顺序,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序;或
按照新闻组对应的发生地点的优先级顺序,将该热点新闻在当前规定时间点的新闻事件中的各新闻组进行排序。
7.一种新闻聚合装置,其特征在于,包括:
热点新闻确定单元,用于在新闻库存储的新闻中确定出热点新闻;
相关新闻选择单元,用于当到达规定时间点时,根据热点新闻确定单元确定出的热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;
文本聚合处理单元,用于根据相关新闻选择单元选择出的各新闻的新闻关键词,对选择出的各新闻进行文本聚合处理,得到各新闻组;
第一新闻事件确定单元,用于在当前规定时间点为第一个规定时间点时,将文本聚合处理单元在当前规定时间点得到的各新闻组确认为该热点新闻在当前规定时间点的新闻事件;
合并处理单元,用于在当前规定时间点不为第一个规定时间点时,将文本聚合处理单元在当前规定时间点得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理;
第二新闻事件确定单元,用于将合并处理单元合并处理后的各新闻组确认为该热点新闻在当前规定时间点的新闻事件;
热点新闻确定单元具体包括:
搜索关键词获得子单元,用于获得搜索次数大于规定阈值的搜索关键词;
热点新闻确认子单元,用于针对搜索关键词获得子单元获得的每个搜索关键词,分别在新闻库存储的新闻中,搜索与该搜索关键词对应的各新闻,在搜索到的各新闻中确定出满足预设条件的新闻,并将选择出的新闻确认为热点新闻。
8.如权利要求7所述的装置,其特征在于,相关新闻选择单元具体包括:
新闻搜索子单元,用于在发布时间位于当前规定时间点对应的时间段内的新闻中,根据热点新闻确定单元确定出的热点新闻的新闻关键词进行新闻搜索;
相关新闻确认子单元,用于将新闻搜索子单元搜索到的各新闻确认为与该热点新闻相关的各新闻。
9.如权利要求7所述的装置,其特征在于,还包括:
评论信息获得单元,用于在文本聚合处理单元对选择出的各新闻进行文本聚合处理,得到各新闻组之后,针对每个新闻组,分别根据该新闻组对应的新闻关键词,获得针对该新闻组中的各新闻的评论信息;
评论信息添加单元,用于将评论信息获得单元获得的评论信息添加进该新闻组中。
10.如权利要求7所述的装置,其特征在于,还包括:
新闻组排序单元,用于针对第一新闻事件确定单元确定出的该热点新闻在当前规定时间点的新闻事件以及第二新闻事件确定单元确定出的该热点新闻在当前规定时间点的新闻事件,分别将该新闻事件中的各新闻组进行排序;
展现单元,用于将新闻组排序单元排序后的各新闻组展现给用户。
11.如权利要求10所述的装置,其特征在于,新闻组排序单元,具体用于按照新闻组对应的发布时间由先到后的顺序,将该新闻事件中的各新闻组进行排序。
12.如权利要求10所述的装置,其特征在于,新闻组排序单元,具体用于按照新闻组对应的发生地点的优先级顺序,将该新闻事件中的各新闻组进行排序。
CN201110414469.6A 2011-12-13 2011-12-13 新闻聚合方法及装置 Active CN103164427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110414469.6A CN103164427B (zh) 2011-12-13 2011-12-13 新闻聚合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110414469.6A CN103164427B (zh) 2011-12-13 2011-12-13 新闻聚合方法及装置

Publications (2)

Publication Number Publication Date
CN103164427A CN103164427A (zh) 2013-06-19
CN103164427B true CN103164427B (zh) 2016-03-02

Family

ID=48587522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110414469.6A Active CN103164427B (zh) 2011-12-13 2011-12-13 新闻聚合方法及装置

Country Status (1)

Country Link
CN (1) CN103164427B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298674B (zh) * 2013-07-17 2019-05-14 腾讯科技(北京)有限公司 显示文章的方法和装置
CN103500163B (zh) * 2013-07-24 2016-12-28 百度在线网络技术(北京)有限公司 识别事件关键进展的方法和设备
WO2015196902A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 提供专题新闻搜索的方法、服务器、客户端和系统
CN104268297A (zh) * 2014-10-28 2015-01-07 江苏惠居乐信息科技有限公司 一种基于新闻的大数据分析系统
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN105354186A (zh) * 2015-11-05 2016-02-24 同济大学 一种新闻事件抽取方法及系统
CN105392027B (zh) * 2015-11-09 2019-04-09 天脉聚源(北京)传媒科技有限公司 一种推送即时新闻视频的方法及装置
CN105653598B (zh) * 2015-12-22 2019-07-09 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105574184B (zh) * 2015-12-22 2019-09-24 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN105843863A (zh) * 2016-03-16 2016-08-10 广州索答信息科技有限公司 互联网新闻的去重方法和装置
CN106021351B (zh) * 2016-05-10 2019-04-12 深圳职业技术学院 针对新闻事件的聚合提取方法及装置
CN106202222B (zh) * 2016-06-28 2022-08-12 北京小米移动软件有限公司 热点事件的确定方法及装置
CN106156364A (zh) * 2016-08-02 2016-11-23 西南石油大学 一种基于时间流的计算新闻事件动态影响力的方法与系统
CN106202563A (zh) * 2016-08-02 2016-12-07 西南石油大学 一种实时关联事件新闻推荐方法及系统
CN106940723A (zh) * 2017-03-16 2017-07-11 北京搜狐新媒体信息技术有限公司 一种新闻搜索方法及装置
CN107748802A (zh) * 2017-11-17 2018-03-02 北京百度网讯科技有限公司 文章聚合方法及装置
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN108829699B (zh) * 2018-04-19 2021-05-25 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN109561212B (zh) * 2018-11-30 2021-06-08 苏州达家迎信息技术有限公司 一种发布信息的合并方法、装置、设备和存储介质
CN110825958A (zh) * 2019-09-24 2020-02-21 广州数知科技有限公司 一种基于网络热度的热点事件智能排序算法
CN117390144B (zh) * 2023-12-13 2024-03-08 北京搜狐新媒体信息技术有限公司 一种新闻时效性的确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822000A (zh) * 2006-02-14 2006-08-23 北大方正集团有限公司 一种自动检测新闻事件的方法
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101566995A (zh) * 2008-04-25 2009-10-28 北京搜狗科技发展有限公司 一种互联网信息整合发布的方法和系统
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152245A1 (en) * 2001-04-05 2002-10-17 Mccaskey Jeffrey Web publication of newspaper content
WO2011044662A1 (en) * 2009-10-15 2011-04-21 2167959 Ontario Inc. System and method for grouping multiple streams of data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822000A (zh) * 2006-02-14 2006-08-23 北大方正集团有限公司 一种自动检测新闻事件的方法
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101566995A (zh) * 2008-04-25 2009-10-28 北京搜狗科技发展有限公司 一种互联网信息整合发布的方法和系统
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于RSS的Web新闻主题聚合系统的设计与实现;钱爱兵;《现代图书情报技术》;20070430(第4期);全文 *
基于发布时间的新闻网页去重方法研究;罗永莲等;《计算机工程与应用》;20070221(第6期);全文 *

Also Published As

Publication number Publication date
CN103164427A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103164427B (zh) 新闻聚合方法及装置
CN102567494B (zh) 网站分类方法及装置
CN104111941B (zh) 信息展示的方法及设备
CN107800591B (zh) 一种统一日志数据的分析方法
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN104699704B (zh) 内容推送及接收方法、装置和系统
CN103729360A (zh) 一种兴趣标签推荐方法及系统
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN103473263A (zh) 一种面向新闻事件演变过程的可视化展现方法
CN106919625A (zh) 一种互联网用户属性识别方法和装置
CN102710795A (zh) 热点聚合方法及装置
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN103577478A (zh) 网页推送方法及系统
JP2006309515A (ja) 情報配信方法および情報配信サーバ
CN105550253B (zh) 一种类型关系的获取方法及装置
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN108959580A (zh) 一种标签数据的优化方法及系统
CN101071445A (zh) 分类样本集的优化方法和内容相关广告服务器
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant