CN106021425A - 热点新闻的挖掘方法及装置 - Google Patents

热点新闻的挖掘方法及装置 Download PDF

Info

Publication number
CN106021425A
CN106021425A CN201610320176.4A CN201610320176A CN106021425A CN 106021425 A CN106021425 A CN 106021425A CN 201610320176 A CN201610320176 A CN 201610320176A CN 106021425 A CN106021425 A CN 106021425A
Authority
CN
China
Prior art keywords
news
hot
classification
temperature
excavate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610320176.4A
Other languages
English (en)
Inventor
彭力扬
韩明辉
王肖磊
陈劲
魏自立
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610320176.4A priority Critical patent/CN106021425A/zh
Publication of CN106021425A publication Critical patent/CN106021425A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种热点新闻的挖掘方法及装置。其中,方法包括:收集新闻站点的用户访问行为日志,获取新闻数据;按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;将所有分类的热点新闻数据推送给用户终端。本发明提供的热点新闻的挖掘方法及装置,相对于现有技术,提升了热点新闻的时效性,实现了高效率和均衡化的热点新闻推送。

Description

热点新闻的挖掘方法及装置
技术领域
本发明涉及互联网技术领域,具体涉及一种热点新闻的挖掘方法及装置。
背景技术
随着信息化技术的迅速发展,每时每刻都会产生大量的新闻,新闻是指最新发生的、人们未知、欲知、应知的事实的报道,如何将新闻快速而有效的传播出去,成为当今社会一个非常重要的问题。除了传统的报纸、电视等可以用来作为新闻传播的媒介之外,网络也是新闻传播的一个重要媒介。
热点新闻的挖掘与提供极大地方便了用户对新闻信息的获取。然而,现有技术中,通常采用人工整理的方式来确定热点新闻,这种方式显然需要较大人力成本,且时效性较差,不能及时为用户提供热点新闻,相应地,也降低了用户获取热点新闻的效率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的热点新闻的挖掘方法及装置。
根据本发明的一个方面,提供了一种热点新闻的挖掘方法,包括:
收集新闻站点的用户访问行为日志,获取新闻数据;
按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;
将所有分类的热点新闻数据推送给用户终端。
根据本发明的另一方面,提供了一种热点新闻的挖掘装置,包括:
收集模块,适于收集新闻站点的用户访问行为日志,获取新闻数据;
挖掘模块,适于按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;
推送模块,适于将所有分类的热点新闻数据推送给用户终端。
根据本发明提供的热点新闻的挖掘方法及装置,预先收集新闻站点的用户访问行为日志,得到新闻数据,按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据进行推送,相对于现有技术,提升了热点新闻的时效性,实现了高效率和均衡化的热点新闻推送。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的热点新闻的挖掘方法的流程图;
图2示出了根据本发明另一个实施例的热点新闻的挖掘方法的流程图;
图3示出了根据本发明一个实施例的热点新闻的挖掘装置的功能框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的热点新闻的挖掘方法的流程图。如图1所示,该方法包括如下步骤:
步骤S101,收集新闻站点的用户访问行为日志,获取新闻数据。
新闻站点是专门提供新闻信息的网站,可以包括国家大型新闻门户(如新华网、人民网等)、商业门户(新浪新闻、网易新闻等)、地方新闻门户(长江网、大洋网等)、以及行业门户网站;还可以包括一些社交平台(新浪微博等)。这些新闻站点的用户访问量很大,通过收集这些新闻站点的用户访问行为日志,可以获取用户感兴趣的、热度极高的新闻数据。
本发明实施例中,可预先维护新闻站点列表,其中记录了几千个访问量较高的新闻站点,将这些新闻站点的用户访问行为收拢起来,每隔预设时间形成一个日志。由于新闻对时效性要求较高,新闻数据的收集需要是及时的,可要求每分钟收集得到一个日志,获取其中的新闻数据作为后续热点新闻的数据来源。根据本步骤获取的新闻数据,能实现后续多种时间粒度的热点新闻推送。
步骤S102,按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据。
本发明实施例按照时间粒度调度挖掘程序,时间粒度规定了调度挖掘程序的时间间隔段。通过设置多种时间粒度,实现向用户推送多种时间范围内的热点新闻。例如,预先设置多种时间粒度,分别为1天、1小时和15分钟,这表示每15分钟、每1小时和每天都需要调度一次挖掘程序。其中每15分钟调度的挖掘程序用来挖掘15分钟内的热点新闻,每1小时调度的挖掘程序用来挖掘1小时内的热点新闻,每天调度的挖掘程序用来挖掘1天内的热点新闻。通过较小的时间粒度,可提升热点新闻的实时性;通过较大的时间粒度,可扩大热点新闻的覆盖范围。
通过调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据。对于新闻来说,类别很重要,不同类别的新闻的热度或关注度具有显著差别。通常情况下,娱乐类和体育类的新闻热度偏高,科技类和教育类的新闻热度偏低,如果不进行分类和参数化设置,热度高的新闻会将热度低的新闻淹没掉。本步骤通过多分类和参数化设置可避免热度低的新闻被淹没,实现均衡化的推送。
步骤S103,将所有分类的热点新闻数据推送给用户终端。
根据本发明提供的热点新闻的挖掘方法,预先收集新闻站点的用户访问行为日志,得到新闻数据,按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据进行推送,相对于现有技术,提升了热点新闻的时效性,实现了高效率和均衡化的热点新闻推送。
图2示出了根据本发明另一个实施例的热点新闻的挖掘方法的流程图。如图2所示,该方法包括如下步骤:
步骤S201,定时收集用户访问预先维护的新闻站点列表中各个新闻站点的日志,得到用户访问行为日志。
本发明中预先维护有新闻站点列表,其中记录了几千个访问量较高的新闻站点,包括但不限于:国家大型新闻门户、商业门户、地方新闻门户、行业门户网站以及社交平台。定时收集新闻站点列表中各个新闻站点的访问日志,得到用户访问行为日志。其中用户访问行为日志记录了用户访问的页面、页面URL、访问时间等信息,根据用户访问行为日志可了解用户感兴趣的、热度高的新闻数据。
步骤S202,从用户访问行为日志中挖掘与新闻相关的数据。
从用户访问行为日志中挖掘出与新闻相关的数据,例如新闻页面、页面标题、新闻页面URL以及访问时间等等数据。
步骤S203,判断任一定时器的定时时间是否超过定时器对应的时间粒度规定的时间间隔段,若是,则执行步骤S204;若否,则等待后继续判断。
本实施例按照时间粒度调度挖掘程序,时间粒度规定了调度挖掘程序的时间间隔段。而且,本实施例设置有多种时间粒度,实现向用户推送多种时间范围内的热点新闻。具体来说,每种时间粒度对应有一定时器,通过判断定时器的定时时间否超过定时器对应的时间粒度规定的时间间隔段来决定是否调度挖掘程序。
例如,预先设置多种时间粒度,分别为1天、1小时和15分钟,即分别对应设置三个定时器,定时时间分别为1天、1小时和15分钟。如果任一个定时器的定时时间到达,则认为该调度一次挖掘程序。其中每15分钟调度的挖掘程序用来挖掘15分钟内的热点新闻,每1小时调度的挖掘程序用来挖掘1小时内的热点新闻,每天调度的挖掘程序用来挖掘1天内的热点新闻。通过较小的时间粒度,可提升热点新闻的实时性;通过较大的时间粒度,可扩大热点新闻的覆盖范围。
步骤S204,调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据。
对于新闻来说,类别很重要,不同类别的新闻的热度或关注度具有显著差别。通常情况下,娱乐类和体育类的新闻热度偏高,科技类和教育类的新闻热度偏低,如果不进行分类和参数化设置,热度高的新闻会将热度低的新闻淹没掉。具体的,新闻分类可根据页面标题进行分类,如果根据页面标题不能判断出新闻类别,可进一步爬取新闻页面的具体内容,根据内容进行判断。
在对新闻数据进行分类后,还需按照不同分类设置参数,其中不同分类设置的参数包括以下参数的一项或多项:不同分类输出的热点新闻的预设个数;不同分类的最小热度值;不同分类的热度增长倍数阈值;以及,不同分类的热度连续增长时段个数阈值。以上参数均为预设参数,设置参数的目的是按照参数化配置对每个分类的新闻数据进行区别化的挖掘,其中区别化体现在以下几个方面:
(1)按照不同分类输出的热点新闻的预设个数,挖掘对应分类下预设个数的热点新闻。
对于娱乐类和体育类新闻,预设个数较高,如设置为100个;对于科技类和教育类新闻,预设个数较低,如设置为30个。其中,个数的设置还与时间粒度有关,15分钟调度的挖掘程序挖掘的个数要低于1小时调度的挖掘程序挖掘的个数,而且都要低于1天调度的挖掘程序挖掘的个数。
(2)计算每个分类下各新闻的热度值,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻;其中,新闻的热度值为该新闻的所有关联URL的热度之和。
在新闻数据分类后,计算每个分类下各新闻的热度值,具体为该新闻的所有关联URL的热度之和。例如,新闻“人机大战”会关联很多URL,每个URL的热度定义为对应时段内的UV(Unique Visitor,独立访客),计算所有关联URL的热度之和即为该新闻的热度值。然后,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻。不同新闻分类对热点新闻的要求是不同的,一些分类会要求热度高些,另一些要求低些,通过此参数化配置,更符合推送热点新闻的需求。
(3)计算每个分类下各新闻的热度增长倍数,挖掘出热度增长倍数大于或等于对应分类的热度增长倍数阈值的新闻作为热点新闻;其中,新闻的热度增长倍数为最近时段的热度值与起始时段的热度值相除的结果。
不同新闻分类,对热度增长倍数的要求也是不同的。计算每个分类下各新闻的热度增长倍数,具体为最近时段的热度值与起始时段的热度值相除的结果。其中,时段为时间粒度规定的时间间隔段。以1小时的时间粒度为例,热度增长倍数为最近1小时的热度值与起始时段的热度值相除的结果,其中起始时段为该新闻被挖掘出作为热点新闻的开始时段计算的热度值。如果该新闻是刚被挖掘出的数据,则默认热度增长倍数为1。
(4)获取每个分类下各新闻的热度连续增长时段个数,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻。
统计各新闻的热度连续增长时段个数,如连续k个时段热度保持增长,则热度连续增长时段个数为k。然后,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻。
步骤S205,将所有分类的热点新闻数据推送给用户终端。
本实施例提供的热点新闻的挖掘方案是基于多时间粒度、多分类和参数化配置的方案,通过设置多种时间粒度保证热点新闻的时效性,还能一定程度扩大热点新闻的覆盖范围。通过多分类以及参数化配置,能避免热度低的新闻被淹没,实现均衡化推送;而且根据参数化配置对每个分类的新闻数据进行区别化挖掘,更能符合热点新闻的要求,进而满足用户需求。
图3示出了根据本发明一个实施例的热点新闻的挖掘装置的功能框图。如图3所示,该装置包括:收集模块301,挖掘模块302,以及推送模块303。
收集模块301,适于收集新闻站点的用户访问行为日志,获取新闻数据;新闻站点是专门提供新闻信息的网站,可以包括国家大型新闻门户(如新华网、人民网等)、商业门户(新浪新闻、网易新闻等)、地方新闻门户(长江网、大洋网等)、以及行业门户网站;还可以包括一些社交平台(新浪微博等)。这些新闻站点的用户访问量很大,通过收集这些新闻站点的用户访问行为日志,可以获取用户感兴趣的、热度极高的新闻数据。
挖掘模块302,适于按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;
推送模块303,适于将所有分类的热点新闻数据推送给用户终端。
进一步的,该装置还包括:维护模块304,适于预先维护新闻站点列表。收集模块301进一步适于:定时收集用户访问所述新闻站点列表中各个新闻站点的日志,得到用户访问行为日志;从用户访问行文日志中挖掘与新闻相关的数据。维护模块304维护有新闻站点列表,其中记录了几千个访问量较高的新闻站点,包括但不限于:国家大型新闻门户、商业门户、地方新闻门户、行业门户网站以及社交平台。收集模块301定时收集新闻站点列表中各个新闻站点的访问日志,得到用户访问行为日志。其中用户访问行为日志记录了用户访问的页面、页面URL、访问时间等信息,根据用户访问行为日志可了解用户感兴趣的、热度高的新闻数据。收集模块301从用户访问行为日志中挖掘出与新闻相关的数据,例如新闻页面、页面标题、新闻页面URL以及访问时间等等数据。
可选地,本装置中,所述时间粒度为多个,所述装置还包括:与多个时间粒度对应的多个定时器305。挖掘模块302进一步适于:判断任一定时器的定时时间是否超过定时器对应的时间粒度规定的时间间隔段,若是,则调度挖掘程序。
本装置实施例按照时间粒度调度挖掘程序,时间粒度规定了调度挖掘程序的时间间隔段。而且,本装置实施例设置有多种时间粒度,实现向用户推送多种时间范围内的热点新闻。具体来说,每种时间粒度对应有一定时器,挖掘模块302通过判断定时器的定时时间否超过定时器对应的时间粒度规定的时间间隔段来决定是否调度挖掘程序。例如,预先设置多种时间粒度,分别为1天、1小时和15分钟,即分别对应设置三个定时器,定时时间分别为1天、1小时和15分钟。如果任一个定时器的定时时间到达,则认为该调度一次挖掘程序。其中每15分钟调度的挖掘程序用来挖掘15分钟内的热点新闻,每1小时调度的挖掘程序用来挖掘1小时内的热点新闻,每天调度的挖掘程序用来挖掘1天内的热点新闻。通过较小的时间粒度,可提升热点新闻的实时性;通过较大的时间粒度,可扩大热点新闻的覆盖范围。
进一步的,挖掘模块302在对新闻数据进行分类后,还需按照不同分类设置的参数进行挖掘,其中不同分类设置的参数包括以下参数的一项或多项:不同分类输出的热点新闻的预设个数;不同分类的最小热度值;不同分类的热度增长倍数阈值;以及,不同分类的热度连续增长时段个数阈值。以上参数均为预设参数,设置参数的目的是使得挖掘模块302按照参数化配置对每个分类的新闻数据进行区别化的挖掘,其中区别化体现在以下几个方面:
(1)按照不同分类输出的热点新闻的预设个数,挖掘对应分类下预设个数的热点新闻。
对于娱乐类和体育类新闻,预设个数较高,如设置为100个;对于科技类和教育类新闻,预设个数较低,如设置为30个。其中,个数的设置还与时间粒度有关,15分钟调度的挖掘程序挖掘的个数要低于1小时调度的挖掘程序挖掘的个数,而且都要低于1天调度的挖掘程序挖掘的个数。
(2)计算每个分类下各新闻的热度值,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻;其中,新闻的热度值为该新闻的所有关联URL的热度之和。
在新闻数据分类后,计算每个分类下各新闻的热度值,具体为该新闻的所有关联URL的热度之和。例如,新闻“人机大战”会关联很多URL,每个URL的热度定义为对应时段内的UV(Unique Visitor,独立访客),计算所有关联URL的热度之和即为该新闻的热度值。然后,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻。不同新闻分类对热点新闻的要求是不同的,一些分类会要求热度高些,另一些要求低些,通过此参数化配置,更符合推送热点新闻的需求。
(3)计算每个分类下各新闻的热度增长倍数,挖掘出热度增长倍数大于或等于对应分类的热度增长倍数阈值的新闻作为热点新闻;其中,新闻的热度增长倍数为最近时段的热度值与起始时段的热度值相除的结果。
不同新闻分类,对热度增长倍数的要求也是不同的。计算每个分类下各新闻的热度增长倍数,具体为最近时段的热度值与起始时段的热度值相除的结果。其中,时段为时间粒度规定的时间间隔段。以1小时的时间粒度为例,热度增长倍数为最近1小时的热度值与起始时段的热度值相除的结果,其中起始时段为该新闻被挖掘出作为热点新闻的开始时段计算的热度值。如果该新闻是刚被挖掘出的数据,则默认热度增长倍数为1。
(4)获取每个分类下各新闻的热度连续增长时段个数,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻。
统计各新闻的热度连续增长时段个数,如连续k个时段热度保持增长,则热度连续增长时段个数为k。然后,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻。
本实施例提供的热点新闻的挖掘装置是基于多时间粒度、多分类和参数化配置的挖掘装置,通过设置多种时间粒度保证热点新闻的时效性,还能一定程度扩大热点新闻的覆盖范围。通过多分类以及参数化配置,能避免热度低的新闻被淹没,实现均衡化推送;而且根据参数化配置对每个分类的新闻数据进行区别化挖掘,更能符合热点新闻的要求,进而满足用户需求。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的热点新闻的挖掘装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种热点新闻的挖掘方法,包括:
收集新闻站点的用户访问行为日志,获取新闻数据;
按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;
将所有分类的热点新闻数据推送给用户终端。
2.根据权利要求1所述的方法,在所述收集新闻站点的用户访问行为日志之前,所述方法还包括:预先维护新闻站点列表;
所述收集新闻站点的用户访问行为日志进一步包括:定时收集用户访问所述新闻站点列表中各个新闻站点的日志,得到用户访问行为日志;
所述获取新闻数据进一步包括:从用户访问行为日志中挖掘与新闻相关的数据。
3.根据权利要求1所述的方法,所述时间粒度为多个,每个时间粒度对应有一个定时器;
所述按照时间粒度调度挖掘程序进一步包括:判断任一定时器的定时时间是否超过定时器对应的时间粒度规定的时间间隔段,若是,则调度挖掘程序。
4.根据权利要求1-3任一项所述的方法,所述不同分类设置的参数包括以下参数的一项或多项:不同分类输出的热点新闻的预设个数;不同分类的最小热度值;不同分类的热度增长倍数阈值;以及,不同分类的热度连续增长时段个数阈值。
5.根据权利要求4所述的方法,所述按照不同分类设置的参数,挖掘每个分类的热点新闻数据进一步包括:
按照不同分类输出的热点新闻的预设个数,挖掘对应分类下预设个数的热点新闻;
和/或,计算每个分类下各新闻的热度值,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻;其中,新闻的热度值为该新闻的所有关联URL的热度之和;
和/或,计算每个分类下各新闻的热度增长倍数,挖掘出热度增长倍数大于或等于对应分类的热度增长倍数阈值的新闻作为热点新闻;其中,新闻的热度增长倍数为最近时段的热度值与起始时段的热度值相除的结果;
和/或,获取每个分类下各新闻的热度连续增长时段个数,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻;
其中,时段为时间粒度规定的时间间隔段。
6.一种热点新闻的挖掘装置,包括:
收集模块,适于收集新闻站点的用户访问行为日志,获取新闻数据;
挖掘模块,适于按照时间粒度调度挖掘程序,将新闻数据进行分类,按照不同分类设置的参数,挖掘每个分类的热点新闻数据;
推送模块,适于将所有分类的热点新闻数据推送给用户终端。
7.根据权利要求6所述的装置,还包括:维护模块,适于预先维护新闻站点列表;
所述收集模块进一步适于:定时收集用户访问所述新闻站点列表中各个新闻站点的日志,得到用户访问行为日志;从用户访问行文日志中挖掘与新闻相关的数据。
8.根据权利要求6所述的装置,所述时间粒度为多个,所述装置还包括:与多个时间粒度对应的多个定时器;
所述挖掘模块进一步适于:判断任一定时器的定时时间是否超过定时器对应的时间粒度规定的时间间隔段,若是,则调度挖掘程序。
9.根据权利要求6-8任一项所述的装置,所述不同分类设置的参数包括以下参数的一项或多项:不同分类输出的热点新闻的预设个数;不同分类的最小热度值;不同分类的热度增长倍数阈值;以及,不同分类的热度连续增长时段个数阈值。
10.根据权利要求9所述的装置,所述挖掘模块进一步适于:
按照不同分类输出的热点新闻的预设个数,挖掘对应分类下预设个数的热点新闻;
和/或,计算每个分类下各新闻的热度值,挖掘出热度值大于或等于对应分类的最小热度值的新闻作为热点新闻;其中,新闻的热度值为该新闻的所有关联URL的热度之和;
和/或,计算每个分类下各新闻的热度增长倍数,挖掘出热度增长倍数大于或等于对应分类的热度增长倍数阈值的新闻作为热点新闻;其中,新闻的热度增长倍数为最近时段的热度值与起始时段的热度值相除的结果;
和/或,获取每个分类下各新闻的热度连续增长时段个数,挖掘出热度连续增长时段个数大于或等于对应分类的热度连续增长时段个数阈值的新闻作为热点新闻;
其中,时段为时间粒度规定的时间间隔段。
CN201610320176.4A 2016-05-13 2016-05-13 热点新闻的挖掘方法及装置 Pending CN106021425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610320176.4A CN106021425A (zh) 2016-05-13 2016-05-13 热点新闻的挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610320176.4A CN106021425A (zh) 2016-05-13 2016-05-13 热点新闻的挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN106021425A true CN106021425A (zh) 2016-10-12

Family

ID=57096889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610320176.4A Pending CN106021425A (zh) 2016-05-13 2016-05-13 热点新闻的挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN106021425A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856450A (zh) * 2017-01-09 2017-06-16 东软集团股份有限公司 基于社交网络的社交信息生成方法和装置
CN109710875A (zh) * 2018-12-11 2019-05-03 广州市西美信息科技有限公司 一种基于用户操作日志数据的行为分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103177090A (zh) * 2013-03-08 2013-06-26 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
CN104182516A (zh) * 2014-08-21 2014-12-03 北京金山安全软件有限公司 信息推荐方法、装置和移动终端
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103177090A (zh) * 2013-03-08 2013-06-26 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
CN104182516A (zh) * 2014-08-21 2014-12-03 北京金山安全软件有限公司 信息推荐方法、装置和移动终端
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856450A (zh) * 2017-01-09 2017-06-16 东软集团股份有限公司 基于社交网络的社交信息生成方法和装置
CN106856450B (zh) * 2017-01-09 2020-09-29 东软集团股份有限公司 基于社交网络的社交信息生成方法和装置
CN109710875A (zh) * 2018-12-11 2019-05-03 广州市西美信息科技有限公司 一种基于用户操作日志数据的行为分析方法

Similar Documents

Publication Publication Date Title
Carey et al. Impacts of glacier recession and declining meltwater on mountain societies
CN102439957B (zh) 一种日程生成方法及其通信终端
US10026221B2 (en) Wetland modeling and prediction
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
Metcalf et al. Integrating multiple lines of evidence into historical biogeography hypothesis testing: a Bison bison case study
CN109409561B (zh) 多时间尺度时间序列协同预测模型的构建方法
CN106021425A (zh) 热点新闻的挖掘方法及装置
CN103944935A (zh) 一种网址信息投放方法和装置
Lucivero et al. Data-driven unsustainability? An interdisciplinary perspective on governing the environmental impacts of a data-driven society
CN104376066A (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
Sarkar et al. Water table dynamics of Dhaka City and its long-term trend analysis using the “MAKESENS” model
Ernsteins et al. Pro-Environmental Municipal Governance Developments in Latvia: Sustainability and Integration Principles in Practice
Krishnan et al. Planning support systems for long-term climate resilience: a critical review
Phulpagar et al. Innovative approach applications for groundwater management at the Ajmer division
CN103593455A (zh) 文件推荐方法和文件推荐装置
Jørgensen Typifying scientific output: A bibliometric analysis of archaeological publishing across the science/humanities spectrum (2009–2013)
CN104933047A (zh) 一种确定搜索词的价值的方法和装置
Galetakis et al. A multi-objective response surface analysis for the determination of the optimal cut-off quality and minimum thickness for selective mining of multiple-layered lignite deposits
CN104408175A (zh) 识别网页类型的方法和装置
Hossain et al. A fast, integrated model to explore multiple futures and pathways for the Bangladesh Delta
Klein et al. ECDS-a Swedish research infrastructure for the open sharing of environment and climate data
Megies et al. ObsPy-A Python Library for Seismology
Zheng et al. High accuracy doesn't prove that a deep learning model is accurate: a case study from automatic rock classification of thin section photomicrographs
LIU Essays on culture, institutions, and development
Garmeh Technology Focus: Field Development (September 2023)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication