CN109344316B - 新闻热度计算方法及装置 - Google Patents
新闻热度计算方法及装置 Download PDFInfo
- Publication number
- CN109344316B CN109344316B CN201810923014.9A CN201810923014A CN109344316B CN 109344316 B CN109344316 B CN 109344316B CN 201810923014 A CN201810923014 A CN 201810923014A CN 109344316 B CN109344316 B CN 109344316B
- Authority
- CN
- China
- Prior art keywords
- time
- news
- value
- heat
- popularity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种新闻热度计算方法和装置。所述方法包括:记录与目标新闻事件相关的具体新闻的发布时间;至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值;以及使用时间分片及其相应热度值计算所述目标新闻事件的热度。由此,能够通过引入时间分片来方便地计算目标新闻事件的热度。通过引入包括累加值的时间分片,使得本发明的热度计算方案仅需极少的存储空间就能够快速更新新闻事件的热度信息,根据新闻事件相关报道的发表时间序列,还能够快速拟合出新闻事件的长期热度信息与短期爆发热度信息。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种新闻热度计算方法及装置。
背景技术
获取新闻信息是人们进行互联网浏览的一大目的,新闻聚类技术可以将相关的新闻报道聚合在一起,让人们对新闻事件的了解更加全面、准确。在这其中,热度信息是新闻事件的重要属性之一。一个正在发生的重大事件,需要实时地更新其热度信息。虽然在线的新闻聚类能够将实时抓取到的新闻文章进行聚合,但由于存储容量、计算速度以及更新时延的限制,无法方便地实时地存储并获取一个新闻事件的全部历史文章序列以进行热度拟合。
为此,需要一种更为快捷简便的新闻热度计算方案。
发明内容
为了解决如上至少一个问题,本发明提出了一种仅需极少的存储空间就能够快速更新新闻事件热度信息的方案,根据新闻事件相关报道的发表时间序列,能够快速拟合出新闻事件的长期热度信息与短期爆发热度信息并实现实时更新。
根据本发明的一个方面,提出了一种新闻热度计算方法,包括:记录与目标新闻事件相关的具体新闻的发布时间;至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值;以及使用时间分片及其相应热度值计算所述目标新闻事件的热度。由此,能够通过引入时间分片来方便地计算目标新闻事件的热度。
所述新闻热度计算方法可以在执行在线新闻聚类实时抓取的同时实时进行。优选地,记录多个媒体发布端下与目标新闻事件相关的具体新闻的发布时间可以包括:实时、轮询或以预定间隔获取每个媒体发布端下与目标新闻事件相关的具体新闻的发布时间。由此,能够以极小的开销实现对新闻热度的计算,优选为实时计算。
至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值可以包括:使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值。由此,通过引入最后更新时间值,能够更为准确地对每个时间片的属性进行描述。
使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值可以包括:求取所述当前最后更新时间t0与所述具体新闻的发布时间t的时间差d;当d=0,直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值;当d<0,将t的值作为所述时间分片的更新的最后更新时间t0,并且使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数;
当d>0,使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
由此,通过指数求取叠加时间衰减,从而能够更为贴切地反映新闻事件的真实热度。
根据不同的实现,可以为每个具体新闻分配作为预定常数的热度值h;和/或基于具体新闻的发布媒体,为所述具体新闻分配不同的热度值h。
本发明的新闻热度计算方法还可以包括:为所述目标新闻事件构造按时间顺序排序的时间分片序列,其中,每个时间分片对应地包括所述累加热度值和所述最后更新时间值。由此,通过构造并维护时间分片序列,能够进一步方便对新闻热度的计算,尤其是实时计算。
使用时间分片及其相应热度值计算所述目标新闻事件的热度可以包括:直接使用所述时间分片序列生成所述目标新闻事件的热度-时间分布图。
使用时间分片及其相应热度值计算所述目标新闻事件的热度还包括:使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
使用所述时间分片序列求取所述目标新闻事件的长期热度信息可以包括:按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片;求取每个热度计算时段的时段累加热度值;以及基于所述时段累加热度值加权求取所述长期热度信息。
多个热度计算时段还可以包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
优选地,基于时间分片的最后更新时间与所述当前时间或特定时间的时间差确定每个热度计算时段所包括的具体时间分片。
使用所述时间分片序列求取所述目标新闻事件的短期爆发热度信息可以包括:选取距当前时间或特定时间的预定数量的连续时间分片;基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组;以及基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息可以包括:基于每个时间分片分组,得到集合C = {(t i , h i ) | t i 为分组中所有时间分片最后更新时间的平均值,h i 为分组中所有时间分片的热度值的和},并且基于下式获取短期爆发热度信息:
其中n为分组个数。
由此,能够方便地求取能够合理描述新闻事件热度趋势的长短期热度指标。
根据本发明的另一个方面,提出了一种新闻热度计算装置,包括:记录装置,用于记录与目标新闻事件相关的具体新闻的发布时间;更新装置,用于至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值;以及计算装置,使用时间分片及其相应热度值计算所述目标新闻事件的热度。
优选地,记录装置可以进一步用于实时、轮询或以预定间隔获取每个媒体发布端下与目标新闻事件相关的具体新闻的发布时间。
优选地,更新装置可以进一步用于使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值。
优选地,更新装置可以进一步用于:求取当前最后更新时间t0与所述具体新闻的发布时间t的时间差d;当d=0,直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值;当d<0,将t的值作为所述时间分片的更新的最后更新时间t0,并且使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数;
当d>0,使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
基于不同的实现,可以为每个具体新闻分配作为预定常数的热度值h;和/或基于具体新闻的发布媒体,为所述具体新闻分配不同的热度值h。
在一个实施例中,本发明的新闻热度计算装置还可以包括:构造装置,后者可以用于为所述目标新闻事件构造按时间顺序排序的时间分片序列,其中,每个时间分片对应地包括所述累加热度值和所述最后更新时间值。
由此,计算装置可以直接使用构造装置构造的时间分片序列生成所述目标新闻事件的热度-时间分布图。
在其他实施例中,计算装置可以用于使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
具体地,计算装置求取所述目标新闻事件的长期热度信息可以包括:按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片;求取每个热度计算时段的时段累加热度值;以及基于所述时段累加热度值加权求取所述长期热度信息。
优选地,多个热度计算时段还可以包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
优选地,基于时间分片的最后更新时间与所述当前时间或特定时间的时间差确定每个热度计算时段所包括的具体时间分片。
计算装置求取所述目标新闻事件的短期爆发热度信息则可包括:选取距当前时间或特定时间的预定数量的连续时间分片;基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组;以及基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息可以包括:基于每个时间分片分组,得到集合C = {(t i , h i ) | t i 为分组中所有时间分片最后更新时间的平均值,h i 为分组中所有时间分片的热度值的和},并且基于下式获取短期爆发热度信息:
其中n为分组个数。
根据本发明的又一个方面,提出了一种在线新闻聚类服务器,包括:抓取装置,用于实时抓取新闻文章并进行聚合分类;如上任一项所述的新闻热度计算装置,用于获取所述抓取装置抓取的新闻文章的发布时间,并将其更新至对应目标新闻事件的时间分片中,并基于所述时间分片计算所述目标新闻事件的热度。
根据本发明的一个方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的方法。
本专利采用实时更新的时间分片方式,有效避免计算新闻事件热度时,需要存储新闻事件所对应的新闻文章发表时间序列的问题,节省存储空间并提高计算效率。同时长期热度信息与短期爆发热度信息可以描述一个新闻事件的发展状态,对新闻事件的重要性判定有重要的参考价值。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明一个实施例的新闻热度计算方法的流程示意图。
图2示出了根据本发明一个实施例的求取长期热度信息的流程示意图。
图3示出了根据本发明一个实施例的求取短期爆发热度信息的流程示意图。
图4示出了根据本发明一个实施例的新闻热度计算装置的结构示意图。
图5示出了某一新闻事件在爆发后一段时间内的热度变化趋势。
图6示出了用于实现上述新闻热度计算方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在线新闻聚类实时地将抓取到的新闻文章归并到一个具体的新闻事件当中。本发明提出的一种基于时间分片的新闻热度计算方案优选与上述新闻聚类抓取同时地实时进行。当一篇新闻文章归入一个具体的新闻事件中时,根据新闻文章的发表时间实时地更新该新闻文章所属的时间分片热度信息,然后遍历该新闻事件的所有时间分片热度信息,综合加权拟合出新闻事件的长期热度信息与短期爆发热度信息。
图1示出了根据本发明一个实施例的新闻热度计算方法的流程示意图。基于本发明的新闻热度计算优选结合在线新闻聚类实时进行。例如,在线新闻聚类服务器在进行新闻聚类时,可以为每一个目标新闻事件执行本发明的新闻热度计算方案。
在步骤S110,记录与目标新闻事件相关的具体新闻的发布时间。例如,在线新闻聚类服务器可以在进行新闻文章抓取和归类时,至少同时获取该新闻文章的发布时间。优选地,记录多个媒体发布端下与目标新闻事件相关的具体新闻的发布时间
在步骤S120,至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值。首先可以基于新闻文章的发布时间,确定其所属的时间分片。在一个实施例中,可以按小时整点分片。例如,一篇20:15:43发布的文章可被分入20-21点的时间分片内。在每篇文章权值相同且不考虑发布时间远近的影响时,每一篇文章的发布可以使得其对应时间分片的累加热度值直接加1。在更为复杂的实施例中,可以根据其他因素,例如下述的发布时间和该时间分片的最后更新时间的关系来确定其对累加热度值的影响。
在步骤S130,使用时间分片及其相应热度值计算所述目标新闻事件的热度。例如,可以根据现有的多个时间分片及其内的热度值来求取该目标新闻事件本身的热度。
如前所述,在线新闻聚类服务器可以在进行新闻文章抓取和归类时,至少记录该新闻文章的发布时间用于其所属目标新闻事件热度值的计算。在具体应用中,在线新闻聚类服务器可以采用各种策略进行文章抓取。相应地,步骤S110可以包括实时、轮询或以预定间隔获取每个媒体发布端下与目标新闻事件相关的具体新闻的发布时间。例如,针对每个媒体发布端,在线新闻聚类服务器可以每五分钟获取一次发布文章,将获取的文章按照不同的新闻事件加以归类,并更新该新闻事件下相应时间片的累加热度值(以及可选地最后更新时间),并可实时更新该新闻事件的热度(例如,下述的长期或短期爆发热度值)。
在不同的热度计算模型中,可以采取不同的热度值分配策略。在一个实施例中,可以为每个具体新闻分配作为预定常数的热度值h。例如,在线新闻聚类服务器可以向每一个抓取的具体新闻分配取值为常数1的热度值h。在其它实施例中,可以基于各种因素,来向具体新闻分配不同的热度值h。可以基于具体新闻的发布媒体,为具体新闻分配不同的热度值h。例如,大型权威网站发布的新闻文章,热度值为1,小型网站的热度值为0.8等。
在一个实施例中,除了为每个时间分片保存累加热度值之外,还可以为其设置一个最后更新时间参数,以方便求取能够更为准确地反映目标新闻事件的整体热度的热度值。相应地,步骤S120可以包括使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值。
在一个实施例中,使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值可以包括求取时间分片的当前最后更新时间t0与具体新闻的发布时间t的时间差d,依据上述时间差d确定是否需要更新该时间分片的最后更新时间以及累加热度值的更新值大小。
具体地,当d=0,即时间分片的当前最后更新时间t0与具体新闻的发布时间t相同,则可直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值。当d不等于0,即在时间分片的当前最后更新时间t0与具体新闻的发布时间t之间存在时间差时,例如可以利用该时间差d的取值指数求取累加热度值。引入指数乘能够更为确切地反映时间邻近性对热度值的影响,符合新闻事件热度随时间衰减的趋势。
更具体地,当d<0,即,具体新闻的发布时间t比时间分片的更新的最后更新时间t0更晚,则可将t的值作为所述时间分片的更新的最后更新时间t0,并且可以使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数。而当d>0,即,具体新闻的发布时间t比时间分片的最后更新时间t0要早,则无需更新所述时间分片的更新的最后更新时间t0,并且可以使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
在这其中,a的取值可以配合d的单位而灵活变化。例如,当d以秒为单位且时间分片按小时分片时,a可以取较小的值,例如1/10000。而当d以分钟或小时为单位时,a的取值可以相应的增大60或3600倍。另外,可以根据经验值等合理规定a的取值,以获取能够更为准确的反映事件热度的指数曲线。
在一个实施例中,本发明的新闻热度计算方法还可以包括为所述目标新闻事件构造按时间顺序排序的时间分片序列,其中,每个时间分片对应地包括所述累加热度值和所述最后更新时间值。例如,当在线新闻聚合服务器确定一个新的目标新闻事件时,便可为其划分一个用于存储时间分片序列的空间(通常很小),并且随着时间流逝,逐个添加新的时间分片并更新当前时间分片内的具体取值。
在一个实施例中,针对每一个新闻事件可以对应存储一个如表1所示的时间分片序列,每一个时间分片对应存储一个如表2所示的结构体。每个分片中存储的信息可以包括:最近一次更新时间,初始化为0;以及最近一次更新之后的热度值,初始化为0。当在线新闻聚类归并一篇新闻文章到某一个具体的新闻事件中时,首先根据该新闻文章的发表时间,选择所属的时间分片,更新对应的时间分片的结构体信息。
0-1 | 1-2 | 2-3 | …… | 21-22 | 22-23 |
表1. 时间按小时分片示例
最近一次更新时间(更新时间) | 2018-03-29 20:23:22 |
最近一次更新后的热度值(热度值) | 1.5 |
表2. 分片信息示例
例如,一篇发表于2018-03-29 10:30:42的新闻文章归并到某个新闻事件中,需要更新该新闻事件的时间分片序列信息,每一篇新闻文章对新闻事件的热度贡献为h。首先,根据新闻文章的发表时间,选择所属的时间分片,亦即时间分片10-11。该时间分片当前具有两种可能的状态,一是未曾更新,二是曾有过更新。
当未曾更新时,初始化的更新时间为0,热度值为0。此时只需将该分片的更新时间更新为新闻文章发表时间,亦即2018-03-29 10:30:42;热度值更新为h即可。
而在曾经有过更新的情况下,则可根据例如上文所述,基于时间差d的取值,给出针对累加热度值和/或最后更新时间的更新。
基于如上构造并更新的时间分片序列,可以按需求取用于从不同层面反映目标新闻事件热度的各类热度信息。在一个实施例中,步骤S130可以包括直接使用所述时间分片序列构造所述目标新闻事件的热度-时间分布图。在其他实施例中,步骤S130还可以包括使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
图2示出了根据本发明一个实施例的求取长期热度信息的流程示意图。该方法可以看作步骤S130的子步骤。
在步骤S210,按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片。
在步骤S220,求取每个热度计算时段的时段累加热度值。
在步骤S230,基于所述时段累加热度值加权求取所述长期热度信息。
优选地,多个热度计算时段还包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
优选地,每个热度计算时段所包括的具体时间分片可以基于时间分片的最后更新时间与所述当前时间或特定时间的时间差来确定。
例如,在通过上述步骤得到某一新闻事件的实时更新的时间分片序列。在该实时更新的时间分片序列基础上,假设当前时间为t c ,第i个时间分片上存储的更新时间为t i ,热度值为h i ,则计算长期热度信息可以包括如下步骤:
(1) 分别初始化1小时内、3小时内、7小时内、12小时内、1天内、3天内以及3天以外的热度值为t 1h , t 3h , t 7h , t 12h , t 1d , t 3d , t od 为0;
(2) 根据当前时间t c ,确定当前时间所在的时间分片序列位置s i ,按时间向前循环递推,统计步骤(1)中定义的各个热度值。优选对分小时统计与分天统计采取不同的计算策略,其快速计算方法如下:
a) 按小时统计时,根据位置s i ,按时间向前递推即可。此处以统计1小时内热度为例,说明具体统计方法,分为两种情况:
i)若s i 在时间分片0-1,则分别对比时间分片0-1、时间分片22-23的更新时间与当前时间t c 的差值,如时间差在1小时内,则对应时间分片的热度值累加到t 1h 上;
ii)若s i 在除时间分片0-1的其他位置,则分别对比时间分片s i 、时间分片s i-1 的更新时间与当前时间t c 的时间差,如时间差在1小时内,则累加到t 1h 上;
其余t 3h , t 7h , t 12h 可依照此方法类推,分别进行统计;
b)按天统计时,遍历整个时间分片,对比ti与tc的时间差d c ,如dc在1天内则将hi累加到t 1d ,如d c 在3天内则将h i 累加到t 3d ,如dc在3天及3天外则将h i 累加到t od ;
(3) 通过步骤(2),得到了不同时间段内的新闻事件的热度信息值,随后可以基于如下公式,加权得到新闻事件的长期热度信息:
长期热度信息= t 1h *a 1h +t 3h *a 3h +t 7h *a 7h +t 12h *a 12h
+t 1d *a 1d +t 3d *a 3d +t od *a od
其中,a 1h , a 3h , a 7h , a 12h , a 1d , a 3d , a od 分别为1小时内、3小时内、7小时内、12小时内、1天内、3天内及3天以外的热度信息对于长期热度信息的权重。应该理解的是,如上1小时内、3小时内、7小时内、12小时内、1天内、3天内以及3天以外的热度值的划分仅仅是一个例子,在具体应用中,可以根据经验值或具体应用场景灵活选择对具体时间段的划分,以及每个时间段的权值。由此,通过反复叠加接近时间片的累加值,可以对接近时间片的统计值叠加多层权重,从而能够更好地反映新闻事件的时间衰减性。
图3示出了根据本发明一个实施例的求取短期爆发热度信息的流程示意图。该方法同样可以看作步骤S130的子步骤。
与长期累积热度信息不同的是,短期爆发热度信息需要考虑文章发表的爆发集中程度,比如针对不同事件,1天内媒体发表了10篇文章与1小时内媒体发表了10篇文章,其爆发程度就不一样。
由此,在步骤S310,选取距当前时间或特定时间的预定数量的连续时间分片。例如,可以选取距当前时间24小时之内的时间分片作为短期爆发热度信息的计算范围。
在步骤S320,基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组。在此,预定阈值可以为零或其他值,从而以爆发间歇作为分组的依据,在其他实施例中,还可以采取其他的分组依据。
在步骤S330,基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
例如,假设当前时间为t c ,第i个时间分片上存储的更新时间为t i ,热度值为h i ,则计算短期爆发热度信息的步骤如下:
(1) 遍历时间分片序列,对比t i 与t c 的时间差,如时间差在1天之内,挑选出来组成新的序列SEQ={(t k , h k ) | t k 与tc的时间差在1天内};
(2) 将SEQ根据时间序列进行分组,在时间序列中同一组内的时间分片在原始时间分片序列中的位置在时间上是相邻的;例如,时间分片0-1与时间分片1-2是相邻的,时间分片0-1与时间分片22-23在时间上也是相邻的,于是可以直接基于时间分片的取值是否超过阈值进行分组,例如,可以将热度值小于阈值α的时间分片作为分组的临界分片,或者直接将无更新时间段之间的分片聚合为一个组;
(3)基于每个时间分片分组,得到集合C = {(t i , h i ) | t i 为分组中所有时间分片最后更新时间的平均值,h i 为分组中所有时间分片的热度值的和},并且基于下式获取短期爆发热度信息:
其中n为分组个数。
由此,使得求取的短期爆发热度信息能够较为准确的反映时间衰减和集中爆发程度。
如上已结合图1-3描述了根据本发明的新闻热度计算方法。如下将结合图4描述根据本发明的新闻热度计算装置。
图4示出了根据本发明一个实施例的新闻热度计算装置的结构示意图。如图4所示,新闻热度计算装置400可以包括:记录装置410、更新装置420和计算装置430。
记录装置410可以用于记录与目标新闻事件相关的具体新闻的发布时间。更新装置420可以用于至少基于具体新闻的发布时间将该具体新闻的发布更新至所述发布时间所属时间分片的累加热度值。计算装置430则可使用时间分片及其相应热度值计算所述目标新闻事件的热度。
在一个实施例中,记录装置410可以进一步用于实时、轮询或以预定间隔获取每个媒体发布端下与目标新闻事件相关的具体新闻的发布时间。
在一个实施例中,更新装置410可以进一步用于使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值。
在一个实施例中,更新装置410可以进一步用于:求取所述当前最后更新时间t0与所述具体新闻的发布时间t的时间差d;当d=0,直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值;当d<0,将t的值作为所述时间分片的更新的最后更新时间t0,并且使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数;
当d>0,使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
基于不同的实现,可以为每个具体新闻分配作为预定常数的热度值h;和/或基于具体新闻的发布媒体,为所述具体新闻分配不同的热度值h。
在一个实施例中,本发明的新闻热度计算装置400还可以包括:构造装置440,后者可以用于为所述目标新闻事件构造按时间顺序排序的时间分片序列,其中,每个时间分片对应地包括所述累加热度值和所述最后更新时间值。
由此,计算装置430可以直接使用构造装置440构造的时间分片序列生成所述目标新闻事件的热度-时间分布图。
在其他实施例中,计算装置430可以用于使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
具体地,计算装置430求取所述目标新闻事件的长期热度信息可以包括:按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片;求取每个热度计算时段的时段累加热度值;以及基于所述时段累加热度值加权求取所述长期热度信息。
优选地,多个热度计算时段还可以包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
优选地,基于时间分片的最后更新时间与所述当前时间或特定时间的时间差确定每个热度计算时段所包括的具体时间分片。
计算装置430求取所述目标新闻事件的短期爆发热度信息则可包括:选取距当前时间或特定时间的预定数量的连续时间分片;基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组;以及基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息可以包括:基于每个时间分片分组,得到集合C = {(t i , h i ) | t i 为分组中所有时间分片最后更新时间的平均值,h i 为分组中所有时间分片的热度值的和},并且基于下式获取短期爆发热度信息:
其中n为分组个数。
本发明的技术方案还可以实现为一种在线新闻聚类服务器,包括:抓取装置,用于实时抓取新闻文章并进行聚合分类;以及如上所述的新闻热度计算装置,用于获取所述抓取装置抓取的新闻文章的发布时间,并将其更新至对应目标新闻事件的时间分片中,并基于所述时间分片计算所述目标新闻事件的热度。
由此,本发明采用时间分片方式来有效避免计算新闻事件热度时,需要存储一个新闻事件所对应的新闻文章发表时间序列的问题,节省存储空间并提高计算效率。同时长期热度信息与短期爆发热度信息可以描述一个新闻事件的发展状态,对新闻事件的重要性判定有重要的参考价值。
[应用例]
以事件“XXXXX”为例,图5示出了某一新闻事件在爆发后一段时间内的热度变化趋势。图5所示例如可以基于本发明的时间分片序列直接得出。
由此,利用本发明的新闻热度计算方案,能够以极小的存储和计算代价实现对新闻热度的计算,尤其是实时计算。
进一步地,图6示出了用于实现上述新闻热度计算方法的计算设备的结构示意图。
参见图6,计算设备600包括存储器610和处理器620。
处理器620可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器620可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器610可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器610可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器610可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器610上存储有可执行代码,当可执行代码被处理器620处理时,可以使处理器620执行上文述及的新闻热度计算方法。
上文中已经参考附图详细描述了根据本发明的新闻热度计算方案。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (28)
1.一种新闻热度计算方法,包括:
在一篇具体新闻归入一个目标新闻事件中的情况下,记录与所述目标新闻事件相关的所述具体新闻的发布时间,其中,所述目标新闻事件对应有按时间顺序排序的时间分片序列,每个时间分片对应地包括累加热度值和最后更新时间值;
使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的所述累加热度值和所述最后更新时间值;以及
使用时间分片及其相应热度值计算所述目标新闻事件的热度。
2.如权利要求1所述的方法,其中,记录与所述目标新闻事件相关的所述具体新闻的发布时间包括:
实时、轮询或以预定间隔获取每个媒体发布端下与目标新闻事件相关的具体新闻的发布时间。
3.如权利要求1所述的方法,其中,使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值包括:
求取当前最后更新时间t0与所述具体新闻的发布时间t的时间差d;
当d=0,直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值;
当d<0,将t的值作为所述时间分片的更新的最后更新时间t0,并且使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数;
当d>0,使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
4.如权利要求1所述的方法,其中,
为每个具体新闻分配作为预定常数的热度值h;和/或
基于具体新闻的发布媒体,为所述具体新闻分配不同的热度值h。
5.如权利要求1所述的方法,还包括:
为所述目标新闻事件构造按时间顺序排序的所述时间分片序列。
6.如权利要求5所述的方法,其中,使用时间分片及其相应热度值计算所述目标新闻事件的热度包括:
直接使用所述时间分片序列生成所述目标新闻事件的热度-时间分布图。
7.如权利要求5所述的方法,其中,使用时间分片及其相应热度值计算所述目标新闻事件的热度包括:
使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
8.如权利要求7所述的方法,其中,使用所述时间分片序列求取所述目标新闻事件的长期热度信息包括:
按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片;
求取每个热度计算时段的时段累加热度值;以及
基于所述时段累加热度值加权求取所述长期热度信息。
9.如权利要求8所述的方法,其中,所述多个热度计算时段还包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
10.如权利要求8所述的方法,其中,基于时间分片的最后更新时间与所述当前时间或特定时间的时间差确定每个热度计算时段所包括的具体时间分片。
11.如权利要求7所述的方法,其中,使用所述时间分片序列求取所述目标新闻事件的短期爆发热度信息包括:
选取距当前时间或特定时间的预定数量的连续时间分片;
基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组;以及
基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
13.如权利要求1所述的方法,其中,所述新闻热度计算方法在执行在线新闻聚类实时抓取的同时实时进行。
14.一种新闻热度计算装置,包括:
记录装置,用于在一篇具体新闻归入一个目标新闻事件中的情况下,记录与所述目标新闻事件相关的所述具体新闻的发布时间,其中,所述目标新闻事件对应有按时间顺序排序的时间分片序列,每个时间分片对应地包括累加热度值和最后更新时间值;
更新装置,用于使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的所述累加热度值和所述最后更新时间值;以及
计算装置,使用时间分片及其相应热度值计算所述目标新闻事件的热度。
15.如权利要求14所述的装置,其中,所述更新装置进一步用于使用所述具体新闻的发布时间和热度值更新所述发布时间所属时间分片的累加热度值和最后更新时间值。
16.如权利要求15所述的装置,其中,所述更新装置进一步包括:
求取当前最后更新时间t0与所述具体新闻的发布时间t的时间差d;
当d=0,直接将所述具体新闻的热度值h累加至当前累加热度值h0,以得到所述时间分片的更新的累加热度值;
当d<0,将t的值作为所述时间分片的更新的最后更新时间t0,并且使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0*exp(a*d)+h,
其中exp(x)表示指数函数,a为预定的取值为正的系数;
当d>0,使用下式更新所述时间分片的累加热度值:
更新的累加热度值=h0+h*exp(-a*d)。
17.如权利要求15所述的装置,其中,
为每个具体新闻分配作为预定常数的热度值h;和/或
基于具体新闻的发布媒体,为所述具体新闻分配不同的热度值h。
18.如权利要求15所述的装置,还包括:
构造装置,用于为所述目标新闻事件构造按时间顺序排序的所述时间分片序列。
19.如权利要求18所述的装置,其中,所述计算装置直接使用所述构造装置构造的时间分片序列生成所述目标新闻事件的热度-时间分布图。
20.如权利要求18所述的装置,其中,所述计算装置用于使用所述时间分片序列求取所述目标新闻事件的长期热度信息或短期爆发热度信息。
21.如权利要求20所述的装置,其中,所述计算装置求取所述目标新闻事件的长期热度信息包括:
按照预定规则划分距当前时间或特定时间的多个热度计算时段,每个热度计算时段都包括在前更短的热度计算时段所包括的所有时间分片;
求取每个热度计算时段的时段累加热度值;以及
基于所述时段累加热度值加权求取所述长期热度信息。
22.如权利要求21所述的装置,其中,所述多个热度计算时段还包括距当前时间或特定时间最长热度计算时段之外的在前热度计算时间。
23.如权利要求21所述的装置,其中,基于时间分片的最后更新时间与所述当前时间或特定时间的时间差确定每个热度计算时段所包括的具体时间分片。
24.如权利要求20所述的装置,其中,所述计算装置求取所述目标新闻事件的短期爆发热度信息包括:
选取距当前时间或特定时间的预定数量的连续时间分片;
基于所述连续时间分片中取值小于预定阈值的时间分片将所述连续时间分片进行分组;以及
基于每个分组的时间分片最后更新时间和累加热度值求取所述短期爆发热度信息。
26.一种在线新闻聚类服务器,包括:
抓取装置,用于实时抓取新闻文章并进行聚合分类;
如权利要求14-25中任一项所述的新闻热度计算装置,用于获取所述抓取装置抓取的新闻文章的发布时间,并将其更新至对应目标新闻事件的时间分片中,并基于所述时间分片计算所述目标新闻事件的热度。
27.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-13中任一项所述的方法。
28.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810923014.9A CN109344316B (zh) | 2018-08-14 | 2018-08-14 | 新闻热度计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810923014.9A CN109344316B (zh) | 2018-08-14 | 2018-08-14 | 新闻热度计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344316A CN109344316A (zh) | 2019-02-15 |
CN109344316B true CN109344316B (zh) | 2022-04-29 |
Family
ID=65296980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810923014.9A Active CN109344316B (zh) | 2018-08-14 | 2018-08-14 | 新闻热度计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344316B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674412A (zh) * | 2019-08-20 | 2020-01-10 | 广州视源电子科技股份有限公司 | 资源的推荐信息推送方法及装置、电子设备 |
CN112738227B (zh) * | 2020-12-28 | 2022-10-18 | 广州金融科技股份有限公司 | 一种资讯热度的评估方法、计算机设备和存储介质 |
CN113010779B (zh) * | 2021-03-10 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113254787B (zh) * | 2021-06-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 事件分析方法、装置、计算机设备及存储介质 |
CN113282837B (zh) * | 2021-06-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 事件分析方法、装置、计算机设备及存储介质 |
CN113449077B (zh) * | 2021-06-25 | 2024-04-05 | 完美世界控股集团有限公司 | 新闻热度计算方法、设备及存储介质 |
CN113824980A (zh) * | 2021-09-09 | 2021-12-21 | 广州方硅信息技术有限公司 | 视频推荐方法、系统、装置及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012917A (zh) * | 2010-11-26 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 信息处理装置以及处理方法 |
CN104933129A (zh) * | 2015-06-12 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 基于微博的事件脉络获取方法和系统 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107705005A (zh) * | 2017-09-27 | 2018-02-16 | 吴殿义 | 一种影视内容价值评估方法 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107895008A (zh) * | 2017-11-10 | 2018-04-10 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的情报信息热点发现方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201025035A (en) * | 2008-12-18 | 2010-07-01 | Univ Nat Taiwan | Analysis algorithm of time series word summary and story plot evolution |
US20110270678A1 (en) * | 2010-05-03 | 2011-11-03 | Drummond Mark E | System and method for using real-time keywords for targeting advertising in web search and social media |
US20140137188A1 (en) * | 2012-11-14 | 2014-05-15 | Domanicom Corporation | Devices, systems, and methods for simultaneously delivering personalized/ targeted services and advertisements to end users |
CN103077190A (zh) * | 2012-12-20 | 2013-05-01 | 人民搜索网络股份公司 | 基于排序学习技术的热门事件排名方法 |
CN104657496B (zh) * | 2015-03-09 | 2018-08-14 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN107066537A (zh) * | 2017-03-06 | 2017-08-18 | 广州神马移动信息科技有限公司 | 热点新闻生成方法、设备、电子设备 |
CN107122481B (zh) * | 2017-05-04 | 2020-06-30 | 成都华栖云科技有限公司 | 新闻热度实时在线预测方法 |
-
2018
- 2018-08-14 CN CN201810923014.9A patent/CN109344316B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012917A (zh) * | 2010-11-26 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 信息处理装置以及处理方法 |
CN104933129A (zh) * | 2015-06-12 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 基于微博的事件脉络获取方法和系统 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107705005A (zh) * | 2017-09-27 | 2018-02-16 | 吴殿义 | 一种影视内容价值评估方法 |
CN107895008A (zh) * | 2017-11-10 | 2018-04-10 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的情报信息热点发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109344316A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344316B (zh) | 新闻热度计算方法及装置 | |
US9842149B2 (en) | Population and/or animation of spatial visualization(s) | |
CN111737265B (zh) | 区块数据访问方法、区块数据存储方法及装置 | |
US10152542B2 (en) | Ranking and ordering of user generated content | |
CN108874311B (zh) | 融合存储系统中的数据迁移方法和装置 | |
TW201237665A (en) | Determining preferred categories based on user access attribute values | |
CN109144791A (zh) | 数据转存方法、装置和数据管理服务器 | |
CN111090705B (zh) | 一种多维数据处理方法、装置及设备、存储介质 | |
CN108809704B (zh) | 基于动态时间窗的数据去重统计方法及装置 | |
CN111582984A (zh) | 一种商品推荐方法、装置及计算设备 | |
US20150169698A1 (en) | Method and apparatus of determining time for sending information | |
WO2018095307A1 (zh) | 一种评价信息的发布方法及装置 | |
CN110858210A (zh) | 数据查询方法及装置 | |
CN106681665B (zh) | 缓存数据的持久化存储方法及装置 | |
US10146832B2 (en) | Prefetching for computing airline routes | |
CN111737266B (zh) | 区块数据访问方法、区块数据存储方法及装置 | |
CN110019210B (zh) | 数据写入方法及设备 | |
CN112800152B (zh) | 轨迹数据处理方法、装置和系统 | |
CN110187840A (zh) | 一种数据迁移方法、装置、服务器及存储介质 | |
CN111464882A (zh) | 视频摘要生成方法及装置、设备、介质 | |
CN108519909A (zh) | 一种流数据处理方法和装置 | |
WO2014139436A1 (en) | Method and apparatus for generating personalized page | |
CN104699697B (zh) | 一种数据处理方法及装置 | |
JP2011123644A (ja) | データ処理装置、データ処理方法およびデータ処理プログラム | |
CN110990466B (zh) | 一种数据同步方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201229 Address after: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510627 unit 01, 13th floor, Tower B, Pingyun Plaza, 163 xipingyun Road, Huangpu Avenue, Tianhe District, Guangzhou City, Guangdong Province Applicant before: UC TECHNOLOGY (CHINA) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |