CN116401435B

CN116401435B - 一种日活跃栏目热度计算及调度方法和装置

Info

Publication number: CN116401435B
Application number: CN202310151309.XA
Authority: CN
Inventors: 田振
Original assignee: Beijing Maxtech Co ltd
Current assignee: Beijing Maxtech Co ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-11-10
Anticipated expiration: 2043-02-22
Also published as: CN116401435A

Abstract

本申请公开了一种日活跃栏目热度计算及调度方法和装置，通过获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性、新文章标题属性和文章平均发布时间间隔，计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数，根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分；计算采集资源；将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数。本申请提供的日活跃栏目热度计算及调度方法和装置从多个维度对栏目进行了评分，通用性好，能够动态调整栏目热度分级，无需进行二次请求或额外的请求来计算栏目热度，减少了资源浪费。

Description

一种日活跃栏目热度计算及调度方法和装置

技术领域

本申请涉及热度计算技术领域，具体涉及一种日活跃栏目热度计算及调度方法和装置。

背景技术

随着科技的不断进步、电视技术的不断发展，电视节目能够以电视频道直播节目、点播节目等方式为人们呈现节目内容。在进行电视频道直播节目的过程中，能够从广告的投放中获得收益，所以不同电视频道直播节目的收视热度直接影响了广告的投放量及广告收益的大小。而不同点播节目的热度也会为影响到节目的编排。所以电视节目热度成为衡量一个频道整体质量或节目质量的重要指标，因此对电视节目热度的预测至关重要。

现有的栏目热度预测在预测过程中不会使用热度计算，不使用热度计算的方法消耗资源比较大，即使使用热度计算方法，其大部分的热度计算方法衡量维度又比较单一，通用性不好。

发明内容

为此，本申请提供一种日活跃栏目热度计算及调度方法和装置，以解决现有技术存在的热度计算消耗资源比较大且衡量维度单一，通用性不好的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种日活跃栏目热度计算及调度方法，包括：

获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性；

从数据库中获取所述目标栏目的文章平均发布时间间隔；

根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数；

根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分；

计算采集资源；

将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数。

作为优选，所述每小时爬虫有效系数是根据第一公式计算得到的；

所述第一公式为：

其中，HSEC为每小时爬虫有效系数，

NewArticleCount为目标栏目采集到的新文章总数，

ArticleCount为目标栏目的文章总数，

Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间，

Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间，

Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间，

Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间。

作为优选，所述文章价值系数是根据第二公式计算得到的，所述第二公式为：

其中，AriceleValueEffectiveCoefficient为文章价值系数，

TitleLengthFactor为最有价值文章标题长度，

Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度，Count(NewArticleTitleList)为目标栏目的新文章标题个数。

作为优选，所述最有价值文章标题长度为18。

作为优选，所述发布时间间隔系数是根据第三公式计算得到的，所述第三公式为：

其中，PTIC为发布时间间隔系数，Avg(NewArticlePublicTimeList)为目标栏目新文章发布时间平均间隔，0.6为目标栏目新文章发布时间平均间隔的权重系数，OldArticlePublicTimeAvg为目标栏目历史文章发布时间平均间隔，0.4为目标栏目历史文章发布时间平均间隔的权重系数。

作为优选，所述目标栏目的最终得分是根据第四公式计算得到的，所述第四公式为：

ChannelValue＝HSEC*40

+AriceleValueEffectiveCoefficient*20

+PTIC*30

+Random(0,1)*10

其中，ChannelValue为目标栏目的最终得分，Random(0，1)为随机干预系数。

作为优选，所述采集资源是根据第五公式计算得到的，所述第五公式为：

其中，SpiderChannelResource为采集资源，SpiderResourceShare为总采集资源的分片数。

第二方面，一种日活跃栏目热度计算及调度装置，包括：

参数获取模块，用于获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性；

时间间隔获取模块，用于从数据库中获取所述目标栏目的文章平均发布时间间隔；

第一计算模块，用于根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数；

第二计算模块，用于根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分；

第三计算模块，用于计算采集资源；

调度模块，用于将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种日活跃栏目热度计算及调度方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种日活跃栏目热度计算及调度方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种日活跃栏目热度计算及调度方法和装置，通过获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性，从数据库中获取所述目标栏目的文章平均发布时间间隔；根据目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数，根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分；计算采集资源；将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数。本申请提供的方法从多个维度对栏目进行了评分，最后汇总为栏目的最终得分，通用性好，并且可以通过配置，动态调整栏目热度分级，无需进行二次请求或额外的请求计算栏目热度，并对栏目进行下发采集，从而达到采集资源利用最优的效果。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种日活跃栏目热度计算及调度方法流程图；

图2为本申请实施例一提供的计算分数逻辑示意图；

图3为本申请实施例一提供的调度逻辑示意图；

图4为本申请实施例一提供的各个栏目最终分数核算效果展示；

图5为本申请实施例一提供的新闻栏目采集日贡献数据量趋势图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

请参阅图1和图2，本实施例提供了一种日活跃栏目热度计算及调度方法，包括：

S1：获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性；

具体的，首先对已有栏目进行下发采集，抽取栏目页采集结果进行解析，得到当前下发栏目页内详情页个数，记为IdentificationArticleCount，这里只对文章详情页域名与栏目页域名相同的文章详情URL进行统计。

将得到的文章详情URL与数据库中已有的该栏目历史文章详情URL进行去重对比，得到两个集合，一个是新采集的文章详情URL集合，记为NewArticleCount，另一个是历史的文章详情URL集合，记为OldArticleCount，每个历史的文章详情URL集合在数据库中都会记录其发布时间和文章标题，作为该历史文章详情URL的属性。

得到两个集合后，对新采集的文章详情URL集合进行下发采集，即可得到新发布的每篇文章详情页的发布时间的集合，记为NewArticlePublicTimeList，以及新文章标题集合，记为NewArticleTitleList，并将得到的文章发布时间和文章标题作为该文章详情URL的属性赋值回新采集的文章详情URL集合中。至此，就得到了一个栏目本次采集的历史文章URL集合及其发布时间属性和标题属性，新发布的文章URL集合及其发布时间属性和标题属性。

S2：从数据库中获取目标栏目的文章平均发布时间间隔；

具体的，从数据库中查询该栏目页的文章平均发布时间间隔，其值为上一次计算的平均发布时间间隔的回传值，即历史文章发布时间平均间隔，标记为OldArticlePublicTimeAvg。

S3：根据目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数。

具体的，每小时爬虫有效系数为HourSpiderEffectiveCoefficient(简称：HSEC)，则HSEC为：

其中，

NewArticleCount为目标栏目采集到的新文章总数，

ArticleCount为目标栏目的文章总数，

Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间，

Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间，

Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间，

Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间。

文章价值系数AriceleValueEffectiveCoefficient为：

其中，TitleLengthFactor为最有价值文章标题长度，经过大量测试得出为18；

Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度，Count(NewArticleTitleList)为目标栏目的新文章标题个数；

若平均标题小于18时，AriceleValueEffectiveCoefficient取倒数。

发布时间间隔系数为PublicTimeIntervalCoefficient(简称：PTIC)，则PTIC为：

S4：根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分；

具体的，目标栏目的最终得分ChannelValue为：

ChannelValue＝HourSpiderEffectiveCoefficient*40

+AriceleValueEffectiveCoefficient*20

+PublicTimeIntervalCoefficient*30

+Random(0，1)*10

其中，ChannelValue为目标栏目的最终得分，Random(0，1)为随机干预系数，最终得分结果在0～100分区间，将本次采集的目标栏目最终得分与原有的栏目得分取均值即为目标栏目的现得分。

每天都没有发布新数据的栏目就会得0分，针对这种栏目将配置参数翻倍采集，即可对非获取栏目进行月发布排序采集。

S5：计算采集资源；

具体的，对采集总资源进行估算，已知目前设置的采集资源为定值，且可进行横向扩展，故以当前采集资源的定值作为计算依据，此采集资源为24小时内的采集资源，记为SpiderChannelResource，为方便动态调整，将采集资源的预分配比例配置在配置服务中进行配置，将采集资源划分为7个等级，分别为每小时采集资源，每2小时采集资源，每4小时采集资源，每8小时采集资源，每16小时采集资源，每24小时采集资源和不采集，即{1h:24,2h:12,4h:6,8h:3,16h:2,24h:1,0h:0}，则有每个等级每小时应得采集资源为：

其中，SpiderResourceShare为总采集资源的分片数，即当前采集资源被6个等级分成每小时采集的单位份数，SpiderChannelResource为采集资源，即每天可发送请求总量。

S6：将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数。

请参阅图3，具体的，调度器将预计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数即LevelSpiderResource，则有：

Level1SpiderResource＝SpiderResourceShare*24/24＝SpiderResourceShare*1

Level2SpiderResource＝SpiderResourceShare*12/24＝SpiderResourceShare*0.5

Level3SpiderResource＝SpiderResourceShare*6/24＝SpiderResourceShare*0.25

Level4SpiderResource＝SpiderResourceShare*3/24＝SpiderResourceShare*0.125

Level5SpiderResource＝SpiderResourceShare*2/24＝SpiderResourceShare*0.84

Level6SpiderResource＝SpiderResourceShare*1/24＝SpiderResourceShare*0.42

至此即可得出每个小时每个等级的采集指标，实现不同分数，采集频率不同，进而达到最优调度。

请参阅图4和图5，根据本实施例提供的方法验证分数计算是否符合预期，以163滚动采集为例，按照算法查看最终结果，结果取整，最终得分结果基本与数据库相近。

本实施例提供的一种日活跃栏目热度计算及调度方法在已知采集资源的情况下，对栏目热度进行分级下发的最优调度算法，并且可以通过配置，动态调整栏目热度分级，无需进行二次请求或额外的请求计算栏目热度，并对栏目进行下发采集，从而达到采集资源利用最优的效果。

实施例二

本实施例提供了一种日活跃栏目热度计算及调度装置，包括：

第三计算模块，用于计算采集资源；

关于一种日活跃栏目热度计算及调度装置装置的具体限定可以参见上文中对于一种日活跃栏目热度计算及调度装置方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种日活跃栏目热度计算及调度装置方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种日活跃栏目热度计算及调度装置方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种日活跃栏目热度计算及调度方法，其特征在于，包括：

从数据库中获取所述目标栏目的文章平均发布时间间隔；

根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分，根据所述目标栏目的最终得分和原有得分的均值划分栏目等级；

计算采集资源；

将计算好的采集资源按照栏目等级均分，得到每等级每小时采集份数；

所述每小时爬虫有效系数是根据第一公式计算得到的；

所述第一公式为：

其中，HSEC为每小时爬虫有效系数，

NewArticleCount为目标栏目采集到的新文章总数，

ArticleCount为目标栏目的文章总数，

Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间，

Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间，

Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间，

Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间；

所述文章价值系数是根据第二公式计算得到的，所述第二公式为：

其中，AriceleValueEffectiveCoefficient为文章价值系数，

TitleLengthFactor为最有价值文章标题长度，

Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度，

Count(NewArticleTitleList)为目标栏目的新文章标题个数；

所述最有价值文章标题长度为18；

所述发布时间间隔系数是根据第三公式计算得到的，所述第三公式为：

其中，PTIC为发布时间间隔系数，Avg(NewArticlePublicTimeList)为目标栏目新文章发布时间平均间隔，0.6为目标栏目新文章发布时间平均间隔的权重系数，OldArticlePublicTimeAvg为目标栏目历史文章发布时间平均间隔，0.4为目标栏目历史文章发布时间平均间隔的权重系数；

所述目标栏目的最终得分是根据第四公式计算得到的，所述第四公式为：

ChannelValue＝HSEC*40

+AriceleValueEffectiveCoefficient*20

+PTIC*30

+Random(0，1)*10

其中，ChannelValue为目标栏目的最终得分，Random(0，1)为随机干预系数；

所述采集资源是根据第五公式计算得到的，所述第五公式为：

2.一种日活跃栏目热度计算及调度装置，其特征在于，所述日活跃栏目热度计算及调度装置用于实现权利要求1所述的日活跃栏目热度计算及调度方法，包括：

第二计算模块，用于根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分，根据所述目标栏目的最终得分和原有得分的均值划分栏目等级；

第三计算模块，用于计算采集资源；

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。