CN116401435B - 一种日活跃栏目热度计算及调度方法和装置 - Google Patents
一种日活跃栏目热度计算及调度方法和装置 Download PDFInfo
- Publication number
- CN116401435B CN116401435B CN202310151309.XA CN202310151309A CN116401435B CN 116401435 B CN116401435 B CN 116401435B CN 202310151309 A CN202310151309 A CN 202310151309A CN 116401435 B CN116401435 B CN 116401435B
- Authority
- CN
- China
- Prior art keywords
- article
- release time
- column
- coefficient
- target column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000000694 effects Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims description 2
- 238000006062 fragmentation reaction Methods 0.000 claims description 2
- 239000002699 waste material Substances 0.000 abstract 1
- 230000002354 daily effect Effects 0.000 description 16
- 238000009826 distribution Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种日活跃栏目热度计算及调度方法和装置,通过获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性、新文章标题属性和文章平均发布时间间隔,计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数,根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分;计算采集资源;将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。本申请提供的日活跃栏目热度计算及调度方法和装置从多个维度对栏目进行了评分,通用性好,能够动态调整栏目热度分级,无需进行二次请求或额外的请求来计算栏目热度,减少了资源浪费。
Description
技术领域
本申请涉及热度计算技术领域,具体涉及一种日活跃栏目热度计算及调度方法和装置。
背景技术
随着科技的不断进步、电视技术的不断发展,电视节目能够以电视频道直播节目、点播节目等方式为人们呈现节目内容。在进行电视频道直播节目的过程中,能够从广告的投放中获得收益,所以不同电视频道直播节目的收视热度直接影响了广告的投放量及广告收益的大小。而不同点播节目的热度也会为影响到节目的编排。所以电视节目热度成为衡量一个频道整体质量或节目质量的重要指标,因此对电视节目热度的预测至关重要。
现有的栏目热度预测在预测过程中不会使用热度计算,不使用热度计算的方法消耗资源比较大,即使使用热度计算方法,其大部分的热度计算方法衡量维度又比较单一,通用性不好。
发明内容
为此,本申请提供一种日活跃栏目热度计算及调度方法和装置,以解决现有技术存在的热度计算消耗资源比较大且衡量维度单一,通用性不好的问题。
为了实现上述目的,本申请提供如下技术方案:
第一方面,一种日活跃栏目热度计算及调度方法,包括:
获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
从数据库中获取所述目标栏目的文章平均发布时间间隔;
根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数;
根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分;
计算采集资源;
将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。
作为优选,所述每小时爬虫有效系数是根据第一公式计算得到的;
所述第一公式为:
其中,HSEC为每小时爬虫有效系数,
NewArticleCount为目标栏目采集到的新文章总数,
ArticleCount为目标栏目的文章总数,
Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间,
Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间,
Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间,
Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间。
作为优选,所述文章价值系数是根据第二公式计算得到的,所述第二公式为:
其中,AriceleValueEffectiveCoefficient为文章价值系数,
TitleLengthFactor为最有价值文章标题长度,
Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度,Count(NewArticleTitleList)为目标栏目的新文章标题个数。
作为优选,所述最有价值文章标题长度为18。
作为优选,所述发布时间间隔系数是根据第三公式计算得到的,所述第三公式为:
其中,PTIC为发布时间间隔系数,Avg(NewArticlePublicTimeList)为目标栏目新文章发布时间平均间隔,0.6为目标栏目新文章发布时间平均间隔的权重系数,OldArticlePublicTimeAvg为目标栏目历史文章发布时间平均间隔,0.4为目标栏目历史文章发布时间平均间隔的权重系数。
作为优选,所述目标栏目的最终得分是根据第四公式计算得到的,所述第四公式为:
ChannelValue=HSEC*40
+AriceleValueEffectiveCoefficient*20
+PTIC*30
+Random(0,1)*10
其中,ChannelValue为目标栏目的最终得分,Random(0,1)为随机干预系数。
作为优选,所述采集资源是根据第五公式计算得到的,所述第五公式为:
其中,SpiderChannelResource为采集资源,SpiderResourceShare为总采集资源的分片数。
第二方面,一种日活跃栏目热度计算及调度装置,包括:
参数获取模块,用于获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
时间间隔获取模块,用于从数据库中获取所述目标栏目的文章平均发布时间间隔;
第一计算模块,用于根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数;
第二计算模块,用于根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分;
第三计算模块,用于计算采集资源;
调度模块,用于将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种日活跃栏目热度计算及调度方法的步骤。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种日活跃栏目热度计算及调度方法的步骤。
相比现有技术,本申请至少具有以下有益效果:
本申请提供了一种日活跃栏目热度计算及调度方法和装置,通过获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性,从数据库中获取所述目标栏目的文章平均发布时间间隔;根据目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数,根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分;计算采集资源;将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。本申请提供的方法从多个维度对栏目进行了评分,最后汇总为栏目的最终得分,通用性好,并且可以通过配置,动态调整栏目热度分级,无需进行二次请求或额外的请求计算栏目热度,并对栏目进行下发采集,从而达到采集资源利用最优的效果。
附图说明
为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。
图1为本申请实施例一提供的一种日活跃栏目热度计算及调度方法流程图;
图2为本申请实施例一提供的计算分数逻辑示意图;
图3为本申请实施例一提供的调度逻辑示意图;
图4为本申请实施例一提供的各个栏目最终分数核算效果展示;
图5为本申请实施例一提供的新闻栏目采集日贡献数据量趋势图。
具体实施方式
以下结合附图,通过具体实施例对本申请作进一步详述。
在本申请的描述中:除非另有说明,“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象,而不具有技术内涵方面的特别意义(例如,不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式,同时还意味着“不限于”(某些单元、部件、材料、步骤等)。
本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,通常是为了便于对照附图直观理解,而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下,这些相对位置关系的改变,当亦视为本申请表述的范畴。
实施例一
请参阅图1和图2,本实施例提供了一种日活跃栏目热度计算及调度方法,包括:
S1:获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
具体的,首先对已有栏目进行下发采集,抽取栏目页采集结果进行解析,得到当前下发栏目页内详情页个数,记为IdentificationArticleCount,这里只对文章详情页域名与栏目页域名相同的文章详情URL进行统计。
将得到的文章详情URL与数据库中已有的该栏目历史文章详情URL进行去重对比,得到两个集合,一个是新采集的文章详情URL集合,记为NewArticleCount,另一个是历史的文章详情URL集合,记为OldArticleCount,每个历史的文章详情URL集合在数据库中都会记录其发布时间和文章标题,作为该历史文章详情URL的属性。
得到两个集合后,对新采集的文章详情URL集合进行下发采集,即可得到新发布的每篇文章详情页的发布时间的集合,记为NewArticlePublicTimeList,以及新文章标题集合,记为NewArticleTitleList,并将得到的文章发布时间和文章标题作为该文章详情URL的属性赋值回新采集的文章详情URL集合中。至此,就得到了一个栏目本次采集的历史文章URL集合及其发布时间属性和标题属性,新发布的文章URL集合及其发布时间属性和标题属性。
S2:从数据库中获取目标栏目的文章平均发布时间间隔;
具体的,从数据库中查询该栏目页的文章平均发布时间间隔,其值为上一次计算的平均发布时间间隔的回传值,即历史文章发布时间平均间隔,标记为OldArticlePublicTimeAvg。
S3:根据目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数。
具体的,每小时爬虫有效系数为HourSpiderEffectiveCoefficient(简称:HSEC),则HSEC为:
其中,
NewArticleCount为目标栏目采集到的新文章总数,
ArticleCount为目标栏目的文章总数,
Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间,
Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间,
Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间,
Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间。
文章价值系数AriceleValueEffectiveCoefficient为:
其中,TitleLengthFactor为最有价值文章标题长度,经过大量测试得出为18;
Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度,Count(NewArticleTitleList)为目标栏目的新文章标题个数;
若平均标题小于18时,AriceleValueEffectiveCoefficient取倒数。
发布时间间隔系数为PublicTimeIntervalCoefficient(简称:PTIC),则PTIC为:
其中,PTIC为发布时间间隔系数,Avg(NewArticlePublicTimeList)为目标栏目新文章发布时间平均间隔,0.6为目标栏目新文章发布时间平均间隔的权重系数,OldArticlePublicTimeAvg为目标栏目历史文章发布时间平均间隔,0.4为目标栏目历史文章发布时间平均间隔的权重系数。
S4:根据每小时爬虫有效系数、文章价值系数和发布时间间隔系数得到目标栏目的最终得分;
具体的,目标栏目的最终得分ChannelValue为:
ChannelValue=HourSpiderEffectiveCoefficient*40
+AriceleValueEffectiveCoefficient*20
+PublicTimeIntervalCoefficient*30
+Random(0,1)*10
其中,ChannelValue为目标栏目的最终得分,Random(0,1)为随机干预系数,最终得分结果在0~100分区间,将本次采集的目标栏目最终得分与原有的栏目得分取均值即为目标栏目的现得分。
每天都没有发布新数据的栏目就会得0分,针对这种栏目将配置参数翻倍采集,即可对非获取栏目进行月发布排序采集。
S5:计算采集资源;
具体的,对采集总资源进行估算,已知目前设置的采集资源为定值,且可进行横向扩展,故以当前采集资源的定值作为计算依据,此采集资源为24小时内的采集资源,记为SpiderChannelResource,为方便动态调整,将采集资源的预分配比例配置在配置服务中进行配置,将采集资源划分为7个等级,分别为每小时采集资源,每2小时采集资源,每4小时采集资源,每8小时采集资源,每16小时采集资源,每24小时采集资源和不采集,即{1h:24,2h:12,4h:6,8h:3,16h:2,24h:1,0h:0},则有每个等级每小时应得采集资源为:
其中,SpiderResourceShare为总采集资源的分片数,即当前采集资源被6个等级分成每小时采集的单位份数,SpiderChannelResource为采集资源,即每天可发送请求总量。
S6:将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。
请参阅图3,具体的,调度器将预计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数即LevelSpiderResource,则有:
Level1SpiderResource=SpiderResourceShare*24/24=SpiderResourceShare*1
Level2SpiderResource=SpiderResourceShare*12/24=SpiderResourceShare*0.5
Level3SpiderResource=SpiderResourceShare*6/24=SpiderResourceShare*0.25
Level4SpiderResource=SpiderResourceShare*3/24=SpiderResourceShare*0.125
Level5SpiderResource=SpiderResourceShare*2/24=SpiderResourceShare*0.84
Level6SpiderResource=SpiderResourceShare*1/24=SpiderResourceShare*0.42
至此即可得出每个小时每个等级的采集指标,实现不同分数,采集频率不同,进而达到最优调度。
请参阅图4和图5,根据本实施例提供的方法验证分数计算是否符合预期,以163滚动采集为例,按照算法查看最终结果,结果取整,最终得分结果基本与数据库相近。
本实施例提供的一种日活跃栏目热度计算及调度方法在已知采集资源的情况下,对栏目热度进行分级下发的最优调度算法,并且可以通过配置,动态调整栏目热度分级,无需进行二次请求或额外的请求计算栏目热度,并对栏目进行下发采集,从而达到采集资源利用最优的效果。
实施例二
本实施例提供了一种日活跃栏目热度计算及调度装置,包括:
参数获取模块,用于获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
时间间隔获取模块,用于从数据库中获取所述目标栏目的文章平均发布时间间隔;
第一计算模块,用于根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数;
第二计算模块,用于根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分;
第三计算模块,用于计算采集资源;
调度模块,用于将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。
关于一种日活跃栏目热度计算及调度装置装置的具体限定可以参见上文中对于一种日活跃栏目热度计算及调度装置方法的限定,在此不再赘述。
实施例三
本实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种日活跃栏目热度计算及调度装置方法的步骤。
实施例四
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种日活跃栏目热度计算及调度装置方法的步骤。
以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。
上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解,基于本申请的技术构思,还可以对这些具体实施例作出若干常规的调整或进一步的创新;但只要未脱离本申请的技术构思,这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。
Claims (4)
1.一种日活跃栏目热度计算及调度方法,其特征在于,包括:
获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
从数据库中获取所述目标栏目的文章平均发布时间间隔;
根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数;
根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分,根据所述目标栏目的最终得分和原有得分的均值划分栏目等级;
计算采集资源;
将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数;
所述每小时爬虫有效系数是根据第一公式计算得到的;
所述第一公式为:
其中,HSEC为每小时爬虫有效系数,
NewArticleCount为目标栏目采集到的新文章总数,
ArticleCount为目标栏目的文章总数,
Max(NewArticlePublicTime)为目标栏目中新文章的最晚发布时间,
Min(NewArticlePublicTime)为目标栏目中新文章的最早发布时间,
Max(ArticlePublicTime)为目标栏目中所有文章的最晚发布时间,
Min(ArticlePublicTime)为目标栏目页中所有文章的最早发布时间;
所述文章价值系数是根据第二公式计算得到的,所述第二公式为:
其中,AriceleValueEffectiveCoefficient为文章价值系数,
TitleLengthFactor为最有价值文章标题长度,
Sum(NewArticleTitleList)为目标栏目的新文章标题集合的文字总长度,
Count(NewArticleTitleList)为目标栏目的新文章标题个数;
所述最有价值文章标题长度为18;
所述发布时间间隔系数是根据第三公式计算得到的,所述第三公式为:
其中,PTIC为发布时间间隔系数,Avg(NewArticlePublicTimeList)为目标栏目新文章发布时间平均间隔,0.6为目标栏目新文章发布时间平均间隔的权重系数,OldArticlePublicTimeAvg为目标栏目历史文章发布时间平均间隔,0.4为目标栏目历史文章发布时间平均间隔的权重系数;
所述目标栏目的最终得分是根据第四公式计算得到的,所述第四公式为:
ChannelValue=HSEC*40
+AriceleValueEffectiveCoefficient*20
+PTIC*30
+Random(0,1)*10
其中,ChannelValue为目标栏目的最终得分,Random(0,1)为随机干预系数;
所述采集资源是根据第五公式计算得到的,所述第五公式为:
其中,SpiderChannelResource为采集资源,SpiderResourceShare为总采集资源的分片数。
2.一种日活跃栏目热度计算及调度装置,其特征在于,所述日活跃栏目热度计算及调度装置用于实现权利要求1所述的日活跃栏目热度计算及调度方法,包括:
参数获取模块,用于获取目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性;
时间间隔获取模块,用于从数据库中获取所述目标栏目的文章平均发布时间间隔;
第一计算模块,用于根据所述目标栏目的历史文章URL集合、历史文章发布时间属性、历史文章标题属性、新文章URL集合、新文章发布时间属性和新文章标题属性以及所述文章平均发布时间间隔计算得到每小时爬虫有效系数、文章价值系数和发布时间间隔系数;
第二计算模块,用于根据所述每小时爬虫有效系数、所述文章价值系数和所述发布时间间隔系数得到所述目标栏目的最终得分,根据所述目标栏目的最终得分和原有得分的均值划分栏目等级;
第三计算模块,用于计算采集资源;
调度模块,用于将计算好的采集资源按照栏目等级均分,得到每等级每小时采集份数。
3.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310151309.XA CN116401435B (zh) | 2023-02-22 | 2023-02-22 | 一种日活跃栏目热度计算及调度方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310151309.XA CN116401435B (zh) | 2023-02-22 | 2023-02-22 | 一种日活跃栏目热度计算及调度方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116401435A CN116401435A (zh) | 2023-07-07 |
CN116401435B true CN116401435B (zh) | 2023-11-10 |
Family
ID=87018626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310151309.XA Active CN116401435B (zh) | 2023-02-22 | 2023-02-22 | 一种日活跃栏目热度计算及调度方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116401435B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
CN102541912A (zh) * | 2010-12-17 | 2012-07-04 | 北大方正集团有限公司 | 一种网络文章传播影响力的评价系统及方法 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108984667A (zh) * | 2018-06-29 | 2018-12-11 | 郑州中博奥信息技术有限公司 | 一种舆情监测系统 |
CN110580246A (zh) * | 2019-07-30 | 2019-12-17 | 平安科技(深圳)有限公司 | 迁徙数据的方法、装置、计算机设备及存储介质 |
CN110750212A (zh) * | 2019-09-06 | 2020-02-04 | 中国平安财产保险股份有限公司 | 文章发布方法、装置、计算机设备及存储介质 |
CN111782640A (zh) * | 2020-09-04 | 2020-10-16 | 苏州浪潮智能科技有限公司 | 一种云平台的数据处理方法、系统、电子设备及存储介质 |
CN112052394A (zh) * | 2020-09-10 | 2020-12-08 | 上海梅斯医药科技有限公司 | 专业内容信息的推荐方法、系统、终端设备和存储介质 |
CN113951903A (zh) * | 2021-10-29 | 2022-01-21 | 西南交通大学 | 基于脑电数据测定的高速铁路调度员超负荷状态识别方法 |
CN113987320A (zh) * | 2021-11-24 | 2022-01-28 | 宁波深擎信息科技有限公司 | 基于智能页面解析的实时资讯爬虫方法、装置及设备 |
CN114417200A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 网络数据的采集方法、装置及电子设备 |
CN114513687A (zh) * | 2022-02-14 | 2022-05-17 | 青岛聚看云科技有限公司 | 服务器及媒资推荐方法 |
CN114650409A (zh) * | 2020-12-18 | 2022-06-21 | 飞思达技术(北京)有限公司 | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 |
-
2023
- 2023-02-22 CN CN202310151309.XA patent/CN116401435B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
CN102541912A (zh) * | 2010-12-17 | 2012-07-04 | 北大方正集团有限公司 | 一种网络文章传播影响力的评价系统及方法 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108984667A (zh) * | 2018-06-29 | 2018-12-11 | 郑州中博奥信息技术有限公司 | 一种舆情监测系统 |
CN110580246A (zh) * | 2019-07-30 | 2019-12-17 | 平安科技(深圳)有限公司 | 迁徙数据的方法、装置、计算机设备及存储介质 |
CN110750212A (zh) * | 2019-09-06 | 2020-02-04 | 中国平安财产保险股份有限公司 | 文章发布方法、装置、计算机设备及存储介质 |
CN111782640A (zh) * | 2020-09-04 | 2020-10-16 | 苏州浪潮智能科技有限公司 | 一种云平台的数据处理方法、系统、电子设备及存储介质 |
CN112052394A (zh) * | 2020-09-10 | 2020-12-08 | 上海梅斯医药科技有限公司 | 专业内容信息的推荐方法、系统、终端设备和存储介质 |
CN114650409A (zh) * | 2020-12-18 | 2022-06-21 | 飞思达技术(北京)有限公司 | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 |
CN113951903A (zh) * | 2021-10-29 | 2022-01-21 | 西南交通大学 | 基于脑电数据测定的高速铁路调度员超负荷状态识别方法 |
CN113987320A (zh) * | 2021-11-24 | 2022-01-28 | 宁波深擎信息科技有限公司 | 基于智能页面解析的实时资讯爬虫方法、装置及设备 |
CN114417200A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 网络数据的采集方法、装置及电子设备 |
CN114513687A (zh) * | 2022-02-14 | 2022-05-17 | 青岛聚看云科技有限公司 | 服务器及媒资推荐方法 |
Non-Patent Citations (2)
Title |
---|
Origami-Inspired Modules Enable A Reconfigurable Robot with Programmable Shapes and Motions;Zhe Chen等;《IEEE/ASME Transactions on Mechatronics》;2016-2025 * |
基于微博API的分布式抓取技术;陈舜华等;电信科学 * |
Also Published As
Publication number | Publication date |
---|---|
CN116401435A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102880712B (zh) | 一种用于对搜索的网络视频进行排序的方法和系统 | |
CN104077714B (zh) | 访问网站的用户的偏好获取、广告推送方法和系统 | |
CN108460082B (zh) | 一种推荐方法及装置,电子设备 | |
US10348550B2 (en) | Method and system for processing network media information | |
JP4880962B2 (ja) | 広告コンテンツ配信比率算出プログラム、広告コンテンツ配信比率算出方法、広告コンテンツ配信比率算出システム、コンテンツ配信制御システム、広告コンテンツ配信制御システム、広告コンテンツ配信制御方法および広告コンテンツ配信制御プログラム | |
CN102769781B (zh) | 推荐电视节目的方法及装置 | |
CN102542474A (zh) | 查询结果排序方法及装置 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN110717093B (zh) | 一种基于Spark的电影推荐系统及方法 | |
KR20130119246A (ko) | 감성 기반 콘텐츠 추천 장치 및 방법 | |
CN103309894B (zh) | 基于用户属性的搜索实现方法及系统 | |
KR101868729B1 (ko) | 리소스조합 처리방법, 장치, 설비 및 컴퓨터 저장매체 | |
CN104615741B (zh) | 一种基于云计算的冷启动项目推荐的方法及装置 | |
CN110990372A (zh) | 一种维度数据的处理方法及装置、数据查询方法及装置 | |
Cacheda et al. | A case study of distributed information retrieval architectures to index one terabyte of text | |
CN108132964A (zh) | 一种基于用户对项目类评分的协同过滤方法 | |
CA2861898A1 (en) | Download resource recommendation method, system and storage medium | |
CN106776859A (zh) | 基于用户偏好的移动应用App推荐系统 | |
CN105740480A (zh) | 机票推荐方法及系统 | |
CN116401435B (zh) | 一种日活跃栏目热度计算及调度方法和装置 | |
CN109508407A (zh) | 融合时间与兴趣相似度的电视产品推荐方法 | |
CN110570271A (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
CN111145045B (zh) | 一种考虑VaR的电力大用户柔性负荷评估方法及系统 | |
CN110264056B (zh) | 一种电量消耗的分析方法及系统 | |
Shen et al. | A new user similarity measure for collaborative filtering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |