CN108595666B - 动态计算新闻采集服务资源的方法、信息数据处理终端 - Google Patents

动态计算新闻采集服务资源的方法、信息数据处理终端 Download PDF

Info

Publication number
CN108595666B
CN108595666B CN201810402356.6A CN201810402356A CN108595666B CN 108595666 B CN108595666 B CN 108595666B CN 201810402356 A CN201810402356 A CN 201810402356A CN 108595666 B CN108595666 B CN 108595666B
Authority
CN
China
Prior art keywords
website
acquisition
resources
dynamically
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810402356.6A
Other languages
English (en)
Other versions
CN108595666A (zh
Inventor
詹咏松
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN201810402356.6A priority Critical patent/CN108595666B/zh
Publication of CN108595666A publication Critical patent/CN108595666A/zh
Application granted granted Critical
Publication of CN108595666B publication Critical patent/CN108595666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种动态计算新闻采集服务资源的方法、信息数据处理终端,通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,降低采集资源。通过历史数据,实时采集量,突发时间预警,人为因素调节等多个因子对要采集的目标动态调整服务器资源和带宽等资源,在采集目标增量时增加服务器和带宽等资源,确认对采集目标及时准确采集,在采集目标减量时,释放不必要的资源,节约成本。本发明的服务器可以释放10‑20%的cpu资源,节约10‑15%的内存。特别是针对流量计费的带宽效果更明显,减少30%‑40%的网络带宽消耗。本发明属于国内外的技术空白,对于推动业内的发展具有重大的意义。

Description

动态计算新闻采集服务资源的方法、信息数据处理终端
技术领域
本发明属于计算机软件技术领域,尤其涉及一种动态计算新闻采集服务资源的方法、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:新闻网站每天更新数据频繁,站点数量众多,需要大量的服务器/带宽/ip资源进行采集,每一项都会涉及大量的成本;对新闻网站采集频率低,容易遗漏采集新闻;采集频率高,需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理ip进行采集。现有采集系统一般会按单一频率采集,优秀的系统会采用分级管理,对网站进行简单分类,针对每一类进行固定频率采集。
综上所述,现有技术存在的问题是:
(1)在目标网站发布新闻低的时候,还需要占用大量的服务器/带宽资源,造成了资源浪费。
(2)在出现突发新闻事件/新闻发布频率加快的时候,在既定的采集频率下,采集新闻实效慢&容易丢失新闻。
(3)固定采集频率,需要在以采集优先和资源节约两个策略中选择,无论选择那种的固定采集频率方案都有技术缺陷,固定采集频率采用单一频率采集,而目标网站数据量随时间发布不同,所以固定采集频率无法彻底解决采集效率和服务器资源节约,受限于技术方案无法彻底解决。
解决上述技术问题的难度和意义:如何用最少的资源获得满意的采集效果,是本发明需要解决的。本发明通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。
发明内容
针对现有技术存在的问题,本发明提供了一种动态计算新闻采集服务资源的方法、信息数据处理终端。
本发明是这样实现的,一种动态计算新闻采集服务资源的方法,根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源。
进一步,所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过系统动态计算网站采集数量,作为参数提供;
步骤五,调节系统的敏感度,遇到新闻突发,人为调节,增大系统的敏感性;
步骤六,调节系统的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,系统变量设为s。
所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性。
所述步骤六进一步包括:
Figure BDA0001646020260000021
其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:
S=s1*a/λn-1
a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;
如果S>=2则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1;
分析动态计算网站采集频率:
Figure BDA0001646020260000031
根据F的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
本发明的另一目的在于提供一种所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的系统,所述动态计算新闻采集服务资源的系统包括:
历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;
网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;
网站现有采集频率模块,默认网站的采集频率,初始值;
网站单位时间采集数量模块,通过系统动态计算网站采集数量,作为参数提供;
人为调节因子模块,人为的调节系统的敏感度;
自动调节因子模块,自动调节系统的敏感度。
本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的计算机程序。
本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的信息数据处理终端,所述信息数据处理终端为论坛采集系统、社交媒体采集系统。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的动态计算新闻采集服务资源的方法。
综上所述,本发明的优点及积极效果为:服务器平均可以释放10-20%的cpu资源,节约10-15%的内存。特别是带宽效果更明显,可以减少30%-40%的网络带宽消耗。
采集服务器资源 固定采集频率 动态调整采集频率
空闲时cpu 40-50% 10%-15%
繁忙时cpu 40-60% 40-50%
空闲时内存 50-60% 20-40%
繁忙时内存 50-60% 50%-60%
空闲时带宽 3-4兆 1-2兆
繁忙时带宽 4-5兆 5-6兆
本发明的技术方案弥补了国内外的技术空白,国内外没有相关资料,对于推动业内的发展具有重大的意义。本技术方案需要在大规模采集系统部署情况下进行研究,需要有足够多的历史大数据(Tb级别),采集长期的历史数据(数年)作为研究技术,技术研究基础门槛高,一般公司没有足够多数据和资源进行研究。采集服务器资源少,对系统采用此算法,效果不如大规模数据服务器明显,单台服务器性能提高性价比不高,因为本算法需要投入一定服务器计算资源,只有在大规模服务器部署情况下才会取得良好效果。
附图说明
图1是本发明实施例提供的动态计算新闻采集服务资源的方法流程图。
图2是本发明实施例提供的动态计算新闻采集服务资源的系统结构示意图;
图中:1、历史记录模块;2、网站权重模块;3、网站现有采集频率模块;4、网站单位时间采集数量模块;5、人为调节因子模块;6、自动调节因子模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供的动态计算新闻采集服务资源的方法包括以下步骤:
S101:计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
S102:根据网站的重要性,给不同的网站设定不同的权重;
S103:默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
S104:通过系统动态计算网站采集数量,作为参数提供;
S105:调节系统的敏感度,遇到新闻突发,人为调节,增大系统的敏感性;
S106:调节系统的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。系统变量设为s。
如图2所示,本发明实施例提供的本发明实施例提供的动态计算新闻采集服务资源的系统包括:
历史记录模块1,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量(如一小时,或者15分钟,数值越小精度越高,但是消耗系统计算资源),作为横向对比数值,以上一年的历史量为准。变量设为h。
网站权重模块2,根据网站的重要性,给不同的网站设定不同的权重,重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低。权重变量为w。w1-w5取值范围为0-2之间。如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性。实际应用中可以根据不同的类型网站进行调整。
网站现有采集频率模块3,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响。默认情况情况下,网站初始值为网站最低采集频率。频率变量设为f,系统根据采集系统模式,可以分为多档采集频率,如f1,f2,f3,f4,f5。f1为频率最低,f5为频率最高。
网站单位时间采集数量模块4,通过系统动态计算网站采集数量,作为参数提供。采集变量设为c。时间单位需要跟历史记录采用时间相对应,比如历史按小时统计,则网站也要按小时进行统计,为提高精度可以提高单位间隔,如从1小时提升到15分钟。按我们调研需要评估,1小时的时间间隔可以满足系统需求。
人为调节因子模块5,调节系统的敏感度,如果不调节调节因子设为1,表示完全依赖系统调节,没有人为干预。如果遇到可能会有新闻突发,如国内两会期间,奥运会期间等可以结合历史情况预测网站新闻会增长,可以认为调节,增大系统的敏感性。也可以结合历史情况,在通新闻量少期间降低敏感性,减少服务器资源消耗。参数变量设为p(0<p<2)。P>1表示提高系统敏感度,p<1,表示降低系统敏感度。例如奥运会期间可以提高p的值,增大系统敏感性。
自动调节因子模块6,调节系统的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。系统变量设为s。
Figure BDA0001646020260000071
其中λ按斐波那列数列取值(斐波那契数列指的是这样一个数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和。);k从历史数据最早时刻取值,取到最新一年的数据。
S=s1*a/λn-1
a为经验值取值范围为0-1之间,主要是调节系数,控制历史数据影响力。
如果S>=2,则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1。
分析动态计算网站采集频率:
Figure BDA0001646020260000072
根据F的值,调节是否提升采集频率。根据服务器的配置不同,采集能力不同,可以评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种动态计算新闻采集服务资源的方法,其特征在于,所述动态计算新闻采集服务资源的方法根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源;
所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量h,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重w;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过系统动态计算网站采集数量c,作为参数提供;
步骤五,调节系统的敏感度p,遇到新闻突发,人为调节,增大系统的敏感性;
步骤六,调节系统的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,系统变量设为s;
所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性;
所述步骤六进一步包括:
Figure FDA0003335352320000011
其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:
S=s1*a/λn-1
a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;
如果S>=2则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1;
分析动态计算网站采集频率:
Figure FDA0003335352320000021
根据F的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量;低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
2.一种如权利要求1所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的系统,其特征在于,所述动态计算新闻采集服务资源的系统包括:
历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;
网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;
网站现有采集频率模块,默认网站的采集频率,初始值;
网站单位时间采集数量模块,通过系统动态计算网站采集数量,作为参数提供;
人为调节因子模块,人为的调节系统的敏感度;
自动调节因子模块,自动调节系统的敏感度。
3.一种实现权利要求1所述动态计算新闻采集服务资源的方法的信息数据处理终端,其特征在于,所述信息数据处理终端为论坛采集系统、社交媒体采集系统。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的动态计算新闻采集服务资源的方法。
CN201810402356.6A 2018-04-28 2018-04-28 动态计算新闻采集服务资源的方法、信息数据处理终端 Active CN108595666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810402356.6A CN108595666B (zh) 2018-04-28 2018-04-28 动态计算新闻采集服务资源的方法、信息数据处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810402356.6A CN108595666B (zh) 2018-04-28 2018-04-28 动态计算新闻采集服务资源的方法、信息数据处理终端

Publications (2)

Publication Number Publication Date
CN108595666A CN108595666A (zh) 2018-09-28
CN108595666B true CN108595666B (zh) 2022-03-29

Family

ID=63619274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810402356.6A Active CN108595666B (zh) 2018-04-28 2018-04-28 动态计算新闻采集服务资源的方法、信息数据处理终端

Country Status (1)

Country Link
CN (1) CN108595666B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325104B (zh) * 2018-10-30 2021-11-19 中译语通科技股份有限公司 一种动态计算新闻采集服务资源的方法
CN113111439B (zh) * 2021-04-21 2022-10-21 江南造船(集团)有限责任公司 基于通信网络的船舶焊接管控系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786962A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 基于新闻传播力的大数据指数分析方法及系统
CN106649578A (zh) * 2016-11-17 2017-05-10 华北理工大学 一种基于社交网络平台的舆情分析方法及系统
CN107566550A (zh) * 2017-10-13 2018-01-09 北京中教在线科技有限公司 一种网站url动态生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333798B2 (en) * 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US9325800B1 (en) * 2014-12-18 2016-04-26 International Business Machines Corporation Generating a visitation schedule

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786962A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 基于新闻传播力的大数据指数分析方法及系统
CN106649578A (zh) * 2016-11-17 2017-05-10 华北理工大学 一种基于社交网络平台的舆情分析方法及系统
CN107566550A (zh) * 2017-10-13 2018-01-09 北京中教在线科技有限公司 一种网站url动态生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
突发事件网络舆情数据采集与抽取技术研究;陈翰;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20130615;I139-223 *

Also Published As

Publication number Publication date
CN108595666A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108770017B (zh) 一种无线资源动态均衡方法及系统
CN108595666B (zh) 动态计算新闻采集服务资源的方法、信息数据处理终端
CN109391950B (zh) 终端分布的预测方法、装置、设备及介质
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
CN110677854A (zh) 载频容量调整的方法、装置、设备和介质
CN103516912B (zh) 一种移动终端定位省电方法
EP3780824A1 (en) Radio frequency resource allocation method, apparatus, device and system, and storage medium
WO2017054422A1 (zh) 小区忙时段管理方法、装置及自组织网络网元
CN104093197A (zh) 一种移动互联网中的设备节能方法及系统
CN103078933A (zh) 一种确定数据迁移时机的方法和装置
CN114786268A (zh) 数据传输带宽调整方法、装置、电子设备及存储介质
CN111142647A (zh) 一种it系统的节能方法及系统
CN103530335A (zh) 电力计量采集系统的入库操作方法及装置
CN108521657B (zh) 多业务数字分布系统上行底噪优化方法、装置和系统
CN111309442B (zh) 微服务容器数量的调整方法、装置、系统、介质及设备
CN112820091B (zh) 电能质量数据传输方法、装置、终端设备和介质
CN113133035A (zh) 一种lte高负荷小区甄别方法及系统
CN100353795C (zh) 一种无线资源管理的公共测量方法
CN114143263B (zh) 一种对用户请求进行限流的方法、设备及介质
CN113891336A (zh) 通信网络减频退网方法、装置、计算机设备和存储介质
CN111278039A (zh) 用户感知压抑识别方法、装置、设备及介质
CN113949563A (zh) 一种基于策略的数据服务器资源访问控制方法
CN114189904A (zh) 一种lte载频资源调度方法及装置
CN109325104B (zh) 一种动态计算新闻采集服务资源的方法
CN113556372A (zh) 数据传输方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant