CN108769115A - 分布式rss数据采集方法和系统 - Google Patents

分布式rss数据采集方法和系统 Download PDF

Info

Publication number
CN108769115A
CN108769115A CN201810354384.5A CN201810354384A CN108769115A CN 108769115 A CN108769115 A CN 108769115A CN 201810354384 A CN201810354384 A CN 201810354384A CN 108769115 A CN108769115 A CN 108769115A
Authority
CN
China
Prior art keywords
acquisition
information
module
acquisition node
rss data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810354384.5A
Other languages
English (en)
Inventor
刘晓飞
汪立东
舒琦赟
王慧
俞晓明
赵忠华
刘悦
王卿
程学旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Computing Technology of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Computing Technology of CAS
Priority to CN201810354384.5A priority Critical patent/CN108769115A/zh
Publication of CN108769115A publication Critical patent/CN108769115A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。

Description

分布式RSS数据采集方法和系统
技术领域
本发明涉及网络数据采集和分布式系统管理领域,特别涉及一种分布式 RSS数据采集方法和系统。
背景技术
自媒体时代,网络信息的发布与更新速显著增快,导致使用搜索引擎进行信息的实时更新获取变得越来越困难。对于诸如新闻等频繁更新的数据源,使用搜索引擎更是难以企及它的更新速度。如何应对这些快速的数据更新,是网络监控部门亟待解决的重要问题。简易信息聚合(RSS,Really Simple Syndication)以其结构化特点,在全球广域网(Web,WorldWide Web)应用中越来越受到青睐,它使得网络信息更加结构化。目前RSS已被广泛地应用在新闻网站。RSS的结构化特点使得网络爬虫可以通过跟踪RSS页面的更新并及时捕获更新信息,为解决实时更新的数据获取提供了一条可行的思路。也因此针对RSS的采集技术也如雨后春笋般层出不穷。
然而在为数众多的RSS数据采集技术中,还没有关于大规模,具有可扩展性的RSS数据采集技术,RSS数据采集的采集规模由此受限。
发明内容
针对上述问题,本发明提出一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息,将采集任务分配给该采集节点模块;消息队列,用于用于存储该采集节点模块采集到的该RSS数据;分析模块,用于分析该RSS数据以得到目标数据,以及更新该采集任务的采集任务调度属性;数据库,用于持久化存储该目标数据。
本发明所述的分布式RSS数据采集系统,其中该注册中心具体包括:注册模块,用于获取、保存该采集节点模块信息以生成节点列表,并向该调度模块提供该采集节点模块信息;监听模块,用于监听及响应所有请求,并将该请求交于该注册模块处理;该请求包括新增采集节点模块加入请求、该采集节点模块信息更新请求和该调度模块对该信息拉取请求;交互模块,用于与该采集节点模块进行交互,以判断该采集节点模块的状态,并将判断为失效状态的采集节点模块的信息从该节点列表中删除。
本发明所述的分布式RSS数据采集系统,其中该采集节点模块为运行采集器程序的服务器。
本发明所述的分布式RSS数据采集系统,其中该信息包括该采集节点模块的IP地址、存活信息、物理信息、资源使用信息和任务运行信息。
本发明还涉及一种分布式RSS数据采集方法,包括:
步骤1,通过注册中心收集分布于网络的采集节点模块信息;
步骤2,通过调度模块拉取采集任务;
步骤3,通过该调度模块拉取该信息;
步骤4,根据该信息将该采集任务分配给该采集节点模块;
步骤5,通过该采集节点模块采集该网络上的RSS数据并保存至消息队列;
步骤6,通过分析模块对该RSS数据进行处理;
步骤7,更新该任务的采集任务调度属性;
步骤8,将该目标数据持久化存储至数据库。
本发明所述的分布式RSS数据采集方法,其中所述步骤1具体包括:
步骤11,监听并响应所有请求,并将该请求交于该注册中心进行处理;该请求包括新增采集节点模块加入请求、该信息更新请求和该调度模块对该信息拉取请求;
步骤12,获取、保存该信息以生成节点列表,并向该调度模块提供该信息;
步骤13,与该采集节点模块进行交互以判断该采集节点模块状态,将失效的该采集节点模块的模块信息从该节点列表中删除。
本发明所述的分布式RSS数据采集方法,其中所述步骤4具体包括:
步骤41,设定预测更新时间TF和更新阈值Δt,则根据该采集任务包含的优先级、更新周期和上一次更新时间,将预测在TF-Δt和TF+Δt时间范围内进行更新的该采集任务按该优先级从大到小排序以生成任务队列;
步骤42,根据该信息包含的物理信息、资源使用信息和任务运行信息,获取该采集节点模块的CPU资源余量p和内存资源余量q,得到该采集节点模块的剩余性能M,其中M=m*p+n*q,m、n为采集节点模块性能权重,m> 0,n>0;将该采集节点模块按该剩余性能M从大到小排序以生成采集队列;
步骤43,通过负载均衡算法将该任务队列的采集任务分配给该采集队列的采集节点模块,直到该任务队列为空。
本发明所述的RSS数据采集方法,其中所述步骤7具体包括:
步骤71,获取该采集任务更新参数;该更新参数包括该采集任务的更新次数N、平均更新时间T,以及最近三次该更新周期t1、t2、t3,其中t3为最近一次该更新周期;
步骤72,设定二次函数y=f(x)以满足t1=f(1)、t2=f(2)、t3=f(3),得到t'=f(4),通过该更新参数得到T'=(T*N+t3)/(N+1),则获取下一次更新周期t=a*T'+b*t' 以更新其采集任务调度属性,其中a、b为更新周期权重,a>0、b>0,且a+b=1。
附图说明
图1是本发明的RSS数据采集系统示意图。
图2是本发明的RSS数据采集方法流程图。
图3是本发明的RSS数据采集方法中模块信息保存及更新流程图。
图4是本发明的RSS数据采集方法中采集任务分配流程图。
图5是本发明的RSS数据采集方法中采集任务更新流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的一种分布式RSS数据采集方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
图1是本发明的RSS数据采集系统示意图。如图1所示,于本发明实施例中,分布式RSS数据采集系统主要包括:注册中心、调度模块、采集节点模块、消息队列、分析模块和数据库。
注册中心保存所有采集节点模块的信息,包括节点IP地址、节点存活信息、物理资源信息、资源使用信息和任务运行信息。注册中心主要为调度模块进行任务调度的时候提供数据参考,对于计算能力没有太高的要求,但是对于所存储信息的数据安全性具有一定要求,要尽量避免单点失败的问题,以防止系统失去所有采集节点模块信息以及当前运行任务信息。注册中心运行注册中心服务程序包括一个主线程和两个分线程,并初始化一个数据结构以保存节点列表;主线程用于处理调度模块的信息拉取请求,当调度模块需要获取各个采集节点模块的运行情况时,主线程将节点列表中的资源使用信息等信息发送给调度模块;第一分线程用于实时监听所有外部请求,包括新增采集节点模块的加入请求、节点列表中信息的更新请求以及调度模块对信息的拉取请求等,当其收到请求后对请求进行处理,并根据请求的不同类型进行解析,再交由主线程进行处理;第二分线程用于定时根据内存中保存的数据结构与对应采集节点模块进行交互,询问采集节点模块的任务运行信息,以判断采集节点模块是否会否失效等,如果对询问的回复超时,则认定采集节点模块失效,同时对节点列表进行修改,以保证节点列表是分布式采集网络的正确反映。
采集节点模块是运行采集器程序的一台或多台服务器,是整个系统获取数据的底层节点,其直接从网络上根据统一资源定位符(Uniform Resoure Locator,URL)获取网页等未经处理过的RSS数据,所需带宽相对较大;在执行采集任务时,可根据不同需求灵活的设置采集节点模块的数量和运行参数;设立采集节点模块时,采集节点模块向注册中心报告自己的IP地址,资源情况等信息,注册中心将这些信息保存在本地以供调度模块调度不同RSS 采集任务时作为参考。
调度模块也是一台服务器,通过运行调度程序以执行任务调度算法,此算法根据不同任务的优先级以及不同节点实时的资源消耗情况,合理的将不同的 RSS信源分发到不同的采集节点模块上。调度程序管理了整个RSS数据采集系统的硬件资源分配与任务分发,对于系统的正确,稳定,高效运行起着至关重要的作用,因此在调度模块的选取上,要充分考虑到系统未来的任务增量,充分预估可能会不断增加的资源与任务调度压力,进而选取能够适应一定分布式采集节点模块网络规模的调度模块服务器,保证足够的分布式网络容量。
消息队列负责接收来自各采集节点模块采集完成的RSS数据,进而协调采集节点模块与分析模块之间的工作。
分析模块负责对消息队列中的RSS数据进行结构化抽取,将网页中不同种类,不同意义的信息进行持久化存储至数据库。同时分析各个采集任务的更新周期,任务量等信息动态的对不同RSS采集任务调整优先级。由于分析模块运行网页分析算法,对于计算能力有较高的要求,故考虑到此种情况,运行分析模块的计算机或服务器应具有较高的计算性能与存储性能。
本发明实施例所提供的分布式RSS数据采集系统,存在一个针对于采集节点模块的注册中心,通过保存采集节点模块的信息,使整个系统能够适应分布式网络的动态性;同时注册中心上执行的注册中心服务程序是一个多线程服务程序,使得注册中心能够及时应对各种请求并检测采集节点模块状态,提供了对复杂分布式网络的实时监控能力;注册中心还存在一个能够高效查找与修改的节点信息数据结构,这个数据结构是注册中心处理复杂分布式网络的核心,应对所有的采集节点模块变动情况,使得注册中心进行采集节点模块的监控与信息更新的任务;调度模块是分布式RSS数据采集系统中专用于任务均衡及调度的调度器,根据不同采集节点的硬件信息,节点存活信息等动态的调整不同采集节点模块的任务量,以实现系统的高效稳定运转;调度模块运行了一个针对于RSS任务差异性的任务调度算法,该算法根据不同任务的不同属性的差异性来分配RSS采集任务;由于RSS任务更新的时间不确定性,任务量的不确定性,分析模块与采集节点模块往往不能同步工作,系统中的消息队列就用于协调分析模块与采集节点模块之间的工作,达到实际运行时让分析模块与采集节点模块异步工作的目的;分析模块除分析RSS数据等基本工作外,还采用了数值分析的方法预测RSS数据采集任务本身的调度属性,分析模块根据任务的不同属性的历史数据,进行数据分析,进而动态修改不同属性值,为调度模块进行的任务调度工作提供了任务更新周期,优先级等参考数据;分布式RSS数据采集系统还采用了采集节点模块失效机制:当一个采集节点模块因为各种原因失效,无法再继续执行采集任务,注册中心会实时发现这种变化,并为调度模块进行动态调度提供及时的信息;此外还可以灵活的处理采集节点模块,对采集节点模块进行手动增加及删除,当分布式网络有大量采集节点模块长期闲置时,可手动减少相应采集节点模块,降低成本。
图2是本发明的RSS数据采集方法流程图。如图2所示,本发明实施例所公开的分布式RSS数据采集系统,通过分布式RSS数据采集方法采集并处理RSS数据,包括以下步骤:
步骤S1,注册中心收集并保存所有采集节点模块的信息,生成节点列表;
步骤S2,调度模块拉取采集任务;
步骤S3,调度模块从注册中心拉取采集节点模块的模块信息;
步骤S4,调度模块根据信息向采集节点模块分配采集任务;
步骤S5,采集节点模块采集RSS数据并保存至消息队列;
步骤S6,分析模块对RSS数据进行处理得到目标数据;
步骤S7,分析模块调整采集任务的任务属性;
步骤S8,数据库持久化存储消息队列中的目标数据。
具体来说,步骤S1包括监听请求、保存信息和与采集节点模块交互等步骤。图3是本发明的RSS数据采集方法中模块信息保存及更新流程图。如图3 所示,步骤S1具体包括:
步骤S11,监听并响应所有请求,交于注册中心进行处理;该请求包括新增采集节点模块的加入请求、节点列表中的信息的更新请求和调度模块对信息的拉取请求;
步骤S12,获取、保存信息,并向调度模块提供采集节点模块信息;
步骤S13,与采集节点模块进行交互以判断采集节点模块状态,将失效的采集节点模块从节点列表中删除。
图4是本发明的RSS数据采集方法中采集任务分配流程图。如图4所示,步骤S4具体包括:
步骤S41,对于拉取的任务,判断是否接近其更新时间点,首先根据采集任务包含的优先级、更新周期和上一次更新时间等信息,设定预测更新时间 TF和更新阈值Δt,将预测在TF-Δt和TF+Δt时间范围内进行更新的采集任务纳入调度模块的任务分配过程;将纳入任务分配过程的采集任务,按该优先级从大到小排序以生成任务队列;
步骤S42,根据调度模块从注册中心所拉取的信息中包含的物理资源信息、资源使用信息和任务运行信息,获取所有采集节点模块的CPU资源余量 p和内存资源余量q,得到采集节点模块的剩余性能M=m*p+n*q,其中m、n 为采集节点模块性能权重,m>0,n>0,m与n的大小可动态调整,其相对大小反映了采集器对于不同资源的侧重程序;将采集节点模块按剩余性能M 从大到小排序,生成采集队列;
步骤S43,通过负载均衡算法下发采集任务,即从任务队列的头部取出一个采集任务,从采集队列的头部取出一个采集节点模块,将取出的任务分配给取出的采集节点模块;
步骤S44,将取出的采集任务从任务队列中删除,并更新任务队列;
步骤S45,将这个采集节点模块的剩余资源减去此采集任务需要消耗计算资源与内存资源,即采用步骤S42的方法获取这个取出的采集节点模块的剩余性能M,并将这个采集节点模块再次插入采集队列;
步骤S46,重复步骤S43至步骤S45,直到任务队列为空。
图5是本发明的RSS数据采集方法中采集任务更新流程图。如图5所示,步骤S7具体包括:
步骤S71,获取某采集任务最近三次更新周期t1、t2、t3,更新次数N以及平均更新时间T,其中t3为最近一次更新周期;
步骤S72,设定二次函数y=f(x)以满足t1=f(1)、t2=f(2)、t3=f(3),得到t'=f(4),并得到T'=(T*N+t3)/(N+1),则预测下一次更新周期t=a*T+b*t',以更新采集任务的调度属性,其中a、b为更新周期权重,a>0、b>0,且a+b=1。
本发明利用多台服务器组成的分工明确,具有可扩展性的分布式系统,高效而稳定的对RSS数据进行采集。首先预制一部分RSS采集任务,之后将这些RSS采集任务合理的分配给不同的采集节点模块,各个采集节点模块并行的完成不同的采集任务。将RSS采集任务提交给调度节点,经由调度节点根据采集节点模块的资源使用情况来分配这些新的RSS采集任务。在新的采集节点模块加入进来之后,调度采集节点模块则将某些采集任务分配到这些新采集节点模块上,以减轻现有采集节点模块的负荷。在采集节点模块失效时,能够及时将未完成的任务分配给其他采集节点模块。总体上实现了高稳定性,高并行,分布式采集RSS信息。

Claims (10)

1.一种分布式RSS数据采集系统,其特征在于,包括:
分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;
注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;
调度模块,用于根据该采集节点模块的信息,将采集任务分配给该采集节点模块。
2.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该注册中心具体包括:
注册模块,用于获取、保存该信息以生成节点列表,并向该调度模块提供该信息;
监听模块,用于监听及响应所有请求,并将该请求交于该注册模块处理;该请求包括新增采集节点模块加入请求、该信息更新请求和该调度模块对该信息拉取请求;
交互模块,用于与该采集节点模块进行交互,以判断该采集节点模块的状态,并将判断为失效状态的采集节点模块的信息从该节点列表中删除。
3.如权利要求1所述的分布式RSS数据采集系统,其特征在于,还包括:
消息队列,用于存储该采集节点模块采集到的该RSS数据;
分析模块,用于分析该消息队列的该RSS数据以得到目标数据,以及更新该采集任务的任务调度属性;
数据库,用于持久化存储该目标数据。
4.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该采集节点模块为运行采集器程序的服务器。
5.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该信息包括该采集节点模块的IP地址、存活信息、物理资源信息、资源使用信息和任务运行信息。
6.一种分布式RSS数据采集方法,通过如权利要求1~5任一项所述的分布式RSS数据采集系统采集网络上的RSS数据,其特征在于,包括:
步骤1,通过注册中心收集分布于网络的采集节点模块的信息;
步骤2,通过调度模块拉取采集任务;
步骤3,通过该调度模块拉取该采集节点的信息;
步骤4,根据该信息将该采集任务分配给该采集节点模块;
步骤5,通过该采集节点模块采集该网络上的RSS数据并保存至消息队列。
7.如权利要求6所述的分布式RSS数据采集方法,其特征在于,所述步骤1具体包括:
步骤11,监听并响应所有请求,并将该请求交于该注册中心进行处理;该请求包括新增采集节点模块加入请求、该采集节点模块的信息更新请求和该调度模块对该信息的拉取请求;
步骤12,获取、保存该信息以生成节点列表,并向该调度模块提供该信息;
步骤13,与该采集节点模块进行交互以判断该采集节点模块状态,将失效的采集节点模块的信息从该节点列表中删除。
8.如权利要求6所述的分布式RSS数据采集方法,其特征在于,所述步骤4具体包括:
步骤41,设定预测更新时间TF和更新阈值Δt,则根据该采集任务包含的优先级、更新周期和上一次更新时间,将预测在TF-Δt和TF+Δt时间范围内进行更新的该采集任务按该优先级从大到小排序以生成任务队列;
步骤42,根据该信息包含的物理资源信息、资源使用信息和任务运行信息,获取该采集节点模块的CPU资源余量p和内存资源余量q,得到该采集节点模块的剩余资源M,其中M=m*p+n*q,m、n为采集节点模块CPU,内存影响因子权重,m>0,n>0;将该采集节点模块按该剩余资源M从大到小排序;
步骤43,通过负载均衡算法将任务队列的采集任务依次取出分配给该采集节点模块,直到该任务队列为空。
9.如权利要求6所述的分布式RSS数据采集方法,其特征在于,还包括:
步骤6,通过分析模块对该RSS数据进行处理,得到目标数据;
步骤7,分析计算,更新采集任务调度属性;
步骤8,将RSS采集到的数据持久化存储至数据库。
10.如权利要求9所述的RSS数据采集方法,其特征在于,所述步骤7具体包括:
步骤71,根据得到的目标数据分析采集任务属性信息;目标数据包括该采集任务的更新次数N、平均更新时间T,以及最近三次该更新周期t1、t2、t3,其中t3为最近一次该更新周期;
步骤72,设定二次函数y=f(x)以满足t1=f(1)、t2=f(2)、t3=f(3),得到t'=f(4),通过该更新参数得到T'=(T*N+t3)/(N+1),则获取下一次更新周期t=a*T'+b*t',其中a、b为更新周期权重,a>0、b>0,且a+b=1。更新采集任务调度属性。
CN201810354384.5A 2018-04-19 2018-04-19 分布式rss数据采集方法和系统 Pending CN108769115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810354384.5A CN108769115A (zh) 2018-04-19 2018-04-19 分布式rss数据采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810354384.5A CN108769115A (zh) 2018-04-19 2018-04-19 分布式rss数据采集方法和系统

Publications (1)

Publication Number Publication Date
CN108769115A true CN108769115A (zh) 2018-11-06

Family

ID=64011325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810354384.5A Pending CN108769115A (zh) 2018-04-19 2018-04-19 分布式rss数据采集方法和系统

Country Status (1)

Country Link
CN (1) CN108769115A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109814992A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 用于大规模网络数据采集的分布式动态调度方法和系统
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN109819019A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 用于大规模网络数据采集的监控与统计分析方法和系统
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和系统
CN109951376A (zh) * 2019-02-28 2019-06-28 北京蒂斯科技有限公司 一种即时通讯软件信息采集方法、装置、系统及存储介质
CN111224817A (zh) * 2020-04-21 2020-06-02 重庆鲲量科技有限公司 一种分布式微采集系统及其方法
CN111522646A (zh) * 2020-04-30 2020-08-11 北京江融信科技有限公司 用于批次调度中心与批次应用服务之间的注册方法及系统
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统
CN111638964A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 一种集中式互联网数据采集系统及采集方法
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质
CN113112366A (zh) * 2021-04-09 2021-07-13 上海中汇亿达金融信息技术有限公司 分布式数据总线
CN113626674A (zh) * 2021-08-03 2021-11-09 杭州隆埠科技有限公司 新闻采集系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103369054A (zh) * 2013-07-30 2013-10-23 北京搜狐新媒体信息技术有限公司 一种采集任务管理方法及系统
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN106126346A (zh) * 2016-07-05 2016-11-16 东北大学 一种大规模分布式数据采集系统及方法
CN106874424A (zh) * 2017-01-25 2017-06-20 杭州淘淘搜科技有限公司 一种基于MongoDB和Redis的网页数据采集处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103369054A (zh) * 2013-07-30 2013-10-23 北京搜狐新媒体信息技术有限公司 一种采集任务管理方法及系统
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN106126346A (zh) * 2016-07-05 2016-11-16 东北大学 一种大规模分布式数据采集系统及方法
CN106874424A (zh) * 2017-01-25 2017-06-20 杭州淘淘搜科技有限公司 一种基于MongoDB和Redis的网页数据采集处理方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819019B (zh) * 2018-12-29 2021-04-27 中国科学院计算技术研究所 用于大规模网络数据采集的监控与统计分析方法和系统
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN109819019A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 用于大规模网络数据采集的监控与统计分析方法和系统
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和系统
CN109814992A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 用于大规模网络数据采集的分布式动态调度方法和系统
CN109951376A (zh) * 2019-02-28 2019-06-28 北京蒂斯科技有限公司 一种即时通讯软件信息采集方法、装置、系统及存储介质
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统
CN111224817A (zh) * 2020-04-21 2020-06-02 重庆鲲量科技有限公司 一种分布式微采集系统及其方法
CN111522646A (zh) * 2020-04-30 2020-08-11 北京江融信科技有限公司 用于批次调度中心与批次应用服务之间的注册方法及系统
CN111638964A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 一种集中式互联网数据采集系统及采集方法
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质
CN113112366A (zh) * 2021-04-09 2021-07-13 上海中汇亿达金融信息技术有限公司 分布式数据总线
CN113626674A (zh) * 2021-08-03 2021-11-09 杭州隆埠科技有限公司 新闻采集系统

Similar Documents

Publication Publication Date Title
CN108769115A (zh) 分布式rss数据采集方法和系统
Bhattacharjee et al. Barista: Efficient and scalable serverless serving system for deep learning prediction services
CN109491790A (zh) 基于容器的工业物联网边缘计算资源分配方法及系统
CN111541746B (zh) 面向用户需求变化的多版本并存的微服务自适应方法
KR20150112357A (ko) 센서 데이터 처리 시스템 및 방법
Eskandari et al. T3-scheduler: A topology and traffic aware two-level scheduler for stream processing systems in a heterogeneous cluster
CN104298550A (zh) 一种面向Hadoop的动态调度方法
CN102193832A (zh) 云端计算资源排程方法与应用的系统
CN102227121A (zh) 基于机器学习的分布式缓存策略自适应切换方法及系统
CN110086855B (zh) 基于蚁群算法的Spark任务智能感知调度方法
CN109478147A (zh) 分布式计算系统中的自适应资源管理
CN113971066A (zh) 一种Kubernetes集群资源动态调整方法及电子设备
CN109460301B (zh) 一种流数据负载的弹性资源配置方法及系统
US6473721B1 (en) Factory traffic monitoring and analysis apparatus and method
CN109257422B (zh) 感知网络信息重构方法
Banerjee et al. Efficient resource utilization using multi-step-ahead workload prediction technique in cloud
CN101256599A (zh) 基于网格的分布仿真平台数据收集系统
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
US20090144011A1 (en) One-pass sampling of hierarchically organized sensors
CN114706675A (zh) 基于云边协同系统的任务部署方法及装置
CN116755867B (zh) 一种面向卫星云的计算资源调度系统、方法及存储介质
US6990664B2 (en) System and method for managing a workflow process
CN113568747A (zh) 基于任务分类与时序预测的云机器人资源调度方法及系统
CN109936471A (zh) 一种多集群的资源分配方法和装置
Zhang et al. Two-level task scheduling with multi-objectives in geo-distributed and large-scale SaaS cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181106