CN105608220A - 一种基于分布式消息系统的采集方法及装置 - Google Patents

一种基于分布式消息系统的采集方法及装置 Download PDF

Info

Publication number
CN105608220A
CN105608220A CN201610012677.6A CN201610012677A CN105608220A CN 105608220 A CN105608220 A CN 105608220A CN 201610012677 A CN201610012677 A CN 201610012677A CN 105608220 A CN105608220 A CN 105608220A
Authority
CN
China
Prior art keywords
acquisition
node
distributed information
task
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610012677.6A
Other languages
English (en)
Inventor
张裕超
王传超
孙海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610012677.6A priority Critical patent/CN105608220A/zh
Publication of CN105608220A publication Critical patent/CN105608220A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种基于分布式消息系统的采集方法及装置,其中方法可以包括:建立自动分配规则;接收所述管理端向所述任务主题发送的目标采集任务;根据自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使至少一个采集节点根据所述目标采集任务执行数据的采集;接收至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务;重复执行接收步骤和发送步骤,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。本发明能够实现自动分配采集任务,提高采集效率。

Description

一种基于分布式消息系统的采集方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于分布式消息系统的采集方法及装置。
背景技术
随着互联网的飞速发展,大数据这个概念越来越受到人们的关注。企业可以通过网络爬虫采集互联网中的数据,并且对数据进行深加工找出更有价值的数据分析结果,并通过分析结果提供决策支持,驱动企业的加速发展。
传统的数据采集方式通过爬取采集任务的列表URL,人工将列表URL分配到采集节点进行采集。
可见,传统的采集方式需要人工分配采集任务,效率较低。
发明内容
本发明提供一种基于分布式消息系统的采集方法及装置,能够自动分配采集任务。
第一方面,本发明实施例提供了一种基于分布式消息系统的采集方法,应用于分布式消息系统,其中,所述分布式消息系统连接有至少一个采集节点及管理端,并配置任务主题,还包括:
建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
接收所述管理端向所述任务主题发送的目标采集任务;
根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并执行根据所述自动分配规则发送所述目标采集任务步骤;
重复执行接收所述管理端向所述任务主题发送的目标采集任务步骤和根据所述自动分配规则发送所述目标采集任务步骤步骤,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
优选地,
所述自动分配规则进一步包括:按均分配子规则;
其中,所述发送所述采集任务至所述至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
优选地,进一步包括:
配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;
接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,通过分布式日志系统分析和统计采集状况。
第二方面,本发明实施例提出了一种基于分布式消息系统的采集方法,应用于采集节点,所述采集节点连接有分布式消息系统,还包括:
接收所述分布式消息系统发送的目标采集任务;
判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并执行上一步;否则,执行下一步;
爬取所述目标采集任务,并存储爬取到的数据;
重复执行判断步骤和爬取步骤,直至所述目标采集任务中不包括列表URL。
第三方面,本发明实施例提出了一种分布式消息系统,连接有至少一个采集节点及管理端,还包括:
配置模块,用于配置任务主题:
建立模块,用于建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
接收模块,用于接收所述管理端向所述任务主题发送的目标采集任务,将所述目标采集任务输出给发送模块;
发送模块,用于根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
处理模块,用于接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并触发发送模块;
循环模块,用于重复触发发送模块和处理模块,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
优选地,进一步包括:
规则定义模块,用于定义自动分配规则的按均分配子规则;
所述发送所述采集任务至所述至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
优选地,进一步包括:
日志配置模块,用于配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;
日志接收模块,用于接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,通过分布式日志系统分析和统计采集状况。
第四方面,本发明实施例提出了一种采集节点,连接有分布式消息系统,还包括:
任务接收模块,用于接收所述分布式消息系统发送的目标采集任务,将所述目标采集任务输出给判断模块;
判断模块,用于判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并触发任务接收模块;否则,触发爬取模块;
爬取模块,用于爬取所述目标采集任务,并存储爬取到的数据;
循环模块,用于重复触发判断模块和爬取模块,直至所述目标采集任务中不包括列表URL。
本发明实施例提出的基于分布式消息系统的采集方法及装置,分布式消息系统通过接收管理端和采集节点发送的采集任务,根据自动采集规则自动分配采集任务到采集节点,从而可以实现自动分配采集任务,提高采集效率。
附图说明
图1是本发明实施例提供的方法流程图;
图2是本发明另一实施例提供的方法流程图;
图3是本发明又一实施例提供的方法流程图;
图4是本发明实施例提供的分布式消息系统结构示意图;
图5是本发明另一实施例提供的分布式消息系统结构示意图;
图6是本发明又一实施例提供的分布式消息系统结构示意图;
图7是本发明实施例提供的采集节点结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于分布式消息系统的采集方法,应用于分布式消息系统,其中,所述分布式消息系统连接有至少一个采集节点及管理端,如图1所示,该方法可以包括以下步骤:
步骤101::配置任务主题;
步骤102:建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
步骤103:接收所述管理端向所述任务主题发送的目标采集任务;
步骤104:根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
步骤105:接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并执行步骤104;
步骤106:重复执行步骤104-105,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
可见,由于在本发明实施例提出的基于分布式消息系统的采集方法,分布式消息系统通过建立自动分配规则,当任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务,从而实现自动分配采集任务,提高采集效率。
在本发明一个优选实施例中,为了实现采集任务的平均分配,所以所述自动分配规则进一步包括:按均分配子规则;
所述发送所述采集任务至所述至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量,从而可以使采集任务平均分配到每一个采集节点。
在本发明一个优选实施例中,为了监控和分析采集任务,进一步包括:配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,从而可以通过分布式日志系统分析和统计采集状况,实现采集任务的监控和分析。
本发明实施例提供了一种基于分布式消息系统的采集方法,应用于采集节点,所述采集节点连接有分布式消息系统,如图2所示,该方法可以包括以下步骤:
步骤201:接收所述分布式消息系统发送的目标采集任务;
步骤202:判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并执行步骤201;否则,执行步骤203;
步骤203:爬取所述目标采集任务,并存储爬取到的数据;
步骤204:重复执行步骤步骤202-203,直至所述目标采集任务中不包括列表URL。
可见,由于在本发明实施例提出的基于分布式消息系统的采集方法,采集节点通过将子任务发送给分布式消息系统,使得分布式消息系统将子任务作为目标采集任务,从而触发自动分配规则,从而实现自动分配采集任务,提高采集效率。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
本发明实施例提供了一种基于分布式消息系统的采集方法,如图3所示,该方法包括以下实现过程:
步骤301:分布式消息系统配置任务主题和日志主题。
在本实施例中,分布式消息系统的多个消息系统之间可以进行联系和共享,例如kafka等分布式消息系统都可以在本实施例中应用。
在本实施例中,任务主题用于进行与采集任务相关的步骤;日志主题用于进行与采集日志等相关的步骤。
步骤302:分布式消息系统建立自动分配规则。
自动分配规则包括两个规则,规则1为自动分配规则,用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;规则2为按均分配规则,用于在发送采集任务至至少一个采集节点时,确定每一个采集节点所包括的当前任务量,并根据采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
在本实施例中,可以根据自动分配规则和按均分配规则自动将目标采集任务均等分配到采集节点。
步骤303:分布式消息管理系统接收管理端向任务主题发送的目标采集任务。
在本实施例中,目标采集任务包括列表URL和明细URL。
步骤304:分布式消息管理系统根据自动分配规则发送目标采集任务至至少一个采集节点。
在本实施例中,分布式消息系统确定任务主题中接收到采集任务,自动将采集任务根据采集节点的数量,均等的分配到每个采集节点。
步骤305:采集节点接收分布式消息系统发送的目标采集任务。
步骤306:采集节点判断目标采集任务中是否包括列表URL,如果目标采集任务包括列表URL,将列表URL中的明细URL作为子任务发送给分布式消息系统,并执行步骤307;否则,执行步骤308;
步骤307:分布式消息系统接收采集节点向任务主题返回的子任务,并将该子任务作为所述目标采集任务并根据自动分配规则发送目标采集任务至至少一个采集节点。
在本实施例中,分布式消息系统确定每一个采集节点所包括的当前任务量,并根据采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
步骤308:采集节点爬取目标采集任务,并存储爬取到的数据。
在本实施例中,采集节点爬取到的关系型数据,可以存储在关系型数据库中。
步骤309:重复执行步骤306-308,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
步骤310:采集节点将采集日志和错误日志发送到分布式消息系统的日志主题,分布式消息系统将采集日志和错误日志输出给分布式日志系统,并通过分布式日志系统分析和统计采集情况。
在本实施例中,分布式日志系统通过分析和统计采集情况,可以对不理想的采集任务根据分析结果重新配置采集规则。
其中,采集规则可以包括过滤规则和解析规则,采集节点根据采集规则进行爬取目标采集任务。根据分析结果配置采集规则,可以提高采集效率。
还有,基于zookeeper的分布式消息系统可以监控采集节点的加入和离开,当监测到采集节点的加入或离开时,可以根据自动分配规则均衡的将采集任务分配到各个采集节点。
本发明实施例还提出了一种分布式消息系统,连接有至少一个采集节点及管理端,如图4所示,该分布式消息系统包括:
配置模块401,用于配置任务主题:
建立模块402,用于建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
接收模块403,用于接收所述管理端向所述任务主题发送的目标采集任务,将所述目标采集任务输出给发送模块404;
发送模块404,用于根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
处理模块405,用于接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并触发发送模块;
循环模块406,用于重复触发发送模块404和处理模块405,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
本发明实施例中,为了实现采集任务的平均分配,如图5所示,该分布式消息系统还包括:
规则定义模块501,用于定义自动分配规则的按均分配子规则;
发送采集任务至至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
本发明实施例中,为了监控和分析采集任务,如图6所示,该分布式消息系统还包括:
日志配置模块601,用于配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;
日志接收模块602,用于接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,通过分布式日志系统分析和统计采集状况。
本发明实施例还提出了一种采集节点,连接有分布式消息系统,如图7所示,该采集节点包括:
任务接收模块701,用于接收所述分布式消息系统发送的目标采集任务,将所述目标采集任务输出给判断模块702;
判断模块702,用于判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并触发任务接收模块701;否则,触发爬取模块703;
爬取模块703,用于爬取所述目标采集任务,并存储爬取到的数据;
循环模块704,用于重复触发判断模块和爬取模块,直至所述目标采集任务中不包括列表URL。
综上所述,本发明实施例至少可以实现如下效果:
1、在本发明实施例中,分布式消息系统通过接收管理端和采集节点发送的采集任务,根据自动采集规则自动分配采集任务到采集节点,从而可以实现自动分配采集任务,提高采集效率。
2、在本发明实施例中,通过按均分配子规则,确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量,从而实现每个采集节点任务量的均衡,提高了采集速度和效率。
3、在本发明实施例中,通过配置日志主题,接收所述至少一个采集节点发送到日志主题的采集日志和错误日志,输出采集日志和错误日志给分布式日志系统,从而可以通过分布式日志系统分析和统计采集状况,实现采集任务的监控和分析。
4、在本发明实施例中,通过采集节点判断目标采集任务中是否包括列表URL,如果目标采集任务包括列表URL,将列表URL中的明细URL作为子任务发送给分布式消息系统,从而可以将采集任务中列表URL中的明细URL全部发送到分布式消息系统,从而可以不漏采采集任务。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于分布式消息系统的采集方法,其特征在于,应用于分布式消息系统,其中,所述分布式消息系统连接有至少一个采集节点及管理端,并配置任务主题,还包括:
S1:建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
S2:接收所述管理端向所述任务主题发送的目标采集任务;
S3:根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
S4:接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并执行S3;
S5:重复执行S3-S4,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
2.根据权利要求1所述的方法,其特征在于,
所述自动分配规则进一步包括:按均分配子规则;
所述发送所述采集任务至所述至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
3.根据权利要求1所述的方法,其特征在于,进一步包括:
配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;
接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,通过分布式日志系统分析和统计采集状况。
4.一种基于分布式消息系统的采集方法,其特征在于,应用于采集节点,所述采集节点连接有分布式消息系统,还包括:
S1:接收所述分布式消息系统发送的目标采集任务;
S2:判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并执行S1;否则,执行S3;
S3:爬取所述目标采集任务,并存储爬取到的数据;
S4:重复执行步骤S2-S3,直至所述目标采集任务中不包括列表URL。
5.一种分布式消息系统,其特征在于,连接有至少一个采集节点及管理端,还包括:
配置模块,用于配置任务主题:
建立模块,用于建立自动分配规则,所述自动分配规则用于实现在确定所述任务主题接收到采集任务时自动向所述至少一个采集节点分配该采集任务的触发功能;
接收模块,用于接收所述管理端向所述任务主题发送的目标采集任务,将所述目标采集任务输出给发送模块;
发送模块,用于根据所述自动分配规则发送所述目标采集任务至所述至少一个采集节点,以使所述至少一个采集节点根据所述目标采集任务执行数据的采集;
处理模块,用于接收所述至少一个采集节点在确定采集的数据中包括子任务时向所述任务主题返回的该子任务,并将该子任务作为所述目标采集任务并触发发送模块;
循环模块,用于重复触发发送模块和处理模块,直至在设定的时间段内未接收到所述至少一个采集节点返回的子任务。
6.根据权利要求5所述的分布式消息系统,进一步包括:
规则定义模块,用于定义自动分配规则的按均分配子规则;
所述发送所述采集任务至所述至少一个采集节点,包括:确定每一个采集节点所包括的当前任务量,并根据所述采集任务对应的总任务量,计算向每一个采集节点分配的目标任务量,并将计算的目标任务量发送给相应的采集节点,以使分配后每一个采集节点包括均等的任务量。
7.根据权利要求5所述的分布式消息系统,进一步包括:
日志配置模块,用于配置日志主题,其中,所述分布式消息系统连接有分布式日志系统;
日志接收模块,用于接收所述至少一个采集节点发送到所述日志主题的采集日志和错误日志,输出所述采集日志和错误日志给分布式日志系统,通过分布式日志系统分析和统计采集状况。
8.一种采集节点,其特征在于,连接有分布式消息系统,还包括:
任务接收模块,用于接收所述分布式消息系统发送的目标采集任务,将所述目标采集任务输出给判断模块;
判断模块,用于判断所述目标采集任务中是否包括列表URL,如果所述目标采集任务包括列表URL,将所述列表URL中的明细URL作为子任务发送给所述分布式消息系统,以使所述分布式消息系统将所述子任务作为目标采集任务重新执行分配,并触发任务接收模块;否则,触发爬取模块;
爬取模块,用于爬取所述目标采集任务,并存储爬取到的数据;
循环模块,用于重复触发判断模块和爬取模块,直至所述目标采集任务中不包括列表URL。
CN201610012677.6A 2016-01-08 2016-01-08 一种基于分布式消息系统的采集方法及装置 Pending CN105608220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610012677.6A CN105608220A (zh) 2016-01-08 2016-01-08 一种基于分布式消息系统的采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610012677.6A CN105608220A (zh) 2016-01-08 2016-01-08 一种基于分布式消息系统的采集方法及装置

Publications (1)

Publication Number Publication Date
CN105608220A true CN105608220A (zh) 2016-05-25

Family

ID=55988159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610012677.6A Pending CN105608220A (zh) 2016-01-08 2016-01-08 一种基于分布式消息系统的采集方法及装置

Country Status (1)

Country Link
CN (1) CN105608220A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126648A (zh) * 2016-06-23 2016-11-16 华南理工大学 一种基于重做日志的分布式商品信息爬虫方法
CN109120704A (zh) * 2018-08-24 2019-01-01 郑州云海信息技术有限公司 一种云平台的资源监控方法、装置及设备
CN110011845A (zh) * 2019-03-29 2019-07-12 新华三大数据技术有限公司 日志采集方法及系统
CN111290908A (zh) * 2020-01-15 2020-06-16 四川万益能源科技有限公司 一种Kafka数据消费积压情况监控报警方法
CN111309830A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 基于电子地图获取订餐商铺信息的方法、系统及存储介质
CN111382046A (zh) * 2018-12-28 2020-07-07 中国电信股份有限公司 用于分布式软件系统的测试系统、方法和装置
CN111737147A (zh) * 2020-07-21 2020-10-02 平安国际智慧城市科技股份有限公司 批量数据生成方法、装置、计算机设备及存储介质
CN115225719A (zh) * 2022-08-31 2022-10-21 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法
US8484286B1 (en) * 2009-11-16 2013-07-09 Hydrabyte, Inc Method and system for distributed collecting of information from a network
CN103559219A (zh) * 2013-10-18 2014-02-05 北京京东尚科信息技术有限公司 分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484286B1 (en) * 2009-11-16 2013-07-09 Hydrabyte, Inc Method and system for distributed collecting of information from a network
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法
CN103559219A (zh) * 2013-10-18 2014-02-05 北京京东尚科信息技术有限公司 分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126648A (zh) * 2016-06-23 2016-11-16 华南理工大学 一种基于重做日志的分布式商品信息爬虫方法
CN106126648B (zh) * 2016-06-23 2019-04-09 华南理工大学 一种基于重做日志的分布式商品信息爬虫方法
CN109120704A (zh) * 2018-08-24 2019-01-01 郑州云海信息技术有限公司 一种云平台的资源监控方法、装置及设备
CN109120704B (zh) * 2018-08-24 2022-08-02 郑州云海信息技术有限公司 一种云平台的资源监控方法、装置及设备
CN111382046A (zh) * 2018-12-28 2020-07-07 中国电信股份有限公司 用于分布式软件系统的测试系统、方法和装置
CN111382046B (zh) * 2018-12-28 2023-03-28 中国电信股份有限公司 用于分布式软件系统的测试系统、方法和装置
CN110011845B (zh) * 2019-03-29 2022-05-10 新华三大数据技术有限公司 日志采集方法及系统
CN110011845A (zh) * 2019-03-29 2019-07-12 新华三大数据技术有限公司 日志采集方法及系统
CN111309830A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 基于电子地图获取订餐商铺信息的方法、系统及存储介质
CN111290908A (zh) * 2020-01-15 2020-06-16 四川万益能源科技有限公司 一种Kafka数据消费积压情况监控报警方法
CN111737147A (zh) * 2020-07-21 2020-10-02 平安国际智慧城市科技股份有限公司 批量数据生成方法、装置、计算机设备及存储介质
CN115225719A (zh) * 2022-08-31 2022-10-21 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法
CN115225719B (zh) * 2022-08-31 2023-01-10 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法

Similar Documents

Publication Publication Date Title
CN105608220A (zh) 一种基于分布式消息系统的采集方法及装置
CN102739802B (zh) 面向业务应用的it集中运维分析系统
CN108768791A (zh) 一种信息采集配置管理系统及方法
Trihinas et al. Monitoring elastically adaptive multi-cloud services
CN107196804A (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN108520316A (zh) 一种超限报警数据优化处理方法
CN104468282B (zh) 集群监控处理系统及方法
CN106209455A (zh) 一种跨系统弱耦合的关联业务故障定位方法及系统
CN109547240B (zh) 基于边缘计算的智能设备以及接入与设备的解析方法
CN108521353A (zh) 定位性能瓶颈的处理方法、设备及可读存储介质
CN108845798A (zh) 一种可视化大数据任务编排框架及处理方法
CN106326068A (zh) 资源指标的监控方法及装置
CN107147535A (zh) 一种分布式的网络测量数据统计分析方法
CN107992392A (zh) 一种用于云渲染系统的自动监控修复系统和方法
US20070189509A1 (en) Data path identification and analysis for distributed applications
CN102056351A (zh) 一种推送服务系统及方法
CN102608970A (zh) 一种基于集中管理、自动调度的分布式数据采集的方法
CN103959715A (zh) 用于测试diameter路由节点的方法、系统和计算机可读介质
CN108733698A (zh) 一种日志消息的处理方法及后台服务系统
CN109102245A (zh) 一种审批流程的处理方法、系统及装置
CN110311838B (zh) 一种安全服务流量统计的方法及装置
CN107341045A (zh) 一种虚拟机调度管理方法及调度器
CN107204868B (zh) 一种任务运行监控信息获取方法和装置
CN108270577A (zh) 一种基于策略与计费控制架构的策略运营方法及系统
CN106936660A (zh) 数据采集方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160525