CN112422332B - 一种易扩展可配置的网络数据收集方法、系统及存储介质 - Google Patents
一种易扩展可配置的网络数据收集方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112422332B CN112422332B CN202011231059.3A CN202011231059A CN112422332B CN 112422332 B CN112422332 B CN 112422332B CN 202011231059 A CN202011231059 A CN 202011231059A CN 112422332 B CN112422332 B CN 112422332B
- Authority
- CN
- China
- Prior art keywords
- task
- template
- database
- timing
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0889—Techniques to speed-up the configuration process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/084—Configuration by using pre-existing information, e.g. using templates or copying from other elements
- H04L41/0843—Configuration by using pre-existing information, e.g. using templates or copying from other elements based on generic templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种易扩展可配置的网络数据收集方法、系统及存储介质,该网络数据收集方法包括收集任务模板配置步骤、模板上传步骤、记录入库步骤、设置任务的定时规则和运行机制步骤、收集任务生成到总任务表步骤、总任务表的数据推送到数据库步骤、工作机器向主机请求任务步骤、判断步骤和保存步骤。本发明的有益效果是:1.针对任务多机器部署的复杂性,实现了一种可快捷高效的部署方式,减轻部署和维护的压力。2.针对任务代码过多的痛点,本发明通过将数据解析方式抽离为单独模块,只需对不同网站配置不同的数据解析文件,即可实现网站数据的收集存取。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种易扩展可配置的网络数据收集方法、系统及存储介质。
背景技术
1.为了实现网络上海量数据收集,常常需要将任务部署到多台机器,实现协同作业。但缺少一种易于实现快速可扩展的多机部署方式,部署的可扩展性和快捷性受到重大挑战。
2.由于网站类型多种多样,需要针对不同的网站数据形式,编写不同的任务代码,造成任务代码过多,即难维护,易不通用。
发明内容
本发明提供了一种易扩展可配置的网络数据收集方法,包括如下步骤:
步骤1,收集任务模板配置步骤:针对目标网站,配置解析模板;
步骤2,模板上传步骤:将配置好的模板上传服务器;
步骤3,记录入库步骤:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型;
步骤4,设置任务的定时规则和运行机制步骤:任务配置表新增记录,用于配置任务的定时运行机制,通过在数据库配置不同的定时策略,实现指定运行方式;
步骤5,收集任务生成到总任务表步骤:设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间;
步骤6,总任务表的数据推送到数据库步骤:设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库中,加载成功,修改总任务表记录状态;
步骤7,工作机器向主机请求任务步骤:当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从数据库中获取任务的链接,将模板信息和任务链接组装成字符串,发送给工作机器,工作机器开始进行任务收集;
步骤8,判断步骤:判断任务收集是否成功,若成功,那么执行保存步骤,否则更新总任务表状态为异常;
步骤9,保存步骤:工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
作为本发明的进一步改进,在所述收集任务模板配置步骤中,模板字段解析采用xpath方式,模板格式采用json格式。
作为本发明的进一步改进,在所述设置任务的定时规则和运行机制步骤中,能够配置任务的运行策略。
作为本发明的进一步改进,在所述设置任务的定时规则和运行机制步骤中,通过修改数据库的配置参数,去掉已有的定时任务。
作为本发明的进一步改进,在所述工作机器向主机请求任务步骤中,主机将模板信息和任务链接组装json格式的字符串,将字符串发送给工作机器。
本发明还提供了一种易扩展可配置的网络数据收集系统,包括:
收集任务模板配置模块:用于针对目标网站,配置解析模板;
模板上传模块:用于将配置好的模板上传服务器;
记录入库模块:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型;
设置任务的定时规则和运行机制模块:用于任务配置表新增记录,用于配置任务的定时运行机制,通过在数据库配置不同的定时策略,实现指定运行方式;
收集任务生成到总任务表模块:用于设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间;
总任务表的数据推送到数据库模块:用于设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库中,加载成功,修改总任务表记录状态;
工作机器向主机请求任务模块:用于当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从数据库中获取任务的链接,将模板信息和任务链接组装成字符串,发送给工作机器,工作机器开始进行任务收集;
判断模块:用于判断任务收集是否成功,若成功,那么运行保存模块,否则更新总任务表状态为异常;
保存模块:用于工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
作为本发明的进一步改进,在所述收集任务模板配置模块中,模板字段解析采用xpath方式,模板格式采用json格式。
作为本发明的进一步改进,在所述设置任务的定时规则和运行机制模块中,能够配置任务的运行策略,通过修改数据库的配置参数,去掉已有的定时任务。
作为本发明的进一步改进,在所述工作机器向主机请求任务模块中,主机将模板信息和任务链接组装json格式的字符串,将字符串发送给工作机器。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的网络数据收集方法的步骤。
本发明的有益效果是:1.针对任务多机器部署的复杂性,实现了一种可快捷高效的部署方式,减轻部署和维护的压力。2.针对任务代码过多的痛点,本发明通过将数据解析方式抽离为单独模块,只需对不同网站配置不同的数据解析文件,即可实现网站数据的收集存取。
附图说明
图1是本发明的流程图。
具体实施方式
为了大批量收集网络上各种站点来源的数据用于后续分析,需要一种能够高效快速的收集方式,本发明公开了一种易扩展可配置的网络数据收集方法,本发明通过设计一种能简单快捷的多机任务部署方式,且只需要配置不同站点的数据解析模板方式,就可以快捷高速的将任务数据收集回来,并存取到指定的存取系统。
如图1所示,本发明公开了一种易扩展可配置的网络数据收集方法,包括如下步骤:
步骤1,收集任务模板配置步骤:针对目标网站,配置解析模板,模板字段解析采用xpath方式,模板格式采用json格式。
步骤2,模板上传步骤:将配置好的模板上传服务器。
步骤3,记录入库步骤:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型。
步骤4,设置任务的定时规则和运行机制步骤:任务配置表新增记录,用于配置任务的定时运行机制。通过在数据库配置不同的定时策略,可实现按小时、天、月的指定运行方式,亦可配置任务的运行策略,即一次性或长久性。同时也可以通过修改数据库的配置参数,去掉已有的定时任务。
步骤5,收集任务生成到总任务表步骤:设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间。
步骤6,总任务表的数据推送到数据库步骤:设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库(redis数据库)中,加载成功,修改总任务表记录状态。
步骤7,工作机器向主机请求任务步骤:任务分发采用工作机器主动请求工作任务的方式进行,当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,(机器号为人工设置),主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从redis数据库中获取任务的链接,将模板信息和任务链接组装json格式的字符串,发送给工作机器,工作机器开始进行任务收集。
步骤8,判断步骤:工作机器处理完任务收集后,会出现成功和失败两种情况。工作机器向主机接口上报任务收集数据和状态信息。若任务收集成功,那么执行保存步骤,若任务收集失败直接更新总任务表状态为异常。
步骤9,保存步骤:工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
主机服务主要是接收工作机器的请求,用于下发任务和接收数据进行存取。当工作机器请求任务接口时,主机服务从redis库获取一条任务,并将任务从库中删除,将获取的任务返回工作机器。接收数据接口用于将工作机器收集的任务数据进行解析,并进行入库存取,本系统使用的数据库都为mysql。
本发明还公开了一种易扩展可配置的网络数据收集系统,包括:
收集任务模板配置模块:用于针对目标网站,配置解析模板;
模板上传模块:用于将配置好的模板上传服务器;
记录入库模块:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型;
设置任务的定时规则和运行机制模块:用于任务配置表新增记录,用于配置任务的定时运行机制,通过在数据库配置不同的定时策略,实现指定运行方式;
收集任务生成到总任务表模块:用于设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间;
总任务表的数据推送到数据库模块:用于设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库中,加载成功,修改总任务表记录状态;
工作机器向主机请求任务模块:用于当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从数据库中获取任务的链接,将模板信息和任务链接组装成字符串,发送给工作机器,工作机器开始进行任务收集;
判断模块:用于判断任务收集是否成功,若成功,那么运行保存模块,否则更新总任务表状态为异常;
保存模块:用于工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
在所述收集任务模板配置模块中,模板字段解析采用xpath方式,模板格式采用json格式。
在所述设置任务的定时规则和运行机制模块中,能够配置任务的运行策略,通过修改数据库的配置参数,去掉已有的定时任务。
在所述工作机器向主机请求任务模块中,主机将模板信息和任务链接组装json格式的字符串,将字符串发送给工作机器。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的网络数据收集方法的步骤。
本发明的有益效果如下:
1.针对任务多机器部署的复杂性,实现了一种可快捷高效的部署方式,减轻部署和维护的压力。
2.针对任务代码过多的痛点,本发明通过将数据解析方式抽离为单独模块,只需要对不同网站配置不同的数据解析文件,即可实现网站数据的收集入库,通过提取共有模块,且将数据解析配置为单独的文件,从而大大减少重复性的代码开发和代码量,且将数据解析改为读取模板文件,从而减少了因网站数据形式变动需要修改项目代码和重新部署的重复低效工作方式。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种易扩展可配置的网络数据收集方法,其特征在于,包括如下步骤:
步骤1,收集任务模板配置步骤:针对目标网站,配置解析模板;
步骤2,模板上传步骤:将配置好的模板上传服务器;
步骤3,记录入库步骤:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型;
步骤4,设置任务的定时规则和运行机制步骤:任务配置表新增记录,用于配置任务的定时运行机制,通过在数据库配置不同的定时策略,实现指定运行方式;
步骤5,收集任务生成到总任务表步骤:设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间;
步骤6,总任务表的数据推送到数据库步骤:设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库中,加载成功,修改总任务表记录状态;
步骤7,工作机器向主机请求任务步骤:当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从数据库中获取任务的链接,将模板信息和任务链接组装成字符串,发送给工作机器,工作机器开始进行任务收集;
步骤8,判断步骤:判断任务收集是否成功,若成功,那么执行保存步骤,否则更新总任务表状态为异常;
步骤9,保存步骤:工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
2.根据权利要求1所述的网络数据收集方法,其特征在于,在所述收集任务模板配置步骤中,模板字段解析采用xpath方式,模板格式采用json格式。
3.根据权利要求1所述的网络数据收集方法,其特征在于,在所述设置任务的定时规则和运行机制步骤中,能够配置任务的运行策略。
4.根据权利要求3所述的网络数据收集方法,其特征在于,在所述设置任务的定时规则和运行机制步骤中,通过修改数据库的配置参数,去掉已有的定时任务。
5.根据权利要求2所述的网络数据收集方法,其特征在于,在所述工作机器向主机请求任务步骤中,主机将模板信息和任务链接组装json格式的字符串,将字符串发送给工作机器。
6.一种易扩展可配置的网络数据收集系统,其特征在于,包括:
收集任务模板配置模块:用于针对目标网站,配置解析模板;
模板上传模块:用于将配置好的模板上传服务器;
记录入库模块:服务器具有数据库,在数据库的模板表中新增一条记录,该记录用于保存模板服务器路径和模板处理任务类型;
设置任务的定时规则和运行机制模块:用于任务配置表新增记录,用于配置任务的定时运行机制,通过在数据库配置不同的定时策略,实现指定运行方式;
收集任务生成到总任务表模块:用于设置一个循环执行脚本,每隔一段时间加载任务配置表的数据,解析其中设置的定时策略,当到达定时时间,加载需要收集的任务链接,对每个链接生成一条对应的记录到总任务表,同时更改定时任务下次的执行时间;
总任务表的数据推送到数据库模块:用于设置一个循环执行脚本,每隔一段时间加载新生成的任务记录到数据库中,加载成功,修改总任务表记录状态;
工作机器向主机请求任务模块:用于当工作机器处于休闲状态时,将向主机发送请求,并带上本机的标识机器号,主机接口解析传递的机器号,从配置表查找其对应的工作任务,读取任务需要的模板解析文件,并从数据库中获取任务的链接,将模板信息和任务链接组装成字符串,发送给工作机器,工作机器开始进行任务收集;
判断模块:用于判断任务收集是否成功,若成功,那么运行保存模块,否则更新总任务表状态为异常;
保存模块:用于工作机器将收集到的数据上送主机,主机解析获取的数据存放数据库中,同时更新总任务表工作状态。
7.根据权利要求6所述的网络数据收集系统,其特征在于,在所述收集任务模板配置模块中,模板字段解析采用xpath方式,模板格式采用json格式。
8.根据权利要求6所述的网络数据收集系统,其特征在于,在所述设置任务的定时规则和运行机制模块中,能够配置任务的运行策略,通过修改数据库的配置参数,去掉已有的定时任务。
9.根据权利要求7所述的网络数据收集系统,其特征在于,在所述工作机器向主机请求任务模块中,主机将模板信息和任务链接组装json格式的字符串,将字符串发送给工作机器。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述的网络数据收集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011231059.3A CN112422332B (zh) | 2020-11-06 | 2020-11-06 | 一种易扩展可配置的网络数据收集方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011231059.3A CN112422332B (zh) | 2020-11-06 | 2020-11-06 | 一种易扩展可配置的网络数据收集方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112422332A CN112422332A (zh) | 2021-02-26 |
CN112422332B true CN112422332B (zh) | 2022-10-04 |
Family
ID=74782007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011231059.3A Active CN112422332B (zh) | 2020-11-06 | 2020-11-06 | 一种易扩展可配置的网络数据收集方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112422332B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101262304A (zh) * | 2008-04-24 | 2008-09-10 | 浙江大学 | 一种基于通用通讯数据格式的数据流解析方法 |
CN107959580A (zh) * | 2016-10-17 | 2018-04-24 | 中兴通讯股份有限公司 | 配置业务的方法和装置 |
CN108880867A (zh) * | 2018-05-31 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种网络设备数据采集方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7483898B2 (en) * | 2004-06-14 | 2009-01-27 | Microsoft Corporation | System and method for auditing a network |
CN110474790B (zh) * | 2018-05-11 | 2022-11-01 | 西门子股份公司 | 对边缘设备进行配置的系统、云平台、设备和方法 |
-
2020
- 2020-11-06 CN CN202011231059.3A patent/CN112422332B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101262304A (zh) * | 2008-04-24 | 2008-09-10 | 浙江大学 | 一种基于通用通讯数据格式的数据流解析方法 |
CN107959580A (zh) * | 2016-10-17 | 2018-04-24 | 中兴通讯股份有限公司 | 配置业务的方法和装置 |
CN108880867A (zh) * | 2018-05-31 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种网络设备数据采集方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种大规模MongoDB集群监控方案的设计与实现;李云婷,张海明,黎建辉;《科研信息化技术与应用》;20190720;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112422332A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9262260B2 (en) | Information processing apparatus, information processing method, and recording medium | |
US8024296B1 (en) | Method and apparatus for agent-less auditing of server | |
US7661135B2 (en) | Apparatus, system, and method for gathering trace data indicative of resource activity | |
CN111506556A (zh) | 一种多源异构的结构化数据同步方法 | |
CN105493028A (zh) | 用于云分析的数据一致性和回退 | |
US8255879B2 (en) | Method and apparatus for improving a software product | |
US9928055B1 (en) | Validating development software by comparing results from processing historic data sets | |
CN111737227B (zh) | 数据修改方法及系统 | |
CN113590556A (zh) | 一种基于数据库的日志处理方法、装置及设备 | |
CN110795614A (zh) | 一种索引自动优化方法及装置 | |
CN112084249A (zh) | 一种访问记录提取方法及装置 | |
CN112328631A (zh) | 一种生产故障分析方法、装置、电子设备及存储介质 | |
CN111767262A (zh) | 日志展示方法、装置、设备及存储介质 | |
CN112422332B (zh) | 一种易扩展可配置的网络数据收集方法、系统及存储介质 | |
CN106919566A (zh) | 一种基于海量数据的查询统计方法及系统 | |
CN117349323A (zh) | 数据库的数据处理方法及装置、存储介质及电子设备 | |
CN107632899B (zh) | 一种应用服务器的快照服务方法及装置 | |
CN111651413B (zh) | 征信报告文件解析方法及装置 | |
CN110825784B (zh) | 一种低效业务过程的检测方法及装置 | |
CN111522900B (zh) | 非结构化数据的自动解析方法、系统、设备及存储介质 | |
CN112929237A (zh) | 网站细分流量的分析方法、系统、设备和介质 | |
US8775528B2 (en) | Computer readable recording medium storing linking keyword automatically extracting program, linking keyword automatically extracting method and apparatus | |
CN104199930A (zh) | 数据采集及处理的系统及方法 | |
JPWO2020065778A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN106649058B (zh) | 一种日志处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |