CN110636116B - 一种多维数据采集的系统及方法 - Google Patents

一种多维数据采集的系统及方法 Download PDF

Info

Publication number
CN110636116B
CN110636116B CN201910809129.XA CN201910809129A CN110636116B CN 110636116 B CN110636116 B CN 110636116B CN 201910809129 A CN201910809129 A CN 201910809129A CN 110636116 B CN110636116 B CN 110636116B
Authority
CN
China
Prior art keywords
task
data
acquisition
request
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910809129.XA
Other languages
English (en)
Other versions
CN110636116A (zh
Inventor
吴敏
窦强
杨犀
陈军侠
麻少峰
郭文鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Digtal Technology Co Ltd
Original Assignee
Wuhan Fiberhome Digtal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Digtal Technology Co Ltd filed Critical Wuhan Fiberhome Digtal Technology Co Ltd
Priority to CN201910809129.XA priority Critical patent/CN110636116B/zh
Publication of CN110636116A publication Critical patent/CN110636116A/zh
Application granted granted Critical
Publication of CN110636116B publication Critical patent/CN110636116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多维数据采集系统及方法,所述系统包括应用管理模块、任务调度模块和任务采集模块;所述应用管理模块,用于在接收到外部应用的新建任务接口的请求数据后,进行对应的请求数据合法性校验,校验通过后,向所述任务调度模块发起新建任务请求;所述任务调度模块,用于在接收到新建任务请求后,将对应的请求数据存储到数据库,新建一张该任务对应的任务采集表;若该任务是定时启动任务,在指定时间到来时,根据对应的请求数据生成所述任务采集模块需要的包括任务启动参数的任务启动命令,并发送给所述任务采集模块;所述任务采集模块,用于在接收到任务启动命令后,根据任务启动参数进行对应的外部数据源的数据采集工作。

Description

一种多维数据采集的系统及方法
技术领域
本发明涉及系统设计领域,具体涉及一种多维数据采集系统及方法。
背景技术
随着社会和科学技术的发展,数据产生的数量越来越庞大,数据存储方式越来越多样化,越来越多的应用系统需要依赖其他系统产生的数据才能更好的实现自己的功能,这意味着大部分应用需要基于大量的来自不同数据源的数据进行相关功能的实现。不同的业务层应用程序需要各自按照自己的需求去接入不同种的数据源的数据,同时,不同的业务层应用系统可能会接入同种数据源甚至同一来源数据,按照传统的各业务层负责自己业务层的数据源接入方式开发,会导致大量的重复工作,同时接入数据的准确性无法确切保证。
发明内容
为解决上述技术问题,本发明提供一种多维数据采集系统及方法,减少大量非必要的重复数据接入开发工作,并使数据的接入流程可控,准确性可知,接入能力可看。本发明的技术方案如下:
作为本发明的第一方面,提供一种多维数据采集系统,所述系统包括应用管理模块、任务调度模块和任务采集模块;
所述应用管理模块,用于在接收到外部应用的新建任务接口的请求数据后,进行对应的请求数据合法性校验,校验通过后,向所述任务调度模块发起新建任务请求;
所述任务调度模块,用于在接收到新建任务请求后,将对应的请求数据存储到数据库,新建一张该任务对应的任务采集表;若该任务是定时启动任务,在指定时间到来时,根据对应的请求数据生成所述任务采集模块需要的包括任务启动参数的任务启动命令,并发送给所述任务采集模块;
所述任务采集模块,用于在接收到任务启动命令后,根据任务启动参数进行对应的外部数据源的数据采集工作;
其中,所述新建任务接口的请求数据包括:任务名称、外部数据源类型、外部数据源连接参数、是否定时开启、任务并发数、抽取方式和抽取频率;所述外部数据源连接参数又包括关系型数据库类型数据源、队列类型数据源和ftp;所述关系型数据库类型数据源包括用户名、密码、端口和数据库url,所述队列类型数据源包括队列url和主题名称,所述ftp包括ftp文件夹url、 ftp端口、ftp用户名和ftp密码;
其中,所述新建任务请求中包括新建任务接口的请求数据;
其中,所述任务启动参数包括任务ID和新建任务接口的请求数据。
进一步地,所述应用管理模块还用于在接收到外部应用的启动任务接口请求后,校验当前系统是否存在该任务,同时判断该任务是否正在运行,若正在运行,则向外部应用返回“任务正在运行”的提示;若未运行,向所述任务调度模块下发新建任务请求。
进一步地,所述任务调度模块,还用于在接收到应用管理模块的新建任务请求后,判断是否有可用服务器节点,该服务器节点是否有可用内存供所述任务采集模块运行,若有服务器节点且内存充足,则复制任务采集模块可执行程序包在该服务器节点运行并向该程序包发送任务启动命令;若没有服务器节点或者内存不足,则向所述任务采集模块返回“资源不足”的提示。
进一步地,所述任务采集模块,还用于在接收到所述任务调度模块发送的任务启动命令后,解析任务启动命令中的任务启动参数并执行该任务,每 n秒(默认10秒)发送一次心跳信息给所述任务调度模块以告知任务正常运行,并上报采集过程记录数据给所述任务调度模块;
所述任务调度模块,还用于接受到所述任务采集模块上报的采集过程记录数据后,将该采集过程记录数据存入对应任务采集表中;
所述应用管理模块,还用于针对系统中所有的任务对应的任务采集表,实时监测采集过程记录数据,按半小时为区间实时统计每个任务的采集量并存储在数据库中预先建立的统计表中,同时实时更新每个任务的统计总量;并根据采集过程记录数据的采集状态,判断是否出现异常,并对出现异常的采集数据进行记录并生成告警数据;
其中,所述采集过程记录数据包括本轮采集的数据开始标记值、本轮采集的数据结束标记值、本轮采集开始时间、本轮采集的总时长、本轮采集调用接口的总时长、本轮采集发送数据的总时长、本轮采集数据量、采集标识和采集状态,所述采集标识包括正常采集和数据恢复两种标识,所述采集状态包括正常、异常、需进行数据恢复、数据恢复中和数据恢复完成等态,若采集状态为异常,则采集过程记录数据中还包括异常原因,若采集状态为需进行数据恢复,则采集过程记录数据中还包括本轮采集关联的恢复任务的 id。
进一步地,所述应用管理模块,还用于在接收到外部应用发送的任务停止接口的请求数据,检验该任务停止接口的请求数据对应的任务是否正在运行;若正在运行,则向所述任务调度模块发送任务停止请求;若未运行,则向外部应用返回“任务未运行”的提示;
所述任务调度模块,还用于接收到所述应用管理模块的任务停止请求后,向所述任务采集模块发送任务停止命令;
所述任务采集模块,还用于接受到任务停止命令后,停止对应任务的进程。
进一步地,所述应用管理模块,还用于接收到外部应用发送的服务器配置数据后,将对应的数据存储到数据库中预先建立的对应的服务器配置表中;
所述任务调度模块,还用于定时访问服务器配置表,查询服务器状态和服务器内存信息,并将查询到的服务器状态和服务器内存信息记录在对应服务器配置表中。
进一步地,所述应用管理模块,还用于接收到外部应用发送的kafka配置接口的请求数据后,将kafka配置接口的请求数据存储到数据库预先建立的对应的kafka配置信息表中;
所述任务调度模块,还用于在接收到所述应用管理模块的新建任务请求后,访问数据库的kafka配置信息表,读取kafka节点信息并组装到任务启动命令中,方便所述任务采集模块接收到任务启动命令后将采集到的数据写到对应的kafka节点对应的topic中。
进一步地,所述任务采集模块,还用于在执行对应任务的数据采集时,若遇到采集环境异常,若时间较短,在采集环境恢复正常后,程序接着异常前的位置继续进行数据采集。
进一步地,所述应用管理模块,还用于在接收到外部应用发送的数据类型新增的请求数据后,向任务调度模块发起新增数据类型请求;
所述任务调度模块在接收到所述应用管理模块发送的新增数据类型请求后,将对应的数据存入数据库中预先建立的数据类型表中,并将数据类型对应的jar包分发到任务采集模块可执行程序所在的每一条服务器上,并将任务采集模块可执行程序的版本号加1。
进一步地,所述任务调度模块,还用于对于已经在运行的任务,实时监控其心跳信息是否正常,若三次未收到心跳,视为该任务挂起,向任务采集模块发起任务启动命令,重启该任务,若重启五次仍未能启动成功,停止重启该任务,并记录该任务状态为“停止”。
进一步地,所述应用管理模块,还用于根据任务采集表中的异常采集数据统计出任务采集异常时间段,接受外部应用发起的任务恢复请求,在接受到外部应用发起的任务恢复请求后,基于异常时间段生成任务恢复请求参数,并向所述任务调度模块发起任务恢复请求;
所述任务调度模块,还用于在接收到数据恢复请求后,根据任务恢复请求参数生成恢复任务数据存到任务表中,并标识该任务是数据恢复任务,发送恢复任务启动命令给所述任务采集模块;
所述任务采集模块,还用于在接收到所述任务调度模块的恢复任务启动命令后,根据需要恢复的采集数据的开始标记值、结束标记值计算恢复数据区间,根据恢复数据区间进行数据采集,恢复数据区间的数据采集完成后,任务自动停止;
其中,所述任务恢复请求参数包括需要恢复的采集数据的开始标记值和结束标记值以及任务名称、外部数据源类型、外部数据源连接参数、任务并发数和抽取频率。
作为本发明的第二方面,提供一种多维数据采集方法,所述方法包括:
配置任务需要执行的并发任务数、数据源的数据类型、任务执行的频率、数据源连接参数、数据源数据获取规则、任务类型;其中所述任务类型包括增量抽取任务,全量抽取任务,数据恢复任务;
根据任务的配置参数,任务采集模块可以按指定频率抽取指定数据源的数据并写到指定的kafka中。
进一步地,所述方法还包括:在进行数据采集时,若出现长时间的采集环境异常后,例如数据源连不上,则任务调度模块指定该异常时间段为恢复数据区间,数据恢复任务并向所述任务采集模块发送恢复任务启动命令。
本发明具有以下有益效果:
通过本发明的技术方案,可以接入多种数据类型的数据源的数据;可以对接入的数据流向可控;可以对接入的数据的数据量有一个把握;对于接入过程中的异常可以做到可知,可恢复;对于接入的数据类型可以支持动态增加和修改,减少了大量重复工作并是整个数据接入流程可见。
附图说明
图1为本发明实施例提供的多维数据采集系统的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,作为本发明的第一实施例,提供一种多维数据采集系统,所述系统包括应用管理模块、任务调度模块和任务采集模块;
所述应用管理模块,用于在接收到外部应用的新建任务接口的请求数据后,进行对应的请求数据合法性校验,校验通过后,向所述任务调度模块发起新建任务请求;
所述任务调度模块,用于在接收到新建任务请求后,将对应的请求数据存储到数据库,新建一张该任务对应的任务采集表;若该任务是定时启动任务,在指定时间到来时,根据任务相关数据生成所述任务采集模块需要的包括任务启动参数的任务启动命令,并发送给所述任务采集模块;
所述任务采集模块,用于在接收到任务启动命令后,根据任务启动参数进行对应的外部数据源的数据采集工作;
其中,所述新建任务接口的请求数据包括:任务名称、外部数据源类型、外部数据源连接参数、是否定时开启、任务并发数、抽取方式和抽取频率;所述外部数据源连接参数又包括关系型数据库类型数据源、队列类型数据源和ftp;所述关系型数据库类型数据源包括用户名、密码、端口和数据库url,所述队列类型数据源包括队列url和主题名称,所述ftp包括ftp文件夹url、 ftp端口、ftp用户名和ftp密码;
其中,所述新建任务请求中包括新建任务接口的请求数据;
其中,所述任务启动参数包括任务ID和新建任务接口的请求数据。
其中,所述任务管理模块包括任务接口子模块、任务统计子模块、任务告警子模块和配置子模块,系统中,所有接收接口请求由任务接口子模块完成,所有统计数据的产生由任务统计子模块执行完成,所有的告警数据的产生,由任务告警子模块执行完成,kafka和任务运行服务器的配置由配置子模块完成;任务管理模块包括任务管理子模块和任务运行数据收集模块,任务的运行,停止,任务的心跳数据接收,任务相关数据的修改操作由任务管理子模块执行完成,任务采集模块上报的采集过程记录数据的接收和存储由任务运行数据收集模块执行完成。
优选地,所述应用管理模块还用于在接收到外部应用的启动任务接口请求后,校验当前系统是否存在该任务,同时判断该任务是否正在运行,若正在运行,则向外部应用返回“任务正在运行”的提示;若未运行,向所述任务调度模块下发新建任务请求。
优选地,所述任务调度模块,还用于在接收到应用管理模块的新建任务请求后,判断是否有可用服务器节点,该服务器节点是否有可用内存供所述任务采集模块运行,若有服务器节点且内存充足,则复制任务采集模块可执行程序包在该服务器节点运行并向该程序包发送任务启动命令;若没有服务器节点或者内存不足,则向所述任务采集模块返回“资源不足”的提示。
优选地,所述任务采集模块,还用于在接收到所述任务调度模块发送的任务启动命令后,解析任务启动命令中的任务启动参数并执行该任务,每n 秒(默认10秒)发送一次心跳信息给所述任务调度模块以告知任务正常运行,并上报采集过程记录数据给所述任务调度模块;
所述任务调度模块,还用于接受到所述任务采集模块上报的采集过程记录数据后,将该采集过程记录数据存入对应任务采集表中;
所述应用管理模块,还用于针对系统中所有的任务对应的任务采集表,实时监测采集过程记录数据,按半小时为区间实时统计每个任务的采集量并存储在数据库中预先建立的统计表中,同时实时更新每个任务的统计总量;并根据采集过程记录数据的采集状态,判断是否出现异常,并对出现异常的采集数据进行记录并生成告警数据;
其中,所述采集过程记录数据包括本轮采集的数据开始标记值、本轮采集的数据结束标记值、本轮采集开始时间、本轮采集的总时长、本轮采集调用接口的总时长、本轮采集发送数据的总时长、本轮采集数据量、采集标识和采集状态,所述采集标识包括正常采集和数据恢复两种标识,所述采集状态包括正常、异常、需进行数据恢复、数据恢复中和数据恢复完成等态,若采集状态为异常,则采集过程记录数据中还包括异常原因,若采集状态为需进行数据恢复,则采集过程记录数据中还包括本轮采集关联的恢复任务的 id。
优选地,所述应用管理模块,还用于在接收到外部应用发送的任务停止接口的请求数据,检验该任务停止接口的请求数据对应的任务是否正在运行;若正在运行,则向所述任务调度模块发送任务停止请求;若未运行,则向外部应用返回“任务未运行”的提示;
所述任务调度模块,还用于接收到所述应用管理模块的任务停止请求后,向所述任务采集模块发送任务停止命令;
所述任务采集模块,还用于接受到任务停止命令后,停止对应任务的进程。
优选地,所述应用管理模块,还用于接收到外部应用发送的服务器配置数据后,将对应的数据存储到数据库中预先建立的对应的服务器配置表中;
所述任务调度模块,还用于定时访问服务器配置表,查询服务器状态和服务器内存信息,并将查询到的服务器状态和服务器内存信息记录在对应服务器配置表中。
优选地,所述应用管理模块,还用于接收到外部应用发送的kafka配置接口的请求数据后,将kafka配置接口的请求数据存储到数据库预先建立的对应的kafka配置信息表中;
所述任务调度模块,还用于在接收到所述应用管理模块的新建任务请求后,访问数据库的kafka配置信息表,读取kafka节点信息并组装到任务启动命令中,方便所述任务采集模块接收到任务启动命令后将采集到的数据写到对应的kafka节点对应的topic中。
优选地,所述任务采集模块,还用于在执行对应任务的数据采集时,若遇到采集环境异常,若时间较短,在采集环境恢复正常后,程序接着异常前的位置继续进行数据采集。
优选地,所述应用管理模块,还用于在接收到外部应用发送的数据类型新增的请求数据后,向任务调度模块发起新增数据类型请求;
所述任务调度模块在接收到所述应用管理模块发送的新增数据类型请求后,将对应的数据存入数据库中预先建立的数据类型表中,并将数据类型对应的jar包分发到任务采集模块可执行程序所在的每一条服务器上,并将任务采集模块可执行程序的版本号加1。
优选地,所述任务调度模块,还用于对于已经在运行的任务,实时监控其心跳信息是否正常,若三次未收到心跳,视为该任务挂起,向任务采集模块发起任务启动命令,重启该任务,若重启五次仍未能启动成功,停止重启该任务,并记录该任务状态为“停止”。
优选地,所述应用管理模块,还用于根据任务采集表中的异常采集数据统计出任务采集异常时间段,接受外部应用发起的任务恢复请求,在接受到外部应用发起的任务恢复请求后,基于异常时间段生成任务恢复请求参数,并向所述任务调度模块发起任务恢复请求;
所述任务调度模块,还用于在接收到数据恢复请求后,根据任务恢复请求参数生成恢复任务数据存到任务表中,并标识该任务是数据恢复任务,发送恢复任务启动命令给所述任务采集模块;
所述任务采集模块,还用于在接收到所述任务调度模块的恢复任务启动命令后,根据需要恢复的采集数据的开始标记值、结束标记值计算恢复数据区间,根据恢复数据区间进行数据采集,恢复数据区间的数据采集完成后,任务自动停止;
其中,所述任务恢复请求参数包括需要恢复的采集数据的开始标记值和结束标记值以及任务名称、外部数据源类型、外部数据源连接参数、任务并发数和抽取频率。
本发明,应用管理模块在接收到外部应用关于任务相关的接口请求后,进行相关任务的请求操作,同时对于任务的相关配置数据进行配置,对于任务执行过程中产生的采集数据进行分析,获取需要的统计信息,告警信息,异常信息;任务调度模块在接收到应用管理模块的各种任务相关请求后,对任务进行相关调度操作,同时对任务的运行状态进行监控,管理所述任务采集模块所在服务器的状态;任务采集模块在接收到任务启动命令和任务停止命令后,进行任务的执行和停止操作。
其中,任务采集模块可以有多个可执行程序,每个可执行程序可以执行不同的抽取任务,每个可执行程序可以部署于不同应用服务器,也可以均部署于同一应用服务器,本发明对任务采集模块的部署方式不做限定。
外部应用可以是前端页面应用,也可以是后台应用系统,只需要可以正确请求应用管理模块的接口即可,例如,前端页面应用可以通过页面向应用管理模块发送任务相关业务的请求数据,后台应用可以通过代码请求应用管理模块对应的任务相关业务的接口。
本发明对应用管理模块所在的服务器、任务调度模块所在的服务器类型不做限定,例如可以为安装了Linux系统或Windows系统或Unix系统的服务器;对于任务采集模块所在的服务器系统做了限定,须是安装了Linux系统的服务器。另外,应用管理模块所在的服务器、任务调度模块和任务采集模块所在的服务器可以为同一服务器,可以分别为不同的服务器,建议应用管理模块所在服务器和任务调度模块所在服务器为同一服务器,任务采集模块所在服务器为不同服务器。
另外,本发明对任务采集模块可执行程序的数量不做限定,可以有一个或多个,建议每台服务器任务采集模块可执行程序的数量为10个以内。
其中,数据库用于存储任务数据和采集过程记录数据,以及任务运行所需环境配置数据,以及根据任务采集过程产生的采集数据分析得出的分析数据。
本实施例通过将所有数据源的数据接入整合到一起,能够有效的将所有的数据接入任务的运行情况进行管理,能够有效的减少代码的重复开发量,也能有效的降低数据接入过程中数据丢失的可能性。
作为本发明的第二实施例,提供一种多维数据采集方法,所述方法包括:
配置任务需要执行的并发任务数、数据源的数据类型、任务执行的频率、数据源连接参数、数据源数据获取规则、任务类型;其中所述任务类型包括增量抽取任务,全量抽取任务,数据恢复任务;
根据任务的配置参数,任务采集模块可以按指定频率抽取指定数据源的数据并写到指定的kafka中。
优选地,所述方法还包括:在进行数据采集时,若出现长时间的采集环境异常后,例如数据源连不上,则任务调度模块指定该异常时间段为恢复数据区间,数据恢复任务并向所述任务采集模块发送恢复任务启动命令。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多维数据采集的系统,其特征在于,所述系统包括应用管理模块、任务调度模块和任务采集模块;
所述应用管理模块,用于在接收到外部应用的新建任务接口的请求数据后,进行对应的请求数据合法性校验,校验通过后,向所述任务调度模块发起新建任务请求;
所述任务调度模块,用于在接收到新建任务请求后,将对应的请求数据存储到数据库,新建一张该任务对应的任务采集表;若该任务是定时启动任务,在指定时间到来时,根据任务相关数据生成所述任务采集模块需要的包括任务启动参数的任务启动命令,并发送给所述任务采集模块;
所述任务采集模块,用于在接收到任务启动命令后,根据任务启动参数进行对应的外部数据源的数据采集工作;
其中,所述新建任务接口的请求数据包括:任务名称、外部数据源类型、外部数据源连接参数、是否定时开启、任务并发数、抽取方式和抽取频率;所述外部数据源连接参数又包括关系型数据库类型数据源、队列类型数据源和ftp;所述关系型数据库类型数据源包括用户名、密码、端口和数据库url,所述队列类型数据源包括队列url和主题名称,所述ftp包括ftp文件夹url、ftp端口、ftp用户名和ftp密码;
其中,所述新建任务请求中包括新建任务接口的请求数据;
其中,所述任务启动参数包括任务ID和新建任务接口的请求数据。
2.根据权利要求1所述的多维数据采集的系统,其特征在于,所述应用管理模块还用于在接收到外部应用的启动任务接口请求后,校验当前系统是否存在该任务,同时判断该任务是否正在运行,若正在运行,则向外部应用返回“任务正在运行”的提示;若未运行,向所述任务调度模块下发新建任务请求。
3.根据权利要求1所述的多维数据采集的系统,其特征在于,所述任务调度模块,还用于在接收到应用管理模块的新建任务请求后,判断是否有可用服务器节点,该服务器节点是否有可用内存供所述任务采集模块运行,若有服务器节点且内存充足,则复制任务采集模块可执行程序包在该服务器节点运行并向该程序包发送任务启动命令;若没有服务器节点或者内存不足,则向所述任务采集模块返回“资源不足”的提示。
4.根据权利要求1所述的多维数据采集的系统,其特征在于,
所述任务采集模块,还用于在接收到所述任务调度模块发送的任务启动命令后,解析任务启动命令中的任务启动参数并执行该任务,每10秒发送一次心跳信息给所述任务调度模块以告知任务正常运行,并上报采集过程记录数据给所述任务调度模块;
所述任务调度模块,还用于接受到所述任务采集模块上报的采集过程记录数据后,将该采集过程记录数据存入对应任务采集表中;
所述应用管理模块,还用于针对系统中所有的任务对应的任务采集表,实时监测采集过程记录数据,按半小时为区间实时统计每个任务的采集量并存储在数据库中预先建立的统计表中,同时实时更新每个任务的统计总量;并根据采集过程记录数据的采集状态,判断是否出现异常,并对出现异常的采集数据进行记录并生成告警数据;
其中,所述采集过程记录数据包括本轮采集的数据开始标记值、本轮采集的数据结束标记值、本轮采集开始时间、本轮采集的总时长、本轮采集调用接口的总时长、本轮采集发送数据的总时长、本轮采集数据量、采集标识和采集状态,所述采集标识包括正常采集和数据恢复,所述采集状态包括正常、异常、需进行数据恢复、数据恢复中和数据恢复完成,若采集状态为异常,则采集过程记录数据中还包括异常原因,若采集状态为需进行数据恢复,则采集过程记录数据中还包括本轮采集关联的恢复任务的id。
5.根据权利要求1所述的多维数据采集的系统,其特征在于,
所述应用管理模块,还用于在接收到外部应用发送的任务停止接口的请求数据,检验该任务停止接口的请求数据对应的任务是否正在运行;若正在运行,则向所述任务调度模块发送任务停止请求;若未运行,则向外部应用返回“任务未运行”的提示;
所述任务调度模块,还用于接收到所述应用管理模块的任务停止请求后,向所述任务采集模块发送任务停止命令;
所述任务采集模块,还用于接受到任务停止命令后,停止对应任务的进程。
6.根据权利要求1所述的多维数据采集的系统,其特征在于,
所述应用管理模块,还用于接收到外部应用发送的服务器配置数据后,将对应的数据存储到数据库中预先建立的对应的服务器配置表中;
所述任务调度模块,还用于定时访问服务器配置表,查询服务器状态和服务器内存信息,并将查询到的服务器状态和服务器内存信息记录在对应服务器配置表中。
7.根据权利要求1所述的多维数据采集的系统,其特征在于,
所述应用管理模块,还用于接收到外部应用发送的kafka配置接口的请求数据后,将kafka配置接口的请求数据存储到数据库预先建立的对应的kafka配置信息表中;
所述任务调度模块,还用于在接收到所述应用管理模块的新建任务请求后,访问数据库的kafka配置信息表,读取kafka节点信息并组装到任务启动命令中;
所述任务采集模块,还用于在接收到任务启动命令后将采集到的数据写到对应的kafka节点对应的topic中。
8.根据权利要求1所述的多维数据采集的系统,其特征在于,
所述应用管理模块,还用于在接收到外部应用发送的数据类型新增的请求数据后,向任务调度模块发起新增数据类型请求;
所述任务调度模块在接收到所述应用管理模块发送的新增数据类型请求后,将对应的数据存入数据库中预先建立的数据类型表中,并将数据类型对应的jar包分发到任务采集模块可执行程序所在的每一条服务器上,并将任务采集模块可执行程序的版本号加1。
9.根据权利要求4所述的多维数据采集的系统,其特征在于,
所述应用管理模块,还用于根据任务采集表中的异常采集数据统计出任务采集异常时间段,接受外部应用发起的任务恢复请求,在接受到外部应用发起的任务恢复请求后,基于异常时间段生成任务恢复请求参数,并向所述任务调度模块发起任务恢复请求;
所述任务调度模块,还用于在接收到数据恢复请求后,根据任务恢复请求参数生成恢复任务数据存到任务表中,并标识该任务是数据恢复任务,发送恢复任务启动命令给所述任务采集模块;
所述任务采集模块,还用于在接收到所述任务调度模块的恢复任务启动命令后,根据需要恢复的采集数据的开始标记值、结束标记值计算恢复数据区间,根据恢复数据区间进行数据采集,恢复数据区间的数据采集完成后,任务自动停止;
其中,所述任务恢复请求参数包括需要恢复的采集数据的开始标记值和结束标记值以及任务名称、外部数据源类型、外部数据源连接参数、任务并发数和抽取频率。
CN201910809129.XA 2019-08-29 2019-08-29 一种多维数据采集的系统及方法 Active CN110636116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910809129.XA CN110636116B (zh) 2019-08-29 2019-08-29 一种多维数据采集的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910809129.XA CN110636116B (zh) 2019-08-29 2019-08-29 一种多维数据采集的系统及方法

Publications (2)

Publication Number Publication Date
CN110636116A CN110636116A (zh) 2019-12-31
CN110636116B true CN110636116B (zh) 2022-05-10

Family

ID=68969432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910809129.XA Active CN110636116B (zh) 2019-08-29 2019-08-29 一种多维数据采集的系统及方法

Country Status (1)

Country Link
CN (1) CN110636116B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111682973B (zh) * 2020-08-17 2020-11-13 烽火通信科技股份有限公司 一种边缘云的编排方法及系统
CN114903433A (zh) * 2021-02-10 2022-08-16 海信视像科技股份有限公司 电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN106649638A (zh) * 2016-12-08 2017-05-10 贵州数据宝网络科技有限公司 一种大数据获取方法
CN108123820A (zh) * 2016-11-29 2018-06-05 北京神州泰岳软件股份有限公司 一种网络设备信息采集方法和装置
CN108564250A (zh) * 2018-03-07 2018-09-21 中国平安人寿保险股份有限公司 转发记录实时查看系统、方法、计算机设备及存储介质
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109739818A (zh) * 2018-12-28 2019-05-10 浪潮软件股份有限公司 一种便捷式高吞吐量大数据采集方法及系统
CN109753596A (zh) * 2018-12-29 2019-05-14 中国科学院计算技术研究所 用于大规模网络数据采集的信源管理与配置方法和系统
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN110022226A (zh) * 2019-01-04 2019-07-16 国网浙江省电力有限公司 一种基于面向对象的数据采集系统及采集方法
CN110019090A (zh) * 2017-12-01 2019-07-16 广州明领基因科技有限公司 基于众包思想的社交网络大数据采集系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915358B2 (en) * 2013-09-30 2021-02-09 Schneider Electric USA, Inc. Systems and methods of data acquisition

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN108123820A (zh) * 2016-11-29 2018-06-05 北京神州泰岳软件股份有限公司 一种网络设备信息采集方法和装置
CN106649638A (zh) * 2016-12-08 2017-05-10 贵州数据宝网络科技有限公司 一种大数据获取方法
CN110019090A (zh) * 2017-12-01 2019-07-16 广州明领基因科技有限公司 基于众包思想的社交网络大数据采集系统
CN108564250A (zh) * 2018-03-07 2018-09-21 中国平安人寿保险股份有限公司 转发记录实时查看系统、方法、计算机设备及存储介质
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109739818A (zh) * 2018-12-28 2019-05-10 浪潮软件股份有限公司 一种便捷式高吞吐量大数据采集方法及系统
CN109753596A (zh) * 2018-12-29 2019-05-14 中国科学院计算技术研究所 用于大规模网络数据采集的信源管理与配置方法和系统
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN110022226A (zh) * 2019-01-04 2019-07-16 国网浙江省电力有限公司 一种基于面向对象的数据采集系统及采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"大数据系统和分析技术综述";程学旗;《软件学报》;20140915;全文 *

Also Published As

Publication number Publication date
CN110636116A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
US8028200B2 (en) Tracing operations in multiple computer systems
CN109033123B (zh) 基于大数据的查询方法、装置、计算机设备和存储介质
CN109857613B (zh) 一种基于采集集群的自动化运维系统
US7640459B2 (en) Performing computer application trace with other operations
US11334538B2 (en) System and method for cardinality estimation feedback loops in query processing
US20080098359A1 (en) Manipulation of trace sessions based on address parameters
WO2007139612A2 (en) Evaluating performance of software application
CN110636116B (zh) 一种多维数据采集的系统及方法
CN110489315B (zh) 一种操作请求的跟踪方法、跟踪装置及服务器
EP3384391B1 (en) Real-time change data from disparate sources
CN111611207B (zh) 状态数据处理方法、装置及计算机设备
CN109460307A (zh) 基于日志埋点的微服务调用跟踪方法及其系统
WO2016105352A1 (en) Automatically rerunning test executions
CN111339118A (zh) 基于Kubernetes的资源变更历史记录方法及装置
CN112115012A (zh) 分布式数据库的事务监控方法及装置、系统、存储介质
WO2016178661A1 (en) Determining idle testing periods
CN112084249A (zh) 一种访问记录提取方法及装置
CN114116762A (zh) 一种离线数据模糊搜索方法、装置、设备和介质
CN106874343B (zh) 一种时序数据库的数据删除方法及系统
CN110717130B (zh) 打点方法、装置、终端及存储介质
CN107515864B (zh) 监控工作流的方法及设备
CN110990227B (zh) 一种数值水池应用特征性能采集和监控系统及其运行方法
CN112612678A (zh) 一种基于字节码技术的零侵入监控方法及系统
CN112543127A (zh) 一种微服务架构的监控方法及装置
CN113297245A (zh) 获取执行信息的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant