CN115114275A - 一种数据采集方法、设备及介质 - Google Patents

一种数据采集方法、设备及介质 Download PDF

Info

Publication number
CN115114275A
CN115114275A CN202210884547.7A CN202210884547A CN115114275A CN 115114275 A CN115114275 A CN 115114275A CN 202210884547 A CN202210884547 A CN 202210884547A CN 115114275 A CN115114275 A CN 115114275A
Authority
CN
China
Prior art keywords
data acquisition
data
scripts
preset
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210884547.7A
Other languages
English (en)
Inventor
王家海
单震
国靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202210884547.7A priority Critical patent/CN115114275A/zh
Publication of CN115114275A publication Critical patent/CN115114275A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种数据采集方法、设备及介质,其中,方法包括:获取数据需求方提出的数据需求信息,根据数据需求信息建立数据采集任务;确定数据采集任务的数据采集流程,并通过预设的脚本模板,生成与数据采集流程依次匹配的多个数据采集脚本;对多个数据采集脚本进行校验,以确定多个数据采集脚本的执行情况是否满足预设要求;在多个数据采集脚本的执行情况均满足预设要求的情况下,上线多个数据采集脚本,并在检测到数据采集任务的执行指令的情况下,通过多个数据采集脚本执行数据采集任务,以获取到相应的目标数据。

Description

一种数据采集方法、设备及介质
技术领域
本申请涉及计算机技术领域,具体涉及一种数据采集方法、设备及介质。
背景技术
随着计算机技术的不断发展,数据的集中采集、开发和利用能够有效形成产业聚集效应,带来巨大的经济价值和社会效应。近年来由于企业、机构对各种数据的需求越来越大,如何将大量数据转换成有用的信息,为人们生活和社会发展的各方面提供正确的决策,已经成为企业面临的主要问题。
然而,随着数据量的不断增大以及数据源的复杂性,数据采集任务所需消耗的资源也在随之增大,如何在短时间内完成大任务量的数据采集需求,满足数据的及时性需求,已经成为亟待解决的问题。
发明内容
为了解决上述问题,本申请提出了一种数据采集方法,包括:获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
在本申请的一种实现方式中,对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求,具体包括:
构建用于校验所述多个数据采集脚本执行情况的验证表;
依次执行所述多个数据采集脚本,从预置数据库中采集验证数据,并将所述验证数据保存至所述验证表;
将所述验证表中的验证数据与所述数据库中的至少部分数据进行对比,以确定所述多个数据采集脚本的执行情况是否满足预设要求,所述至少部分数据与所述验证数据相对应。
在本申请的一种实现方式中,所述预设的脚本模板包括用于检索预置数据库中数据的通用检索语句,通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本,具体包括:
确定所述数据采集流程中所需采集的目标数据的字段信息,将所述字段信息导入到所述预设的脚本模板中;
根据所述字段信息,调整所述预设的脚本模板中的通用检索语句,以生成与所述数据采集流程匹配的数据采集脚本。
在本申请的一种实现方式中,确定所述多个数据采集脚本的执行情况是否满足预设要求之后,所述方法还包括:
若所述多个数据采集脚本的执行情况不满足预设要求,则对所述多个数据采集脚本进行优化。
在本申请的一种实现方式中,获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务,具体包括:
对所述数据需求信息进行建模,生成对应的数据字典;
确定所述数据需求信息所需调用的数据源信息,并根据所述数据字典和所述数据源信息,建立数据采集任务;所述数据源信息至少包括预置数据库信息。
在本申请的一种实现方式中,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据,具体包括:
根据所述数据采集流程,确定所述数据采集任务中包含的多个子任务的优先级;
将所述多个子任务,按照其对应的优先级下发至待执行任务队列中,所述待执行任务队列包括子任务信息以及与所述子任务信息相关联的数据采集脚本信息;
通过异步调度的方式,依次执行所述多个子任务,以获取到目标数据。
在本申请的一种实现方式中,通过异步调度的方式,依次执行所述多个子任务,以获取到目标数据,具体包括:
针对所述多个子任务,获取所述子任务的开始执行时间;
根据所述开始执行时间,确定所述子任务的已执行时长,若所述已执行时长大于预设执行时长,则发送超时提示信息至流程引擎,以根据所述超时提示信息停止当前正在执行的所述子任务,并进行告警。
在本申请的一种实现方式中,获取到相应的目标数据之后,所述方法还包括:
对所述目标数据进行集成,并对集成后的所述目标数据进行过滤,得到以固定格式存储的所述目标数据;
将所述以固定格式存储的所述目标数据转存至分析库中,以便于对所述目标数据进行后续分析。
本申请实施例提供了一种数据采集设备,其特征在于,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
本申请实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
通过本申请提出的一种数据采集方法能够带来如下有益效果:
对生成的数据采集脚本进行校验,只有在数据采集脚本的执行情况满足预设要求的情况下,才能够将其上线,确保了数据采集脚本的正确性。通过数据采集脚本自动化采集目标数据,在面对大数据量的数据采集任务时,能够有效提高数据采集效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种数据采集方法的流程示意图;
图2为本申请实施例提供的一种数据采集设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本申请实施例提供的一种数据采集方法,包括:
S101:获取数据需求方提出的数据需求信息,根据数据需求信息建立数据采集任务。
数据需求方在制定需求之后,通过对数据需求进行梳理可得到数据需求信息,数据需求信息主要包括数据类型、数据来源等信息。在获取数据需求信息之后,对数据需求信息进行建模,生成对应的数据字典,然后根据数据需求信息,确定数据需求信息所需调用的数据源信息,并根据数据字典和数据源信息,建立数据采集任务,其中,数据源信息至少包括预置数据库信息。
S102:确定数据采集任务的数据采集流程,并通过预设的脚本模板,生成与数据采集流程依次匹配的多个数据采集脚本。
由于数据需求方所需的数据量较大,在生成数据采集任务的时候,可将数据采集任务划分为多个数据采集流程,多个数据采集流程呈层级关系。在划分出多个数据采集流程之后,可针对各数据采集流程,分别生成对应的数据采集脚本,从而通过数据采集脚本从数据源中获取相应的目标数据。
具体地,数据采集脚本可通过预设的脚本模板得到,预设的脚本模板包括用于检索预置数据库中数据的通用检索语句。确定数据采集流程中所需采集的目标数据的字段信息,将字段信息导入到预设的脚本模板中,在导入字段信息之后,根据字段信息,调整预设的脚本模板中的通用检索语句,从而生成与数据采集流程匹配的数据采集脚本。需要说明的是,若采集的目标数据来源于不同的数据源,在生成数据采集脚本时,还需调整各字段所使用的编译语言和编译函数,以使其能够适配不同的数据库类型。
在一个实施例中,除通过预设的脚本模板来生成数据采集脚本这种方式,还可将数据需求信息输入至自动化脚本生成工具,从而借助于自动化脚本生成工具和Informatica三层采集技术,自动生成三层数据采集脚本。
S103:对多个数据采集脚本进行校验,以确定多个数据采集脚本的执行情况是否满足预设要求。
在生成数据采集脚本后,需对脚本进行校验,以保证所采集数据的正确性。具体地,构建用于校验多个数据采集脚本执行情况的验证表,验证表可用于保存数据采集脚本采集到的验证数据。依次执行多个数据采集脚本,从预置数据库中采集验证数据,并将验证数据保存至验证表。在采集到验证数据之后,将验证数据与数据库中的至少部分数据进行对比,以此查看数据库中的至少部分数据是否成功写入验证表中,其中,数据库中的至少部分数据与验证数据相对应。如果成功写入,则说明数据采集脚本的执行情况满足预设要求;如果没有,则说明当前多个数据采集脚本的执行情况不满足预设要求,此时需对多个数据采集脚本进行优化。
S104:在多个数据采集脚本的执行情况均满足预设要求的情况下,上线多个数据采集脚本,并在检测到数据采集任务的执行指令的情况下,通过多个数据采集脚本执行数据采集任务,以获取到相应的目标数据。
在数据采集脚本通过校验的情况下,可在正式环境中上线多个数据采集样本。一旦检测到有针对数据采集任务的执行指令,则执行当前执行指令对应的数据采集任务,以采集到目标数据。
具体地,数据采集任务分为若干数据采集流程,且各数据采集流程之间具有层级关系,该层级关系与数据需求信息中数据的逻辑关系相对应。本申请可根据数据采集流程,确定数据采集任务中包含的多个子任务的优先级,其中,每一子任务对应一条数据采集流程。在确定子任务的优先级之后,将多个子任务,按照其对应的优先级下发至待执行任务队列中,待执行任务队列包括子任务信息以及与子任务信息相关联的数据采集脚本信息。完成子任务的下发之后,通过异步调度的方式,依次执行多个子任务,从而获取到目标数据。
在执行数据采集任务的时候,可通过设置监听事件,对当前正在执行的子任务的状态进行监听。在某一子任务开始执行之后,需获取其开始执行时间,然后根据该开始执行时间和当前时间,确定子任务的已执行时长。如果已执行时长大于预设执行时长,则说明在预设的子任务执行时间内,子任务并未及时发送响应信息,此时正在执行子任务的线程应发生了异常,需发送超时提示信息至流程引擎,这样在接收到该超时提示信息后,便可停止当前正在执行的子任务,并进行告警,有利于管理人员及时对该子任务进行处理,防止其占用处理资源,确保数据采集任务的顺利执行。
本申请在多个数据采集脚本的执行过程中,除了通过监听数据采集任务是否超时,还可对数据采集脚本的性能指标进行监测,从而根据所述性能指标对数据采集脚本进行优化。其中,性能指标至少包括以下一项或多项:程序故障、运行效率、脚本质量。并且,在业务场景变化的情况下,可对预设的脚本模板进行功能扩展和需求升级,以满足更为多样化的数据采集需求。
在完成目标数据的采集后,需对已经提取出的数据进行转储,并对来自不同数据源的目标数据进行集成和过滤,以去除不同数据源中数据的差异性,从而得到以固定格式存储的目标数据。在生成固定格式的目标数据之后,由于数据量巨大和原始作业系统众多,为了不影响分析人员使用数据,需将上述得到的以固定格式存储的目标数据转存至分析库中,以便于后续对目标数据进行分析,保证了对数据分析的时效需求,同时提高了数据采集处理的效率。
以上为本申请提出的方法实施例。基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。
图2为本申请实施例提供的一种数据采集设备的结构示意图。如图2所示,包括:
至少一个处理器;以及,
至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取数据需求方提出的数据需求信息,根据数据需求信息建立数据采集任务;
确定数据采集任务的数据采集流程,并通过预设的脚本模板,生成与数据采集流程依次匹配的多个数据采集脚本;
对多个数据采集脚本进行校验,以确定多个数据采集脚本的执行情况是否满足预设要求;
在多个数据采集脚本的执行情况均满足预设要求的情况下,上线多个数据采集脚本,并在检测到数据采集任务的执行指令的情况下,通过多个数据采集脚本执行数据采集任务,以获取到相应的目标数据。
本申请实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,计算机可执行指令设置为:
获取数据需求方提出的数据需求信息,根据数据需求信息建立数据采集任务;
确定数据采集任务的数据采集流程,并通过预设的脚本模板,生成与数据采集流程依次匹配的多个数据采集脚本;
对多个数据采集脚本进行校验,以确定多个数据采集脚本的执行情况是否满足预设要求;
在多个数据采集脚本的执行情况均满足预设要求的情况下,上线多个数据采集脚本,并在检测到数据采集任务的执行指令的情况下,通过多个数据采集脚本执行数据采集任务,以获取到相应的目标数据。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据采集方法,其特征在于,所述方法包括:
获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
2.根据权利要求1所述的一种数据采集方法,其特征在于,对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求,具体包括:
构建用于校验所述多个数据采集脚本执行情况的验证表;
依次执行所述多个数据采集脚本,从预置数据库中采集验证数据,并将所述验证数据保存至所述验证表;
将所述验证表中的验证数据与所述数据库中的至少部分数据进行对比,以确定所述多个数据采集脚本的执行情况是否满足预设要求,所述至少部分数据与所述验证数据相对应。
3.根据权利要求1所述的一种数据采集方法,其特征在于,所述预设的脚本模板包括用于检索预置数据库中数据的通用检索语句,通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本,具体包括:
确定所述数据采集流程中所需采集的目标数据的字段信息,将所述字段信息导入到所述预设的脚本模板中;
根据所述字段信息,调整所述预设的脚本模板中的通用检索语句,以生成与所述数据采集流程匹配的数据采集脚本。
4.根据权利要求2所述的一种数据采集方法,其特征在于,确定所述多个数据采集脚本的执行情况是否满足预设要求之后,所述方法还包括:
若所述多个数据采集脚本的执行情况不满足预设要求,则对所述多个数据采集脚本进行优化。
5.根据权利要求1所述的一种数据采集方法,其特征在于,获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务,具体包括:
对所述数据需求信息进行建模,生成对应的数据字典;
确定所述数据需求信息所需调用的数据源信息,并根据所述数据字典和所述数据源信息,建立数据采集任务;所述数据源信息至少包括预置数据库信息。
6.根据权利要求1所述的一种数据采集方法,其特征在于,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据,具体包括:
根据所述数据采集流程,确定所述数据采集任务中包含的多个子任务的优先级;
将所述多个子任务,按照其对应的优先级下发至待执行任务队列中,所述待执行任务队列包括子任务信息以及与所述子任务信息相关联的数据采集脚本信息;
通过异步调度的方式,依次执行所述多个子任务,以获取到目标数据。
7.根据权利要求6所述的一种数据采集方法,其特征在于,通过异步调度的方式,依次执行所述多个子任务,以获取到目标数据,具体包括:
针对所述多个子任务,获取所述子任务的开始执行时间;
根据所述开始执行时间,确定所述子任务的已执行时长,若所述已执行时长大于预设执行时长,则发送超时提示信息至流程引擎,以根据所述超时提示信息停止当前正在执行的所述子任务,并进行告警。
8.根据权利要求1所述的一种数据采集方法,其特征在于,获取到相应的目标数据之后,所述方法还包括:
对所述目标数据进行集成,并对集成后的所述目标数据进行过滤,得到以固定格式存储的所述目标数据;
将所述以固定格式存储的所述目标数据转存至分析库中,以便于对所述目标数据进行后续分析。
9.一种数据采集设备,其特征在于,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取数据需求方提出的数据需求信息,根据所述数据需求信息建立数据采集任务;
确定所述数据采集任务的数据采集流程,并通过预设的脚本模板,生成与所述数据采集流程依次匹配的多个数据采集脚本;
对所述多个数据采集脚本进行校验,以确定所述多个数据采集脚本的执行情况是否满足预设要求;
在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下,上线所述多个数据采集脚本,并在检测到所述数据采集任务的执行指令的情况下,通过所述多个数据采集脚本执行所述数据采集任务,以获取到相应的目标数据。
CN202210884547.7A 2022-07-25 2022-07-25 一种数据采集方法、设备及介质 Withdrawn CN115114275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210884547.7A CN115114275A (zh) 2022-07-25 2022-07-25 一种数据采集方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210884547.7A CN115114275A (zh) 2022-07-25 2022-07-25 一种数据采集方法、设备及介质

Publications (1)

Publication Number Publication Date
CN115114275A true CN115114275A (zh) 2022-09-27

Family

ID=83334462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210884547.7A Withdrawn CN115114275A (zh) 2022-07-25 2022-07-25 一种数据采集方法、设备及介质

Country Status (1)

Country Link
CN (1) CN115114275A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904719A (zh) * 2022-12-02 2023-04-04 杭州义益钛迪信息技术有限公司 数据采集方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904719A (zh) * 2022-12-02 2023-04-04 杭州义益钛迪信息技术有限公司 数据采集方法、装置、电子设备及存储介质
CN115904719B (zh) * 2022-12-02 2023-12-08 杭州义益钛迪信息技术有限公司 数据采集方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106897206B (zh) 一种业务测试方法及装置
CN113656245B (zh) 数据的巡检方法、装置、存储介质及处理器
CN103514223A (zh) 一种数据仓库数据同步方法和系统
CN112559475B (zh) 数据实时捕获和传输方法及系统
CN114035925A (zh) 一种工作流调度方法、装置、设备及可读存储介质
CN111339118A (zh) 基于Kubernetes的资源变更历史记录方法及装置
CN112965882A (zh) 一种数据故障分析的方法及装置
CN115114275A (zh) 一种数据采集方法、设备及介质
CN111932359A (zh) 一种风险监测方法、系统及电子设备
CN116303380B (zh) 一种监测业务中的数据质量校验方法、设备及介质
CN116414914A (zh) 数据的同步方法、装置、处理器及电子设备
CN115168297A (zh) 绕行日志审计方法及装置
CN115629950B (zh) 一种性能测试异步请求处理时间点的提取方法
CN117873691B (zh) 数据处理方法、装置、设备及可读存储介质
CN117271474A (zh) 数据迁移方法、装置、存储介质以及电子设备
CN115460103B (zh) 一种服务状态监控方法及系统、电子设备、存储介质
CN117193730A (zh) 一种基于kettle脚本生成工具的数据处理方法、设备及介质
CN116226247A (zh) 一种基于dsg的业务数据采集抽取方法、设备及存储介质
CN117216154A (zh) 异构数据库数据复制系统、方法及存储介质
CN117762667A (zh) 系统故障的预案生成方法、装置、存储介质及电子设备
CN117492817A (zh) 环境配置信息的处理方法和装置、存储介质及电子设备
CN117648348A (zh) 一种基于PaaS平台数据引擎的数据处理方法、设备及介质
CN111427786A (zh) 异常Full GC问题检测方法及装置
CN117370449A (zh) 数据处理方法、装置、存储介质及电子装置
CN116701529A (zh) 一种跨系统推送信息接口的实现方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220927