CN113485894A - 一种数据采集方法、装置、设备及可读存储介质 - Google Patents

一种数据采集方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113485894A
CN113485894A CN202110796098.6A CN202110796098A CN113485894A CN 113485894 A CN113485894 A CN 113485894A CN 202110796098 A CN202110796098 A CN 202110796098A CN 113485894 A CN113485894 A CN 113485894A
Authority
CN
China
Prior art keywords
synchronizer
data
data acquisition
target
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110796098.6A
Other languages
English (en)
Inventor
张武懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202110796098.6A priority Critical patent/CN113485894A/zh
Publication of CN113485894A publication Critical patent/CN113485894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Abstract

本申请公开了一种数据采集方法、装置、设备及可读存储介质,该方法包括:确定当前的数据采集场景;从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器;调用各个目标同步器采集数据。在本申请中,预先注册好多种不同数据采集场景分别匹配的同步器,即可适配多种不同的数据采集场景,能够有效适配多种数据场景下的数据采集需求,进一步可以对系统监控提供有效数据。

Description

一种数据采集方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种数据采集方法、装置、设备及可读存储介质。
背景技术
数据中心的系统监控平台针对主机应用类监控主要采取ITM(IBM TivoliMonitoring)日志对接(数据采集)方案。
但是,ITM日志对接过程中,由于数据采集组件的形式单一,无法适配接入多种场景形式下的数据源。也就是说,无法适应多种数据采集场景的数据采集需求。而无法视频接入多种场景形式下的数据源,这就导致数据中心的系统监控平台无法对系统进行有效监控,难以满足监控需求。
综上所述,如何有效地解决多种场景下的数据采集等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种数据采集方法、装置、设备及可读存储介质,能够在数据采集时,实现多场景支持。
为解决上述技术问题,本申请提供如下技术方案:
一种数据采集方法,包括:
确定当前的数据采集场景;
从已注册同步器中确定出与每个所述数据采集场景分别匹配的目标同步器;
调用所述目标同步器采集数据。
优选地,还包括:
获取各个所述目标同步器的运行状态信息;
利用所述运行状态信息,进行故障问题定位。
优选地,还包括:
获取运行时环境变量,并初始化运行时环境;
获取同步器列表,并对同步器进行注册。
优选地,所述调用所述目标同步器采集数据,包括:
调用所述目标同步器的代理器、转换器、导入器、清理器和模板生成器中的至少一个,对所述数据采集场景进行数据采集。
优选地,包括:
所述代理器,用于按照对应的所述数据采集场景的数据格式进行数据采集并存盘;
所述模板生成器,用于生成模板文件;
所述转换器,用于加载所述模板文件,并对相应的所述代理器采集的数据进行映射处理;
所述导入器,用于将映射处理后的数据导入到数据分析平台;
所述清理器,用于对原始存盘数据源进行清理。
优选地,还包括:
在所述已注册同步器中未找到与所述数据采集场景中的目标采集场景对应同步器的情况下,获取与所述目标采集场景对应的同步器定义信息;
利用所述同步器定义信息,构建出与所述目标采集场景对应同步器;
对所述目标采集场景对应同步器进行注册,并将所述目标采集场景对应同步器确定为所述目标同步器。
优选地,利用所述同步器定义信息,构建出与所述目标采集场景对应同步器,包括:
利用所述同步器定义信息,选定所述目标采集场景对应同步器的代理器、转换器、导入器和清理器的具体类型,并构建模板生成器;
其中,所述构建模板生成器,包括:
从所述同步器定义信息中获取数据格式映射关系;
利用所述数据格式映射关系,构建所述模板生成器;所述模板生成器用于生成原始数据源的格式映射配置文件。
一种数据采集装置,包括:
场景确定模块,用于确定当前的数据采集场景;
同步器确定模块,用于从已注册同步器中确定出与每个所述数据采集场景分别匹配的目标同步器;
数据采集模块,用于调用所述目标同步器采集数据。
一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述数据采集方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据采集方法的步骤。
应用本申请实施例所提供的方法,确定当前的数据采集场景;从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器;调用各个目标同步器采集数据。
在本申请中,可以预先注册好与不同数据采集场景匹配的同步器。在确定了当前的数据采集场景之后,便可以从已注册的同步器中确定出与每一个数据采集场景分别匹配的目标同步器。然后,调用与对应的数据采集场景匹配的目标同步器,便可以针对当前的数据采集场景进行数据采集。也就是说,预先注册好多种不同数据采集场景分别匹配的同步器,即可适配多种不同的数据采集场景,能够有效适配多种数据场景下的数据采集需求,进一步可以对系统监控提供有效数据。
相应地,本申请实施例还提供了与上述数据采集方法相对应的数据采集装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种数据采集方法的实施流程图;
图2为本申请实施例中一种数据采集方法的具体实施示意图;
图3为本申请实施例中一种数据采集装置的结构示意图;
图4为本申请实施例中一种电子设备的结构示意图;
图5为本申请实施例中一种电子设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例中一种数据采集方法的流程图,该方法包括以下步骤:
S101、确定当前的数据采集场景。
在本实施例中,为了能够有效适配多种数据采集场景的数据采集需求,还可以预先进行配置初始化,并注册好相应的同步器。具体实现过程包括:
步骤一、获取运行时环境变量,并初始化运行时环境;
步骤二、获取同步器列表,并对同步器进行注册。
为便于描述,下面将上述两个步骤结合起来进行说明。
具体的,可以通过结构层次化语言(如json或yaml等)定义运行时环境(runtime)变量、同步器。程序启动后,加载配置,获取运行时环境变量完成初始化;然后获取同步器列表,并将其注册到调度器中,然后便可由调度器调度执行同步器。
在本实施例中,基于数据采集形式/格式的区别,将数据采集划分为不同的数据采集场景。例如,针对日志格式数据(syslog)的采集形式,则对应日志格式数据采集场景;针对接口格式数据(RESTFUL)的采集形式,则对应接口格式数据采集场景;针对主动拉取格式数据(pull),则对应主动拉取格式数据采集场景。当然,在实际应用中,还有更多的采集场景,在此不再一一赘述。
数据采集场景是对应数据采集格式的,因而在实际应用中,可以根据数据采集需求,确定出当前的数据采集场景。例如,当需要采集日志格式数据和主动拉取格式数据时,则确定当前的数据采集场景包括日志格式数据采集场景和主动拉取格式数据采集场景。
S102、从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器。
其中,不同的同步器即对应不同的数据采集场景进行数据采集。
在本实施中,可以预先针对不同的数据采集场景设置并注册好对应的同步器。例如,可以预先注册好日志格式数据采集场景、接口格式数据采集场景和主动拉取格式数据采集场景。如此,在确定出当前的数据采集场景之后,便可以从已注册的同步器中确定出与每一个数据采集场景分别匹配的目标同步器。
具体的,在注册同步器时,可以为同步器设置对应的数据采集场景的标记/标签,基于该标记/标签便可以确定出对应的目标同步器。当然,也可以通过设置一个同步器与数据采集场景的对照表,然后基于该对照表,从已注册同步器中确定出与当前的数据采集场景匹配的目标同步器。
需要注意的是,同步器与数据采集场景的一一对应的,因而当前的数据采集场景仅一个,则确定出的目标同步器也仅有一个;在当前的数据采集场景为2个,则确定出的目标同步器也有两个。
S103、调用目标同步器采集数据。
即可以直接通过调用的目标同步器的方式,来采集当前的数据采集场景下的数据。
在本实施例中,同步器可以具体包括代理器、转换器、导入器、清理器和模板生成器。
也就是说,步骤S103调用目标同步器采集数据,可以具体包括:调用目标同步器的代理器、转换器、导入器、清理器和模板生成器中的至少一个,对数据采集场景进行数据采集。例如,可以调用代理器、转换器、导入器和模板生成器,也可以调用代理器、转换器、导入器、清理器和模板生成器(当然,还有其他调用情况,在此不再一一赘述),对数据采集场景进行数据采集。
具体的,在目标同步器中各个组件的功能作用如下:
代理器,用于按照对应的数据采集场景的数据格式进行数据采集并存盘;
模板生成器,用于生成模板文件;
转换器,用于加载模板文件,并对相应的代理器采集的数据进行映射处理;
导入器,用于将映射处理后的数据导入到数据分析平台;
清理器,用于对原始存盘数据源进行清理。
为便于说明目标同步器的各个组件的功能以及相互的协同过程,下面对上述各个组件结合起来进行说明。
代理器主要负责数据的接收存盘。其中,代理器包括syslog代理器(对应日志格式数据采集场景的同步器)、REST代理器(对应接口格式数据采集场景的同步器)和pull代理器(对应主动拉取格式数据采集场景)等。
转换器会加载模板生成器生成的模板文件将代理器接入的数据进行映射处理,然后交由导入器导入到数据分析平台,以便数据分析平台后续对数据进行分析。也就是说,模板生成器+转换器+导入器,实现不同原始数据源的格式映射转换。清理器负责原始存盘数据源的清理工作。
应用本申请实施例所提供的方法,确定当前的数据采集场景;从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器;调用各个目标同步器采集数据。
在本申请中,可以预先注册好与不同数据采集场景匹配的同步器。在确定了当前的数据采集场景之后,便可以从已注册的同步器中确定出与每一个数据采集场景分别匹配的目标同步器。然后,调用与对应的数据采集场景匹配的目标同步器,便可以针对当前的数据采集场景进行数据采集。也就是说,预先注册好多种不同数据采集场景分别匹配的同步器,即可适配多种不同的数据采集场景,能够有效适配多种数据场景下的数据采集需求,进一步可以对系统监控提供有效数据。
需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
在本申请中的一种具体实施方式中,还可以基于目标同步器的运行状态信息来为了进行故障定位,以便快速解决数据采集过程中所产生的故障问题。具体实施过程,包括:
步骤一、获取各个目标同步器的运行状态信息;
步骤二、利用运行状态信息,进行故障问题定位。
为便于描述,下面将上述两个步骤结合起来进行说明。
从上文可知,同步器包括代理器、转换器、导入器、清理器和模板生成器,各个不同的组件的调用以及各个组件的具体状态即对应了目标同步器的运行状态信息。具体的,调用代理器即表明目标同步器处于源数据收集状态,具体还可细分为数据接入、数据存盘和任务生成;调用转换器即表明目标同步器处于数据转换处理阶段,具体还可细分为执行代理器生成的任务,递交事务(即生成导入器的数据导入任务和清理器的数据清理任务);调用模板生成器即表明目标同步器在获取模板文件;调用导入器即指目标同步器处于数据导入阶段;调用清理器即表明目标同步器在清理原始存盘数据源。
得到各个运行状态信息后,在发现故障后,便可基于故障对应的运行状态信息对故障问题进行有效定位,利于快速解决故障问题。例如,当故障发生时,目标同步器正在调用代理器,则表明是源数据收集出现故障。
在本申请中的一种具体实施方式中,由于同步器配置简单,还可以在临时注册相应的同步器来适配当前的多数据采集场景。具体实现过程,包括:
步骤一、在已注册同步器中未找到与数据采集场景中的目标采集场景对应同步器的情况下,获取与目标采集场景对应的同步器定义信息;
步骤二、利用同步器定义信息,构建出与目标采集场景对应同步器;
步骤三、对目标采集场景对应同步器进行注册,并将目标采集场景对应同步器确定为目标同步器。
为便于描述,下面将上述三个步骤结合起来进行说明。
也就是说,在实际应用中,可能会出现无法从已注册的同步器中找到与当前数据采集场景匹配的某一个或多个同步器。为便于区别,在本实施例中将未能找到匹配的同步器的数据采集场景称之为目标采集场景。该目标采集场景的数量和种类均不做限定。
其中,同步器定义信息可以具体包括对各个组件的选型和定义。该同步器定义信息可以由用户输入。具体的,基于该同步器定义信息便可以构建出与目标采集场景对应的同步器。
构建出与目标采集场景对应的同步器之后,便可以对目标采集场景对应的同步器进行注册,在注册完成之后,便可以将该目标采集场景对应同步器确定为目标同步器,以便后续调用该目标同步器对目标采集场景进行数据采集。
上述步骤二,利用同步器定义信息,构建出与目标采集场景对应同步器,可以具体包括:利用同步器定义信息,选定目标采集场景对应同步器的代理器、转换器、导入器和清理器的具体类型,并构建模板生成器。也就是说,利用同步器定义信息构建同步器,即确定同步器的各个组件。考虑到在实际应用中代理器、转换器、导入器和清理器均为公共组件,即仅需确定对应的型号即可,而无需重复定义,因而可以仅构建出对应的模板生成器即可。
具体的,构建模板生成器,包括:
步骤1、从同步器定义信息中获取数据格式映射关系;
步骤2、利用数据格式映射关系,构建模板生成器;模板生成器用于生成原始数据源的格式映射配置文件。
模板生成器负责生成原始数据源的格式映射配置文件。可以预先抽象出一个模板生成器的基类,只要梳理好格式映射关系,就可以基于此基类快速构建一个模板生成器。
为便于本领域技术人员更好地理解本申请实施例所提供的数据采集方法,下面结合框架分层的协同工作,来对数据采集方法进行详细说明。
请参考图2,图2为本申请实施例中一种数据采集方法的具体实施示意图,其中,API(Application Programming Interface):应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。CDS(Configure Define Software):配置定义软件,软件的所有行为特征通过结构层次化配置文件进行定义。AS(ApplicationSynchronizer):App同步器(即一种面向APP数据采集的同步器),数据采集器的基本调度单位,每一种数据源都以一种App同步器的形式接入数据采集器。
其中,CDS模块可以通过结构层次化语言定义runtime运行时环境变量和AS同步器。程序启动后,加载CDS配置,获取运行时环境(runtime)变量完成初始化;然后获取AS同步器列表,并将其注册到调度器中,由调度器调度执行AS同步器。
调度层负责AS同步器的调度执行以及运行状态机维护。每个AS同步器都会定义自己的proxy代理器、transformer转换器、loader导入器、cleaner清理器、template模板生成器,由调度层负责调度执行。AS同步器各组件在运行过程中,会将自身的运行状态信息上报给调度层,由调度层统一接收处理,并提供RESTFUL查询接口,以供故障问题定位。同时调度层也提供RESTFUL查询接口可对指定的AS同步器进行激活(active)或注销(inactive)处理。
proxy代理层负责数据的接收存盘。由proxy代理层提供各种不同的数据采集形式(场景)。如标准syslog日志格式数据、RESTFUL接口格式数据、pull主动拉取格式数据。当然,还可有其他数据采集场景,直接在该层定义即可。
mapper映射层负责数据的映射导入。transformer转换器会加载template模板生成器生成的模板文件将proxy代理层接入的数据进行映射处理,然后交由loader导入器导入到后端DPI数据分析平台进行分析。也可以理解为,template模板生成器+transformer转换器+loader导入器,实现不同原始数据源的格式映射转换。cleaner清理器负责原始存盘数据源的清理工作。
当前架构下的数据采集器,每接入一种数据源时,只需要定义其对应的AS同步器即可。每个AS同步器包括proxy代理器、transformer转换器、loader导入器、cleaner清理器、template模板生成器。由于proxy代理器、transformer转换器、loader导入器、cleaner清理器都是公共组件,因而只要在定义AS同步器配置时指定对应的组件名称即可,交由调度层自行调度执行。所以定义一个AS同步器只需要自行定义自己的template模板生成器即可。
template模板生成器负责生成原始数据源的格式映射配置文件。框架抽象了一个模板生成器的基类,只要梳理好格式映射关系,就可以基于此基类快速构建一个template模板生成器;同时框架也提供RESTFUL接口直接生成对应的template模板生成器。
可见,本申请所提供的数据采集方法,将数据采集流进行分层解耦抽象,由proxy代理层负责数据接收存盘、mapper映射层负责数据映射导入、scheduler调度层负责各模块的调度执行以及运行状态收集;将proxy代理层和mapper映射层聚合抽象为AS同步器,作为scheduler调度层的基本调度单位;由配置文件组合框架公共组件来定义AS同步器,便于简易适配数据源,实现CDS配置定义软件。即,数据采集方法,可使数据采集器可支持syslog/restful/pull等多种采集场景、可通过配置文件和映射模板简易适配数据源、可通过RESTFUL接口获取状态机信息快速定位故障问题。
相应于上面的方法实施例,本申请实施例还提供了一种数据采集装置,下文描述的数据采集装置与上文描述的数据采集方法可相互对应参照。
参见图3所示,该装置包括以下模块:
场景确定模块101,用于确定当前的数据采集场景;
同步器确定模块102,用于从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器;
数据采集模块103,用于调用目标同步器采集数据。
应用本申请实施例所提供的装置,确定当前的数据采集场景;从已注册同步器中确定出与每个数据采集场景分别匹配的目标同步器;调用各个目标同步器采集数据。
在本申请中,可以预先注册好与不同数据采集场景匹配的同步器。在确定了当前的数据采集场景之后,便可以从已注册的同步器中确定出与每一个数据采集场景分别匹配的目标同步器。然后,调用与对应的数据采集场景匹配的目标同步器,便可以针对当前的数据采集场景进行数据采集。也就是说,预先注册好多种不同数据采集场景分别匹配的同步器,即可适配多种不同的数据采集场景,能够有效适配多种数据场景下的数据采集需求,进一步可以对系统监控提供有效数据。
在本申请的一种具体实施方式中,还包括:
故障问题定位模块,由于获取各个目标同步器的运行状态信息;利用运行状态信息,进行故障问题定位。
在本申请的一种具体实施方式中,还包括:
配置模块,由于获取运行时环境变量,并初始化运行时环境;获取同步器列表,并对同步器进行注册。
在本申请的一种具体实施方式中,数据采集模块103,具体用于调用目标同步器的代理器、转换器、导入器、清理器和模板生成器中的至少一个,对数据采集场景进行数据采集。
在本申请的一种具体实施方式中,代理器,用于按照对应的数据采集场景的数据格式进行数据采集并存盘;模板生成器,用于生成模板文件;转换器,用于加载模板文件,并对相应的代理器采集的数据进行映射处理;导入器,用于将映射处理后的数据导入到数据分析平台;清理器,用于对原始存盘数据源进行清理。
在本申请的一种具体实施方式中,还包括:
临时适配模块,用于在已注册同步器中未找到与数据采集场景中的目标采集场景对应同步器的情况下,获取与目标采集场景对应的同步器定义信息;利用同步器定义信息,构建出与目标采集场景对应同步器;对目标采集场景对应同步器进行注册,并将目标采集场景对应同步器确定为目标同步器。
在本申请的一种具体实施方式中,临时适配模块,具体用于利用同步器定义信息,选定目标采集场景对应同步器的代理器、转换器、导入器和清理器的具体类型,并构建模板生成器。
在本申请的一种具体实施方式中,临时适配模块,具体用于从同步器定义信息中获取数据格式映射关系;利用数据格式映射关系,构建模板生成器;模板生成器用于生成原始数据源的格式映射配置文件。
相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种数据采集方法可相互对应参照。
参见图4所示,该电子设备包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的数据采集方法的步骤。
具体的,请参考图5,图5为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的数据采集方法中的步骤可以由电子设备的结构实现。
相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种数据采集方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的数据采集方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
确定当前的数据采集场景;
从已注册同步器中确定出与每个所述数据采集场景分别匹配的目标同步器;
调用所述目标同步器采集数据。
2.根据权利要求1所述的数据采集方法,其特征在于,还包括:
获取各个所述目标同步器的运行状态信息;
利用所述运行状态信息,进行故障问题定位。
3.根据权利要求1所述的数据采集方法,其特征在于,还包括:
获取运行时环境变量,并初始化运行时环境;
获取同步器列表,并对同步器进行注册。
4.根据权利要求1至3任一项所述的数据采集方法,其特征在于,所述调用所述目标同步器采集数据,包括:
调用所述目标同步器的代理器、转换器、导入器、清理器和模板生成器中的至少一个,对所述数据采集场景进行数据采集。
5.根据权利要求4中的数据采集方法,其特征在于,包括:
所述代理器,用于按照对应的所述数据采集场景的数据格式进行数据采集并存盘;
所述模板生成器,用于生成模板文件;
所述转换器,用于加载所述模板文件,并对相应的所述代理器采集的数据进行映射处理;
所述导入器,用于将映射处理后的数据导入到数据分析平台;
所述清理器,用于对原始存盘数据源进行清理。
6.根据权利要求1至3任一项所述的数据采集方法,其特征在于,还包括:
在所述已注册同步器中未找到与所述数据采集场景中的目标采集场景对应同步器的情况下,获取与所述目标采集场景对应的同步器定义信息;
利用所述同步器定义信息,构建出与所述目标采集场景对应同步器;
对所述目标采集场景对应同步器进行注册,并将所述目标采集场景对应同步器确定为所述目标同步器。
7.根据权利要求6所述的数据采集方法,其特征在于,利用所述同步器定义信息,构建出与所述目标采集场景对应同步器,包括:
利用所述同步器定义信息,选定所述目标采集场景对应同步器的代理器、转换器、导入器和清理器的具体类型,并构建模板生成器;
其中,所述构建模板生成器,包括:
从所述同步器定义信息中获取数据格式映射关系;
利用所述数据格式映射关系,构建所述模板生成器;所述模板生成器用于生成原始数据源的格式映射配置文件。
8.一种数据采集装置,其特征在于,包括:
场景确定模块,用于确定当前的数据采集场景;
同步器确定模块,用于从已注册同步器中确定出与每个所述数据采集场景分别匹配的目标同步器;
数据采集模块,用于调用所述目标同步器采集数据。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述数据采集方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据采集方法的步骤。
CN202110796098.6A 2021-07-14 2021-07-14 一种数据采集方法、装置、设备及可读存储介质 Pending CN113485894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110796098.6A CN113485894A (zh) 2021-07-14 2021-07-14 一种数据采集方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110796098.6A CN113485894A (zh) 2021-07-14 2021-07-14 一种数据采集方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113485894A true CN113485894A (zh) 2021-10-08

Family

ID=77939397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110796098.6A Pending CN113485894A (zh) 2021-07-14 2021-07-14 一种数据采集方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113485894A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986943A (zh) * 2021-12-28 2022-01-28 畅捷通信息技术股份有限公司 一种基于场景数据戳的数据一致性验证方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
CN105099740A (zh) * 2014-05-15 2015-11-25 中国移动通信集团浙江有限公司 一种日志管理系统及日志采集方法
CN108809701A (zh) * 2018-05-23 2018-11-13 郑州云海信息技术有限公司 一种数据中心智慧数据平台及其实现方法
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN112734525A (zh) * 2021-01-12 2021-04-30 中交智运有限公司 一种多源数据处理方法、系统、设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
CN105099740A (zh) * 2014-05-15 2015-11-25 中国移动通信集团浙江有限公司 一种日志管理系统及日志采集方法
CN108809701A (zh) * 2018-05-23 2018-11-13 郑州云海信息技术有限公司 一种数据中心智慧数据平台及其实现方法
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN109815382A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 大规模网络数据的感知与获取方法和系统
CN112734525A (zh) * 2021-01-12 2021-04-30 中交智运有限公司 一种多源数据处理方法、系统、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986943A (zh) * 2021-12-28 2022-01-28 畅捷通信息技术股份有限公司 一种基于场景数据戳的数据一致性验证方法、装置及介质
CN113986943B (zh) * 2021-12-28 2022-04-22 畅捷通信息技术股份有限公司 一种基于场景数据戳的数据一致性验证方法、装置及介质

Similar Documents

Publication Publication Date Title
CN102880503B (zh) 数据分析系统及数据分析方法
US20210311858A1 (en) System and method for providing a test manager for use with a mainframe rehosting platform
US8713526B2 (en) Assigning runtime artifacts to software components
US9235495B2 (en) Method and system that provides an interactive debugging session
CN108243012B (zh) 在线计费系统ocs中计费应用处理系统、方法及装置
US20170123777A1 (en) Deploying applications on application platforms
CN104579792A (zh) 多适配方式实现多种类型虚拟资源集中管理架构及方法
WO2014035309A1 (en) Re-configuration in cloud computing environments
CN113220431B (zh) 跨云的分布式数据任务调度方法、设备及存储介质
CN112256406B (zh) 作业流程平台化调度方法
CN114327861A (zh) 执行eda任务的方法、装置、系统和存储介质
CN112395736A (zh) 一种分布交互仿真系统的并行仿真作业调度方法
Rogers et al. Bundle and pool architecture for multi-language, robust, scalable workflow executions
CN113485894A (zh) 一种数据采集方法、装置、设备及可读存储介质
CN112559525B (zh) 数据检查系统、方法、装置和服务器
CN110011827A (zh) 面向医联体的多用户大数据分析服务系统和方法
CN113094238A (zh) 一种业务系统异常监控方法及装置
CN115632944B (zh) 一种节点配置方法、装置、设备、可读存储介质及服务器
CN114443050A (zh) 一种基于ci引擎流水线的新型日志展示方法
CN114064240A (zh) 用于实现低代码配置化etl数据转换的平台系统、方法、装置、处理器及计算机存储介质
CN112764825A (zh) 服务集成系统及相应设备和存储介质
KR102485154B1 (ko) 전력 통신 서비스
KR101506656B1 (ko) 애플리케이션 품질 관리를 위한 시스템 및 그 방법
CN117539605B (zh) 一种数据处理程序组装方法、装置、设备及存储介质
CN115185700B (zh) 一种高集成单进程的容器管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination