CN112231376A - 一种用于离线数据采集的方法和装置 - Google Patents

一种用于离线数据采集的方法和装置 Download PDF

Info

Publication number
CN112231376A
CN112231376A CN202011024841.8A CN202011024841A CN112231376A CN 112231376 A CN112231376 A CN 112231376A CN 202011024841 A CN202011024841 A CN 202011024841A CN 112231376 A CN112231376 A CN 112231376A
Authority
CN
China
Prior art keywords
task
engine
information
data
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011024841.8A
Other languages
English (en)
Inventor
刘飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011024841.8A priority Critical patent/CN112231376A/zh
Publication of CN112231376A publication Critical patent/CN112231376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本发明公开了一种用于离散数据采集的方法和装置,涉及计算机领域。用于离散数据采集的方法包括:配置采集任务信息;根据所述采集任务信息,生成引擎可识别配置文件和调度框架可识别配置文件;调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务;所述引擎存储任务相关日志和其它指标信息;以及基于存储的任务相关日志和其它指标信息进行展示。

Description

一种用于离线数据采集的方法和装置
技术领域
本文公开的主题总体上涉及计算机领域,并且更具体地涉及一种用于离线数据采集的方法以及使用该方法的装置。
背景技术
当前,在国家政策的大力扶持下,大数据技术在政府以及企业项目中得到了广泛的应用。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。但随着大数据所涉及的领域越来越广泛,所处理的业务越来越深入,所要采集与处理的数据类型也变得越来越复杂和多样。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。
传统数据采集的特点是来源单一,数据量相对于大数据较小,结构单一,关系数据库和并行数据仓库。大数据的数据采集的特点是来源广泛,数据量巨大,数据类型丰富,包括结构化,半结构化,非结构化,以及分布式数据库。
大数据采集新的方法包括系统日志采集方法和网络数据采集方法。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。对于企业生产经营数据或学科研究数据等保密性要求较高的数据,还可以通过与企业或研究机构合作,使用特定系统接口等相关方式进行大数据采集。
近年来,政府以及企业客户的数据类型已经由传统的关系型数据向非关系型数据转变,且具有高速度、大容量、多样性、高价值的特点。这就给大数据采集提出了新的挑战。但现阶段数据采集并不能满足新的采集需求。比如,数据采集还面临诸如采集数据的数据类型较为单一,采集过程较为复杂,不能提供友好的用户体验,不能将数据采集过程进行良好的封装,对采集流程的监控也较为缺乏,不能给用户提供较为详细的采集状态信息等问题。
鉴于现有数据采集系统的缺陷,有必要设计一种新的数据采集系统,有针对性的解决了目前业内对于数据采集的相关问题。新的设计需要实现对结构化数据,半结构化数据以及非结构化数据进行采集,并且用户还可以对采集流程的可视化配置功能,并提供了便捷的监控管理,为大数据采集提供了新的解决方案。
因此,本发明的主要目的是为用户提供一种能够可视化配置数据采集流程并加以完善管理监控方法,来克服现有技术存在的缺陷。
在此定义以下术语,在以下描述中将会引用其中的至少一些:
数据采集(DAQ):又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。
DataX:一种异构数据源离线同步工具,致力于实现包括关系型数据库的各种异构数据源之间稳定高效的数据同步功能。
Flume:一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心进行存储的系统。即是日志采集和汇总的工具。
ETL(Extract-Transform-Load):用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
Etlworks:本文中指由Etlworks公司开发的一款ETL工具。
HDFS(Hadoop Distributed File System):Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。
MySQ:由瑞典MySQL AB公司开发的一个关系型数据库管理系统。
Oracle:本文指由甲骨文公司开发的一款数据库产品。
Sqoop:Apache旗下的一款Hadoop和关系数据库服务器之间传送数据的工具。
发明内容
本发明提供一种用于离散数据采集的方法和装置。
在一个实施例中,一种用于离散数据采集的方法,该方法包括:置采集任务信息;根据所述采集任务信息,生成引擎可识别配置文件和调度框架可识别配置文件;调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务;所述引擎存储任务相关日志和其它指标信息;以及基于存储的任务相关日志和其它指标信息进行展示。
优选地,该方法进一步包括:配置源端数据源和目标端数据源的地址信息和用户信息;以及,基于所述地址信息和所述用户信息选择所述源端数据源和所述目标端数据源。
优选地,该方法进一步包括:配置数据抽取规则。
优选地,该方法进一步包括:配置流量控制信息。
选地,该方法进一步包括:配置调度频率和要用于执行任务的引擎。
优选地,该方法进一步包括:扫描新产生的所述采集任务配置;解析所述采集任务配置,根据预定义的引擎配置模板生成所述引擎可识别配置文件;以及解析所述采集任务配置,根据调度频率和所述引擎可识别配置文件生成所述调度框架可识别配置文件。
优选地,该方法进一步包括:所述调度框架扫描生成的所述调度框架可识别配置文件;根据所述调度框架可识别配置文件,所述调度框架触发调度任务;以及所述引擎根据所述调度任务执行数据采集任务。
根据本发明的另一个实施例,一种用于离散数据采集的装置包括:通信单元,被配置为执行数据的发送和接收;显示单元,被配置为显示数据;存储器,被配置为存储数据和指令;处理器,所述处理器可操作性地耦合到所述通信单元、所述通信单元和所述存储器,并且被配置为:配置采集任务信息;根据所述采集任务信息,生成引擎可识别配置文件和调度框架可识别配置文件;控制调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务;控制所述引擎在所述存储器中存储任务相关日志和其它指标信息;以及,控制所述显示单元基于存储的任务相关日志和其它指标信息进行展示。
根据本发明的又一个实施例,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序当被处理器执行时使所述处理器执行根据本发明的用于离散数据采集的方法。
利用本发明提出的方法和装置,使得用户能够可视化配置数据采集流程并加以完善管理监控。
通过本发明所能获得的技术效果不限于以上这些。其他的有益效果可以通过本领域技术人员实施本发明而了解。
附图说明
通过参考在附图中图示的特定实施例,将呈现以上简要描述的实施例的更具体的描述。应理解,这些附图仅描绘一些实施例,并且因此不应认为是对范围的限制,将通过使用附图以附加的特征和细节来描述和解释实施例。
图1是描绘了作为现有技术的DataX的系统的框图。
图2是描绘了作为现有技术的Flume的系统的框图。
图3是描绘了根据本发明的一个实施例的离散数据采集系统的框图。
图4是描绘了根据本发明的一个实施例的离散数据采集方法的流程图。
图5是描绘了根据本发明的另一个实施例的离散数据采集方法的流程图。
图6是描绘了根据本发明的又一个实施例的离散数据采集方法的流程图。
图7是描绘了根据本发明的一个实施例的用于执行离散数据采集方法的装置的框图。
具体实施方式
如本领域的技术人员将理解的,实施例的各方面可以体现为系统、装置、方法或程序产品。因此,实施例可以采用完全硬件实施例、完全软件实施例或者组合软件和硬件方面的实施例的形式。此外,实施例可以采取体现为存储在一个或多个计算机可读存储设备中的程序产品的形式。
本说明书中描述的某些功能单元可以被标记为模块,以便于更具体地强调它们的实现独立性。例如,模块可以实现为包括定制的超大规模集成电路或门阵列、诸如逻辑芯片、晶体管或其他分立组件的现成半导体的硬件电路。模块还可以在诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等的可编程硬件设备中实现。模块还可以用代码和/或软件实现,以由各种类型的处理器执行。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是存储代码的存储设备。存储设备可以是,例如,但不一定限于电子、磁、光、电磁、红外、全息、微机械或半导体系统、装置或设备、或前述的任何合适的组合。
存储设备的更具体示例的非详尽列表将包括下述:具有一条或多条电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(“RAM”)、只读存储器(“ROM”)、可擦除可编程只读存储器(“EPROM”或“闪存”)、便携式紧凑光盘只读存储器(“CD-ROM”)、光学存储装置、磁性存储装置、或前述的任何合适的组合。在本文件的上下文中,计算机可读存储介质可以是任何有形介质,其能够包含或存储程序以供指令执行系统、装置或设备使用或与其结合使用。
用于执行实施例的操作的代码可以是任何数量的行,并且可以以包括诸如Python、Ruby、Java、Smalltalk、C++等的面向对象的编程语言、和诸如“C”编程语言等的传统的过程编程语言、和/或诸如汇编语言的机器语言中的一种或多种编程语言的任何组合来编写。代码可以完全地在用户的计算机上执行,部分地在用户的计算机上执行,作为独立的软件包,部分地在用户的计算机上,并且部分地在远程计算机上或完全地在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(“LAN”)或广域网(“WAN”),或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。
本说明书中对“一个实施例”、“实施例”或类似语言的引用意指结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此,除非另有明确说明,否则在整个说明书中出现的短语“在一个实施例中”、“在实施例中”和类似语言可以但不一定全部指代相同的实施例,而是意指“一个或多个但不是所有实施例”。除非另有明确说明,否则术语“包括”、“包含”、“具有”及其变体意指“包括但不限于”。除非另有明确说明,否则列举的项目列表并不暗示任何或所有项目是互斥的。
此外,所描述的实施例的特征、结构或特性可以以任何合适的方式组合。在以下描述中,提供许多具体细节,诸如编程、软件模块、用户选择、网络事务、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等的示例,以提供对实施例的彻底理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下,或者利用其他方法、组件、材料等来实践实施例。在其他情况下,未详细示出或描述公知的结构、材料或操作以避免使实施例的一些方面模糊。
下面参考根据实施例的方法、装置、系统和程序产品的示意性流程图和/或示意性框图来描述实施例的各方面。
附图中的示意性流程图或示意性框图图示根据各种实施例的装置、系统、方法和程序产品的可能实现的架构、功能和操作。在这方面,示意性流程图或示意性框图中的每个块可以表示代码的模块、片段或部分,其包括用于实现指定的逻辑功能的代码的一个或多个可执行指令。
还应注意,在一些替代性实施方式中,块中注释的功能可以不按附图中注释的顺序发生。例如,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行,这取决于所涉及的功能。可以设想其他步骤和方法,其在功能、逻辑或效果上等同于所图示的附图的一个或多个块或其部分。
尽管可以在流程图或框图中采用各种箭头类型和线类型,但是应理解它们不限制相应实施例的范围。实际上,一些箭头或其他连接器可以仅用于指示所描绘实施例的逻辑流程。例如,箭头可以指示所描绘的实施例的枚举步骤之间的未指定持续时间的等待或监视时段。还将会注意,框图或流程图的每个块以及框图和/或流程图中的块的组合,能够由执行特定功能或操作的基于专用硬件的系统,或专用硬件和代码的组合来实现。
每个附图中的元件的描述可以参考前述附图的元件。相同的数字指代所有附图中的相同元件,包括相同元件的替代实施例。
下面将参考附图描述本发明的实施例。
图1描绘了作为现有技术的DataX的系统框图。
DataX是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统,每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
如图1所示,DataX本身作为离线数据同步框架,采用框架+插件的架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
其中,Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。Framework用于连接Reader和Writer,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题。
该技术方案需要用户自行编写配置文件,且需要对DataX的机制有较深的理解才能很好的使用,而且没有较好的可视化界面。
图2描绘了作为现有技术的Flume的系统框图。
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理并写到各种数据接受方(可定制)的能力。
如图2所示,Flume运行的核心是Agent(代理)。Flume以Agent为最小的独立运行单位。一个Agent就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是Source、Channel、Sink。通过这些组件,Event(事件)可以从一个地方流向另一个地方。
Source是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到事件里,然后将事件推入Channel中。Flume提供了各种各样的Source、同时还提供了自定义的Source。
Channel是一种短暂的存储容器,它将从Source处接收到的Event格式的数据缓存起来,直到Sink处理完该事件。它在Source和Sink间起着桥梁的作用。
Sink从Channel中取出事件,然后将数据发到别处,可以向文件系统、数据库、hadoop存数据,也可以是其他Agent的Source。在日志数据较少时,可以将数据存储在文件系统中,并且设定一定的时间间隔保存数据。
Flume使用事务性的方式保证传送Event整个过程的可靠性。Sink必须在Event被存入Channel后,或者,已经被传达到下一站Agent里,又或者,已经被存入外部数据目的地之后,才能把Event从Channel中移除。这样数据流里的Event无论是在一个Agent里还是多个Agent之间流转,都能保证可靠,因为以上的事务保证了Event会被成功存储起来。
然而,Flume针对的场景较少,主要用于处理日志采集相关的场景,且无可视化界面,在可靠性、分布式等特性还需用户自行研究。
此外,现有技术还有Etlworks。该技术方案较为完整的解决了数据采集这个层面的相关问题,包含了元数据管理、调度配置、源端和目标端字段映射、简单的ETL过程等等。但是,该技术也存在类似于Datax和Flume的各种缺点。
以上描述了数据采集领域的一些现有技术,介绍了这些技术的特点以及缺陷。下面将描述根据本发明的离线数据采集系统。
图3描绘了根据本发明的一个实施例的离线数据采集系统的框图。
如图3所示,根据本发明的一个实施例的离线数据采集系统300包括数据源301,引擎302,控制模块303,数据目标304,存储模块305,展示模块306。
用户利用控制模块303进行数据采集任务配置。配置信息会被解析并送往引擎302。引擎302在调度框架(未示出)的调度下执行数据采集任务,包括从数据源301提取数据并将其写入数据目标304。
此外,引擎302会将执行任务过程中产生的日志文件、指标信息等存入存储模块305。利用存储在存储模块305中的信息,展示模块306可以向用户汇总展示数据采集任务进行的情况。
下文将参见流程图具体介绍根据本发明的实施例的离线数据采集方法。
图4描绘了根据本发明的一个实施例的离散数据采集方法的流程图。
如图4所示,离散数据采集方法400包括步骤S401-S405。
在步骤S401,用户配置采集任务信息。具体地,用户在控制台首先配置相应的源端和目标端数据源信息,然后进入采集任务模块填写采集任务相关的配置信息,例如源端目标端数据源、流控信息、引擎、调度信息等,以完成配置工作。
在步骤S402,根据在步骤S401配置的采集任务信息生成引擎可识别的配置文件和调度框架可识别的配置文件。任务写入数据库之后会被对应的后台扫描程序解析成对应引擎能够识别的配置文件并写入该引擎对应的机器当中并且生成调度框架可识别的配置文件,即,调度文件。
在步骤S403,调度框架根据在步骤S402生成的配置信息调用引擎执行任务。调度框架根据调度信息生成一系列的调度任务,来启动对应的引擎执行对应的任务。
在步骤S404,引擎完成对应的任务之后将任务过程中产生的日志文件、指标信息等写入对应的存储模块,例如后端存储器。
在步骤S405,系统利用存储模块中存储的信息,将数据采集任务执行的情况展示给用户。
以上从整体上描述了根据本发明的一个实施例的用于离散数据采集的方法的流程。下面将具体描述流程中的每步操作。
图5是描绘了根据本发明的另一个实施例的离散数据采集方法的流程图。具体地,图5描绘了根据本发明的一个实施例的离散数据采集方法中的配置采集任务信息操作的流程图。
如图5所示,配置采集任务信息操作500包括步骤S501-S502。
在步骤S501,配置相应的源端和目标端数据源信息。
用户首先在数据源管理模块中填写好源端(要抽取数据的数据源)和目标端(要写入数据的数据源)相对应的配置信息,例如,地址信息和用户信息。例如,针对MYSQL数据库需要填写IP地址、端口号、用户名、密码等配置。
在步骤S502,填写任务相关配置信息。
填写任务相关的配置信息包括根据在步骤S501填写的信息选择源端目标端数据源进行数据的抽取和输入,并且配置数据抽取规则,例如整库抽取。任务相关的配置信息进一步包括流量控制信息,用于控制数据管道内的最大数据流量。任务相关的配置信息进一步包括引擎配置信息,来指定所要使用的引擎,例如Datax、Sqoop等,本发明不限于此处。任务相关的配置信息进一步包括调度信息,用于指定所要执行的频率。
在步骤S502之后,系统将根据采集任务信息生成引擎可识别的配置和调度框架可识别的配置信息,如图4中的步骤S402所示。下面参考图6具体描述。
图6是描绘了根据本发明的又一个实施例的离散数据采集方法的流程图。具体地,图6描绘了根据本发明的一个实施例的离散数据采集方法中的根据采集任务信息生成引擎可识别的配置文件和调度框架可识别的配置文件操作的流程图。
如图6所示,生成引擎可识别的配置文件和调度框架可识别的配置文件操作600包括步骤S601-S603。
在步骤S601,程序扫描新生成的采集任务配置。
在步骤S602,程序解析扫描到的新生成的采集任务配置,根据预先定义的引擎配置模板生成对应的引擎可识别的配置文件。
在步骤S603,程序继续解析扫描到的新生成的采集任务配置,根据预先定义的调度频率和生成的引擎配置文件生成调度框架可识别的调度配置文件。
在步骤S603之后,系统将根据生成的引擎配置文件和调度配置文件调用引擎执行任务。如图4中的步骤S403所示。
系统将调度启动对应的引擎进行具体的任务执行。调度框架将根据在步骤S603生成的调度配置文件触发调度任务,执行对应引擎的命令。引擎启动之后根据所配置的参数或者配置文件执行具体任务。
接下来,过程进行到步骤S404。引擎会将执行任务过程中的日志信息、指标信息等进行汇总写入后端存储。
最后,过程进行到步骤S405,展示结果信息。基于在后端存储中的日志信息、指标信息等,前端界面将对应的任务和对应任务执行结果信息进行汇总展示给用户。
以上结合图3-6描述了根据本发明的实施例的离散数据采集系统和用于离散数据采集的方法。
根据另一个实施例,本发明还包括一种用于执行离散数据采集方法的装置。
图7是描绘了根据本发明的一个实施例的用于执行离散数据采集方法的装置的框图。
装置700可以包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考图3-6描述的方法可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CP U)701执行时,执行本发明的离散数据采集系统中限定的上述功能。
本发明提供了一种离散数据采集系统,能够在数据采集的整个链路中为用户提供可视化配置数据采集流程,完善管理和监控数据采集过程,且能够适配多种引擎。
可以以其他特定形式实践实施例。所描述的实施例在所有方面都应被视为仅是说明性的而非限制性的。因此,本发明的范围由所附权利要求而不是前面的描述来指示。在权利要求的含义和等同范围内的所有变化都包含在其范围内。

Claims (15)

1.一种用于离散数据采集的方法,所述方法包括步骤:
配置采集任务信息;
根据所述采集任务信息,生成引擎可识别配置文件和调度框架可识别配置文件;
调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务;
所述引擎存储任务相关日志和其它指标信息;以及
基于存储的任务相关日志和其它指标信息进行展示。
2.根据权利要求1所述的方法,其中,所述配置采集任务信息的步骤进一步包括:
配置源端数据源和目标端数据源的地址信息和用户信息;以及
基于所述地址信息和所述用户信息选择所述源端数据源和所述目标端数据源。
3.根据权利要求1所述的方法,其中,所述配置采集任务信息的步骤进一步包括:
配置数据抽取规则。
4.根据权利要求1所述的方法,其中,所述配置采集任务信息的步骤进一步包括:
配置流量控制信息。
5.根据权利要求1所述的方法,其中,所述配置采集任务信息的步骤进一步包括:
配置调度频率和要用于执行任务的引擎。
6.根据权利要求1所述的方法,其中,所述根据所述采集任务信息生成引擎可识别配置文件和调度框架可识别配置文件的步骤进一步包括:
扫描新产生的所述采集任务配置;
解析所述采集任务配置,根据预定义的引擎配置模板生成所述引擎可识别配置文件;以及
解析所述采集任务配置,根据调度频率和所述引擎可识别配置文件生成所述调度框架可识别配置文件。
7.根据权利要求1所述的方法,其中,所述调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务的步骤进一步包括:
所述调度框架扫描生成的所述调度框架可识别配置文件;
根据所述调度框架可识别配置文件,所述调度框架触发调度任务;以及
所述引擎根据所述调度任务执行数据采集任务。
8.根据权利要求1所述的方法,其中,所述引擎存储任务相关日志和其它指标信息的步骤进一步包括:
在所述任务完成之后,所述引擎将所述任务相关日志和所述其它指标信息写入到后端存储器进行汇总,
其中,所述其他指标信息至少包括数据流速、内存使用情况。
9.根据权利要求1所述的方法,其中,所述基于存储的任务相关日志和其它指标信息进行展示的步骤进一步包括:
前端根据用户的参数调用后端接口,汇总所述任务相关日志和所述其它指标信息并进行过滤后展示给所述用户。
10.一种用于执行离散数据采集方法的装置,所述装置包括:
通信单元,被配置为执行数据的发送和接收;
显示单元,被配置为显示数据;
存储器,被配置为存储数据和指令;
处理器,所述处理器可操作性地耦合到所述通信单元、所述显示单元和所述存储器,并且被配置为:
配置采集任务信息;
根据所述采集任务信息,生成引擎可识别配置文件和调度框架可识别配置文件;
控制调度框架根据所述引擎可识别配置文件和所述调度框架可识别配置文件调用引擎执行任务;
控制所述引擎在所述存储器中存储任务相关日志和其它指标信息;以及
控制所述显示单元基于存储的任务相关日志和其它指标信息进行展示。
11.根据权利要求10所述的装置,其中,所述处理器进一步被配置为:
配置源端数据源和目标端数据源的地址信息和用户信息;
基于所述地址信息和所述用户信息选择所述源端数据源和所述目标端数据源;
配置数据抽取规则;
配置流量控制信息;以及
配置调度频率和要用于执行任务的引擎。
12.根据权利要求10所述的装置,其中,所述处理器进一步被配置为:
扫描新产生的所述采集任务配置;
解析所述采集任务配置,根据预定义的引擎配置模板生成所述引擎可识别配置文件;以及
解析所述采集任务配置,根据调度频率和所述引擎可识别配置文件生成所述调度框架可识别配置文件。
13.根据权利要求10所述的装置,其中,所述处理器进一步被配置为:
控制所述调度框架扫描生成的所述调度框架可识别配置文件;
根据所述调度框架可识别配置文件,控制所述调度框架触发调度任务;以及
控制所述引擎根据所述调度任务执行数据采集任务。
14.根据权利要求10所述的装置,其中,所述处理器进一步被配置为:
在所述任务完成之后,所述引擎将所述任务相关日志和所述其它指标信息写入到后端存储器进行汇总,其中,所述其他指标信息至少包括数据流速、内存使用情况;以及
前端根据用户的参数调用后端接口,汇总所述任务相关日志和所述其它指标信息并进行过滤后展示给所述用户。
15.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序当被处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。
CN202011024841.8A 2020-09-25 2020-09-25 一种用于离线数据采集的方法和装置 Pending CN112231376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011024841.8A CN112231376A (zh) 2020-09-25 2020-09-25 一种用于离线数据采集的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011024841.8A CN112231376A (zh) 2020-09-25 2020-09-25 一种用于离线数据采集的方法和装置

Publications (1)

Publication Number Publication Date
CN112231376A true CN112231376A (zh) 2021-01-15

Family

ID=74108866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011024841.8A Pending CN112231376A (zh) 2020-09-25 2020-09-25 一种用于离线数据采集的方法和装置

Country Status (1)

Country Link
CN (1) CN112231376A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241191A (zh) * 2018-09-13 2019-01-18 华东交通大学 一种分布式数据源异构同步平台及同步方法
WO2019165456A1 (en) * 2018-02-26 2019-08-29 Fractal Industries, Inc. Automated scalable contextual data collection and extraction system
CN111061798A (zh) * 2019-12-23 2020-04-24 杭州雷数科技有限公司 可配置化数据传输及监控方法、设备及介质
CN111694888A (zh) * 2020-06-12 2020-09-22 谷云科技(广州)有限责任公司 基于微服务架构的分布式etl数据交换系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019165456A1 (en) * 2018-02-26 2019-08-29 Fractal Industries, Inc. Automated scalable contextual data collection and extraction system
CN109241191A (zh) * 2018-09-13 2019-01-18 华东交通大学 一种分布式数据源异构同步平台及同步方法
CN111061798A (zh) * 2019-12-23 2020-04-24 杭州雷数科技有限公司 可配置化数据传输及监控方法、设备及介质
CN111694888A (zh) * 2020-06-12 2020-09-22 谷云科技(广州)有限责任公司 基于微服务架构的分布式etl数据交换系统及方法

Similar Documents

Publication Publication Date Title
WO2022126974A1 (zh) 基于Kafka的增量数据同步方法、装置、设备及介质
WO2020233212A1 (zh) 一种日志记录的处理方法、服务器及存储介质
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
CN111241078A (zh) 数据分析系统、数据分析的方法及装置
CN103838867A (zh) 日志处理方法和装置
CN104036025A (zh) 一种基于分布式的海量日志采集系统
CN104699723A (zh) 数据交换适配器、异构系统之间数据同步系统和方法
CN109710731A (zh) 一种基于Flink的数据流多向处理系统
CN110334070A (zh) 数据处理方法、系统、设备及存储介质
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
CN112948492A (zh) 一种数据处理系统、方法、装置、电子设备及存储介质
CN111125042A (zh) 一种确定风险操作事件的方法和装置
CN106991177B (zh) 一种分布式环境下实时日志的无损采集方法及其系统
CN108121778B (zh) 一种异构数据交换与清洗系统及方法
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN105447146A (zh) 一种海量数据的收集与交换系统及方法
CN111177237B (zh) 一种数据处理系统、方法及装置
CN111753015B (zh) 支付清算系统的数据查询方法及装置
CN110019045B (zh) 日志落地方法及装置
CN112231376A (zh) 一种用于离线数据采集的方法和装置
CN105761164A (zh) 一种基于Hadoop的电力系统事故追忆的方法
CN109614380A (zh) 日志处理方法、系统、计算机设备及可读介质
CN108959309B (zh) 数据分析的方法和装置
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN112612823B (zh) 一种基于PySpark和Pandas融合的大数据时序分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination