CN111930385A - 数据采集方法、装置、设备及存储介质 - Google Patents

数据采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111930385A
CN111930385A CN202010739334.6A CN202010739334A CN111930385A CN 111930385 A CN111930385 A CN 111930385A CN 202010739334 A CN202010739334 A CN 202010739334A CN 111930385 A CN111930385 A CN 111930385A
Authority
CN
China
Prior art keywords
target
data
target data
data source
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010739334.6A
Other languages
English (en)
Inventor
宋大伟
丁静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yige Network Technology Co ltd
Original Assignee
Suzhou Yige Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yige Network Technology Co ltd filed Critical Suzhou Yige Network Technology Co ltd
Priority to CN202010739334.6A priority Critical patent/CN111930385A/zh
Publication of CN111930385A publication Critical patent/CN111930385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种数据采集方法、装置、设备及存储介质。该方法包括:获取目标数据源;确定所述目标数据源所属的目标数据类型;调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。上述技术方案适用于大数据平台,实现了大数据平台在数据采集到数据存储阶段对不同类型的数据源进行快速地处理。

Description

数据采集方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据采集方法、装置、设备及存储介质。
背景技术
完整的大数据平台,一般包括以下几个过程:数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)。然而,数据源的数据类型是多种多样的,在数据采集–>数据存储阶段,如果快速地处理不同数据源是大数据平台亟待解决的问题。
发明内容
本发明实施例提供一种数据采集方法、装置、设备及存储介质,以实现在大数据平台数据采集到数据存储阶段对不同类型数据源进行快速处理。
第一方面,本发明实施例提供了一种数据采集方法,包括:
获取目标数据源;
确定所述目标数据源所属的目标数据类型;
调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
进一步的,所述目标数据源包括目标binlog。
进一步的,所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源,包括:
调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
进一步的,在所述获取目标数据源之后,还包括:解析出所述目标binlog中的增量数据;
对应的,所述调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,包括:
调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
进一步的,所述确定所述目标数据源所属的目标数据类型,包括:
根据所述目标数据源的源头标识和/或数据内容,确定所述目标数据源所属的目标数据类型。
进一步的,所述获取目标数据源,包括:
基于Flume采集目标binlog。
进一步的,在所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源之前,还包括:
集成预先开发的至少一种解析应用程序接口;
其中,不同解析应用程序接口对应于不同的数据类型。
具体的,所述数据类型包括下述至少一种:
数据库、数据文件、http请求、消息队列。
第二方面,本发明实施例还提供了一种数据采集装置,包括:
数据源获取模块,用于获取目标数据源;
数据类型确定模块,用于确定所述目标数据源所属的目标数据类型;
数据源解析模块,用于调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
进一步的,所述目标数据源包括目标binlog。
进一步的,所述数据源解析模块,具体用于调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
进一步的,上述装置还包括:增量数据解析模块,用于在所述获取目标数据源之后,还包括:解析出所述目标binlog中的增量数据;
对应的,所述数据源解析模块,具体用于调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
进一步的,数据类型确定模块,具体用于根据所述目标数据源的源头标识和/或数据内容,确定所述目标数据源所属的目标数据类型。
进一步的,数据源获取模块,具体用于基于flume采集目标binlog。
进一步的,上述装置还包括:解析应用程序接口集成模块,用于在所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源之前,集成预先开发的至少一种解析应用程序接口;其中,不同解析应用程序接口对应于不同的数据类型。
具体的,所述数据类型包括下述至少一种:
数据库、数据文件、http请求、消息队列。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的数据采集方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的数据采集方法。
本发明实施例提供的技术方案,在获取到数据源之后,首先确定出所述数据源所属的目标数据类型,然后调用与所述目标数据类型对应的解析应用程序接口,对所述数据源进行解析。上述技术方案适用于大数据平台,实现了大数据平台在数据采集到数据存储阶段对不同类型的数据源进行快速地处理。
附图说明
图1是本发明实施例一中的一种数据采集方法的流程图;
图2是本发明实施例二中的一种数据采集方法的流程图;
图3是本发明实施例三中的一种数据采集方法的流程图;
图4是本发明实施例四中的一种数据采集装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种数据采集方法的流程图,可适用于大数据平台在数据采集到数据存储阶段快速处理不同类型数据源的情况,该方法可以由本发明实施例提供的数据采集装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图1所示,本实施例提供的数据采集方法,具体包括:
S110、获取目标数据源。
目标数据源,可以是指大数据平台采集的数据。例如可以是,大数据平台针对某公司某部门的某种业务采集的数据。值得指出的是,大数据平台针对不同的业务类型,采集的数据源所属的数据类型不一定相同。
在本实施例中,数据源可以是指binlog,其中,binlog是基于事务来记录二进制日志。对应的,S110可以具体为:获取目标binlog,例如可以是,大数据平台针对某公司某部门的某种业务采集对应的binlog。
作为本实施例一种可选的实施方式,在获取目标数据源时,可以基于Flume采集目标binlog。
Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力,其设计的原理是将数据流(如日志数据)从各种网站服务器上汇集起来,存储到HDFS、HBase等集中存储器中。
Flume事件被定义为具有字节有效载荷和一组可选字符串属性的数据流单元。Flume代理(Agent)是一个(JVM)进程,用于承载事件从外部源流向下一个目标(跳转)的组件。每个Flume Agent有三个组件:Source、Channel、Sink,其中,Source专门用来收集数据,可以处理各种类型、各种格式的日志数据,比如avro、exec、HTTP、Kafka、SpoolingDirectory等;Channel是一个存储Source已经接收到的数据的缓冲区,简单来说就是对Source采集到数据进行缓存,可以缓存在memory、file、jdbc、Kafka等;Sink用于把数据发送到目的地,目的地可以是:HDFS、Hive、HBase、ES、Kafka、Logger等。
Flume的核心就是这个Agent,Agent对外有两个进行交互的地方,一个是接受数据的输入Source,一个是数据的输出Sink,Sink负责将数据发送到外部指定的目的地。Source接收到数据之后,将数据发送给Channel,Channel作为一个数据缓冲区会临时存放这些数据,随后Sink会将Channel中的数据发送到指定的地方—例如HDFS等。值得注意的是,只有在Sink将Channel中的数据成功发送出去之后,Channel才会将临时数据进行删除,这种机制保证了数据传输的可靠性与安全性。
S120、确定所述目标数据源所属的目标数据类型。
在采集到数据源之后,首先要识别该数据源所属的数据类型。在本实施例中,数据源所属的数据类型可以是数据库,也可以是数据文件,也可以是http请求,还可以是消息队列(Message Queue),等等。
不同数据类型的数据源,一般都具有与数据类型匹配的特点,进而可以根据这些特点来识别目标数据源所属的数据类型,本实施例对此不做具体限定。
作为本实施例一种可选的实施方式,可以将确定所述目标数据源所属的目标数据类型,具体为:根据所述目标数据源的源头标识和/或数据内容,确定所述目标数据源所属的目标数据类型。
以http请求为例,http请求信息由3部分组成:请求方法URI协议/版本、请求头(Request Header)以及请求正文,进而,可以根据数据源的源头标识,也即可以根据请求头中的内容,识别出目标数据源所属的目标数据类型为http请求;以数据文件为例,可以根据目标数据源的数据内容确定所述目标数据源所属的目标数据类型,如果在所述目标数据源的数据内容中出现DEBUG,则所述目标数据源所属的目标数据类型就是数据文件。
S130、调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
在确定目标数据源所属的目标数据类型之后,调用与所述目标数据类型对应的解析应用程序接口,对目标数据源进行解析。例如,如果目标数据源所属的目标数据类型为数据库,则调用与数据库对应的解析应用程序接口,对目标数据源进行解析;如果目标数据源所属的目标数据类型为消息队列,则调用与消息队列对应的解析应用程序接口,对目标数据源进行解析。
作为一种可选的实施方式,在所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源之前,本实施例提供的数据采集方法还包括:
集成预先开发的至少一种解析应用程序接口;其中,不同解析应用程序接口对应于不同的数据类型。
一种解析应用程序接口,可以是针对于一种具体数据类型的数据源预先开发的应用程序接口,该解析应用程序接口被调用时,执行对该种数据类型的数据源进行数据解析的操作。不同的解析应用程序接口对应的数据源所属的数据类型不同。
典型的,可以针对多种具体的数据类型的数据源预先开发多种解析应用程序接口,并集成。其中,集成的应用程序接口的数量和/或种类均可以根据实际应用需求增加或减少。例如,根据实际应用需求,集成与新增的一种数据类型的数据源对应的解析应用程序接口,该解析应用程序接口被调用时,实现对所述新增的一种数据类型的数据源的数据解析。
值得指出的是,不同解析应用程序接口在被调用时均是用于实现对数据源的数据解析,本实施例对解析应用程序接口的实现不做具体限定,对数据源的数据解析方法和/或流程也不做具体限定。
在本实施例中,在数据源为binlog的场景下,调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源,可以具体为:
调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
相应的,不同解析应用程序接口在被调用时,均是用于实现将binlog解析成json字符串。典型的,在确定目标binlog所属的目标数据类型之后,调用与所述目标数据类型对应的解析应用程序接口,将目标binlog解析成目标json字符串。例如,如果目标binlog所属的目标数据类型为数据库,则调用与数据库对应的解析应用程序接口,将目标binlog解析成目标json字符串,该目标字符串的数据结构与数据库这一目标数据类型是对应的;如果目标binlog所属的目标数据类型为消息队列,则调用与消息队列对应的解析应用程序接口,将目标binlog解析成目标json字符串,该目标字符串的数据结构与消息队列这一目标数据类型是对应的。
值得指出的是,解析binlog得到的json字符串的数据结构可以是固定的,也可以是灵活的,具体与调用的解析应用程序接口相关。也即,解析应用程序接口在被调用时,不仅能够将binlog解析成json字符串,还能将json字符串以预设的数据结构进行存储。其中,不同解析应用程序接口对应的json字符串的数据结构可以是相同的,也可以是不同的。可选的,解析应用程序接口对应的json字符串的数据结构,是与解析应用程序接口对应的数据类型是匹配的,例如可以是,针对一种或多种数据类型预设一种json字符串的数据结构。
本发明实施例提供的技术方案,在获取到数据源之后,首先确定出所述数据源所属的目标数据类型,然后调用与所述目标数据类型对应的解析应用程序接口,对所述数据源进行解析。上述技术方案适用于大数据平台,实现了大数据平台在数据采集到数据存储阶段对不同类型的数据源进行快速地处理。
在上述技术方案中,大数据平台预先集成了针对不同数据类型的数据源的解析应用程序接口,还可以根据实际应用需要增加针对新增数据类型的数据源的解析应用程序接口,提高了数据采集方法的通用性,满足了不同业务场景的数据采集需求。
实施例二
图2是本发明实施例二提供的一种数据采集方法的流程图,本实施例以上述实施例为基础进行优化。其中,本实施例提供的数据采集方法,在所述获取目标数据源之后,还包括:解析出所述目标binlog中的增量数据;对应的,所述调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,可以具体为:调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
如图2所示,本实施例提供的数据采集方法,具体包括:
S210、获取目标binlog,并解析出所述目标binlog中的增量数据。
其中,增量数据是相对全量数据而言的,可以指的是目标binlog中新增的数据或者新修改的数据,等等。
在一示例中,增量数据,可以是指相对于前次binlog采集时,目标binlog中新增的数据或者新修改的数据,等等。其中,本实施例对增量数据的解析方法不做具体限定。
在本实施例中,可以基于Flume采集目标binlog。
S220、确定所述目标binlog所属的目标数据类型。
在采集到目标binlog,并解析出其中的增量数据之后,识别出所述目标binlog所属的目标数据类型,例如可以是数据库,消息队列,数据文件,http请求,等等。
S230、调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
在确定出所述目标binlog日志所属的目标数据类型之后,在预先集成的多种解析应用程序接口中,调用与所述目标数据类型匹配的一个解析应用程序接口。
在该解析应用程序接口被调用时,目标binlog中的增量数据被解析成json字符串,其中,解析得到的json字符串的数据结构可以是灵活的,具体与被调用的解析应用程序接口有关。被调用的解析应用程序接口,不仅可以将所述目标binlog中的增量数据解析成目标json字符串,还可以将目标json字符串以预设的数据结构进行存储。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
上述技术方案中,针对的是目标binlog中的增量数据,调用与目标binlog所属的数据类型对应的解析应用程序接口,实现将目标binlog中的增量数据解析成目标json字符串,以此减小了大数据平台的性能压力,提高了数据采集的效率。
实施例三
图3是本发明实施例三提供的一种数据采集方法的流程图。在上述实施例的基础上,本实施例提供了一种具体的实施方式。
如图3所示,本实施例提供的基于Flume的数据采集方法,具体包括:
S310、集成预先开发的至少一种解析应用程序接口;其中,不同解析应用程序接口对应于不同的数据类型,用于将binlog解析成json字符串。
其中,集成的应用程序接口的数量和/或种类均可以根据实际应用需求增加或减少。例如,根据实际应用需求,集成与新增的一种数据类型的binlog对应的解析应用程序接口,该解析应用程序接口被调用时,实现将所述新增的一种数据类型的binlog解析成json字符串。
可选的,解析得到json字符串的数据结构可以是固定的,也可以是灵活的。其中,不同解析应用程序接口对应的json字符串的数据结构可以是相同的,也可以是不同的。典型的,解析应用程序接口对应的json字符串的数据结构可以是基于大平台数据分析的实际应用而预设的。
S320、基于Flume采集目标binlog,并解析出所述目标binlog中的增量数据。
S330、根据所述目标binlog的源头标识和/或数据内容,确定所述目标binlog所属的目标数据类型。
其中,所述数据类型可以包括下述至少一种:数据库、数据文件、http请求、消息队列。
S340、调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
调用的与所述目标数据类型对应的解析应用程序接口,可以将所述目标binlog中的增量数据解析成预设数据结构的json字符串。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
在上述技术方案中,大数据平台预先集成了针对不同数据类型的binlog的解析应用程序接口,还可以根据实际应用需要增加针对新增数据类型的binlog的解析应用程序接口,提高了数据采集方法的通用性,满足了不同业务场景的数据采集需求。
实施例四
图4是本发明实施例四提供的一种数据采集装置的结构示意图,可适用于大数据平台在数据采集到数据存储阶段快速处理不同类型数据源的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图4所示,该数据采集装置具体包括:数据源获取模块410、数据类型确定模块420和数据源解析模块430。其中,
数据源获取模块410,用于获取目标数据源;
数据类型确定模块420,用于确定所述目标数据源所属的目标数据类型;
数据源解析模块430,用于调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
本发明实施例提供的技术方案,在获取到数据源之后,首先确定出所述数据源所属的目标数据类型,然后调用与所述目标数据类型对应的解析应用程序接口,对所述数据源进行解析。上述技术方案适用于大数据平台,实现了大数据平台在数据采集到数据存储阶段对不同类型的数据源进行快速地处理。
进一步的,所述目标数据源包括目标binlog。
进一步的,数据源解析模块430,具体用于调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
进一步的,上述装置还包括:增量数据解析模块,用于在所述获取目标数据源之后,还包括:解析出所述目标binlog中的增量数据;
对应的,数据源解析模块430,具体用于调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
进一步的,数据类型确定模块420,具体用于根据所述目标数据源的源头标识和/或数据内容,确定所述目标数据源所属的目标数据类型。
进一步的,数据源获取模块410,具体用于基于Flume采集目标binlog。
进一步的,上述装置还包括:解析应用程序接口集成模块,用于在所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源之前,集成预先开发的至少一种解析应用程序接口;其中,不同解析应用程序接口对应于不同的数据类型。
具体的,所述数据类型包括下述至少一种:数据库、数据文件、http请求、消息队列。
上述数据采集装置可执行本发明任意实施例所提供的数据采集方法,具备执行数据采集方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的硬件结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据采集方法。也即,所述处理单元执行所述程序时实现:获取目标数据源;确定所述目标数据源所属的目标数据类型;调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
实施例六
本发明实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的一种数据采集方法:也即,该程序被处理器执行时实现:获取目标数据源;确定所述目标数据源所属的目标数据类型;调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++),还包括常规的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种数据采集方法,其特征在于,包括:
获取目标数据源;
确定所述目标数据源所属的目标数据类型;
调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
2.根据权利要求1所述的方法,其特征在于,所述目标数据源包括目标binlog。
3.根据权利要求2所述的方法,其特征在于,所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源,包括:
调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
4.根据权利要求3所述的方法,其特征在于,在所述获取目标数据源之后,还包括:解析出所述目标binlog中的增量数据;
所述调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,包括:
调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog中的增量数据解析成目标json字符串。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标数据源所属的目标数据类型,包括:
根据所述目标数据源的源头标识和/或数据内容,确定所述目标数据源所属的目标数据类型。
6.根据权利要求2所述的方法,其特征在于,所述获取目标数据源,包括:
基于Flume采集目标binlog。
7.根据权利要求1所述的方法,其特征在于,在所述调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源之前,还包括:
集成预先开发的至少一种解析应用程序接口;
其中,不同解析应用程序接口对应于不同的数据类型。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述数据类型包括下述至少一种:
数据库、数据文件、http请求、消息队列。
9.一种数据采集装置,其特征在于,包括:
数据源获取模块,用于获取目标数据源;
数据类型确定模块,用于确定所述目标数据源所属的目标数据类型;
数据源解析模块,用于调用与所述目标数据类型对应的解析应用程序接口,解析所述目标数据源。
10.根据权利要求9所述的装置,其特征在于,所述目标数据源包括目标binlog。
11.根据权利要求10所述的装置,其特征在于,所述数据源解析模块,具体用于调用与所述目标数据类型对应的解析应用程序接口,将所述目标binlog解析成目标json字符串,其中,所述目标json字符串的数据结构与所述目标数据类型匹配。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202010739334.6A 2020-07-28 2020-07-28 数据采集方法、装置、设备及存储介质 Pending CN111930385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010739334.6A CN111930385A (zh) 2020-07-28 2020-07-28 数据采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010739334.6A CN111930385A (zh) 2020-07-28 2020-07-28 数据采集方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111930385A true CN111930385A (zh) 2020-11-13

Family

ID=73314717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010739334.6A Pending CN111930385A (zh) 2020-07-28 2020-07-28 数据采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111930385A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510267A (zh) * 2022-04-20 2022-05-17 麒麟软件有限公司 基于Linux系统的程序ABI接口兼容性计算方法
CN116860898A (zh) * 2023-09-05 2023-10-10 建信金融科技有限责任公司 一种数据处理方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341096A (zh) * 2017-06-28 2017-11-10 百度在线网络技术(北京)有限公司 日志文件的生成方法和装置、计算机设备和存储介质
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式系统实时监控运维方法及装置
CN108156230A (zh) * 2017-12-19 2018-06-12 杭州有赞科技有限公司 实时数据同步方法、系统及框架
CN109492012A (zh) * 2018-10-31 2019-03-19 厦门安胜网络科技有限公司 一种数据实时统计和检索的方法、装置及存储介质
US20190332357A1 (en) * 2018-04-30 2019-10-31 Dell Products, Lp System and method for automated generation of integration elements modeling process flow for an integration process with a swagger api
US10659303B2 (en) * 2017-10-04 2020-05-19 Servicenow, Inc. External data collection for REST API based performance analytics
CN111443905A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 业务数据的处理方法、装置、系统及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341096A (zh) * 2017-06-28 2017-11-10 百度在线网络技术(北京)有限公司 日志文件的生成方法和装置、计算机设备和存储介质
US10659303B2 (en) * 2017-10-04 2020-05-19 Servicenow, Inc. External data collection for REST API based performance analytics
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式系统实时监控运维方法及装置
CN108156230A (zh) * 2017-12-19 2018-06-12 杭州有赞科技有限公司 实时数据同步方法、系统及框架
US20190332357A1 (en) * 2018-04-30 2019-10-31 Dell Products, Lp System and method for automated generation of integration elements modeling process flow for an integration process with a swagger api
CN109492012A (zh) * 2018-10-31 2019-03-19 厦门安胜网络科技有限公司 一种数据实时统计和检索的方法、装置及存储介质
CN111443905A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 业务数据的处理方法、装置、系统及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510267A (zh) * 2022-04-20 2022-05-17 麒麟软件有限公司 基于Linux系统的程序ABI接口兼容性计算方法
CN116860898A (zh) * 2023-09-05 2023-10-10 建信金融科技有限责任公司 一种数据处理方法和装置
CN116860898B (zh) * 2023-09-05 2024-04-23 建信金融科技有限责任公司 一种数据处理方法和装置

Similar Documents

Publication Publication Date Title
CN111083225B (zh) 在物联网平台中的数据处理方法、装置及物联网平台
CN110008045B (zh) 微服务的聚合方法、装置、设备及存储介质
CN107370806B (zh) Http状态码监控方法、装置、存储介质和电子设备
CN111309550A (zh) 应用程序的数据采集方法、系统、设备和存储介质
US11188443B2 (en) Method, apparatus and system for processing log data
CN110955640B (zh) 跨系统数据文件的处理方法、装置、服务器和存储介质
CN111949850B (zh) 多源数据的采集方法、装置、设备及存储介质
CN110753050B (zh) 协议文档的生成方法及装置、计算机存储介质、电子设备
WO2017066111A1 (en) Telemetry system extension
CN111930385A (zh) 数据采集方法、装置、设备及存储介质
CN114297028A (zh) 一种微服务日志链路追踪方法与系统
CN111966653A (zh) 微服务调用链路数据处理方法、装置、服务器及存储介质
CN114371888A (zh) 日志采集插件的热更新方法、装置、电子设备和可读介质
CN112181393A (zh) 前后端代码生成方法、装置、计算机设备及存储介质
CN112491421A (zh) 日志文件压缩包的解析方法、装置、设备及介质
CN112579406A (zh) 一种日志调用链生成方法和装置
CN114579416B (zh) 一种指标确定方法、装置、服务器和介质
CN111698109A (zh) 监控日志的方法和装置
CN114219643A (zh) 一种交易调用方法、装置、设备及存储介质
CN112084114B (zh) 用于测试接口的方法和装置
CN110753136B (zh) 域名解析方法、装置、设备及存储介质
CN111741046B (zh) 数据上报方法、获取方法、装置、设备及介质
CN114546780A (zh) 数据监控方法、装置、设备、系统及存储介质
CN113312195A (zh) 数据处理方法、装置、设备及存储介质
CN112948410A (zh) 数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113

RJ01 Rejection of invention patent application after publication