CN109800259A - 数据采集方法、装置及终端设备 - Google Patents

数据采集方法、装置及终端设备 Download PDF

Info

Publication number
CN109800259A
CN109800259A CN201811512927.8A CN201811512927A CN109800259A CN 109800259 A CN109800259 A CN 109800259A CN 201811512927 A CN201811512927 A CN 201811512927A CN 109800259 A CN109800259 A CN 109800259A
Authority
CN
China
Prior art keywords
data
configuration file
target data
data source
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811512927.8A
Other languages
English (en)
Other versions
CN109800259B (zh
Inventor
张秀仕
张长虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jin Zheng Science And Technology Co Ltd Of Shenzhen
Original Assignee
Jin Zheng Science And Technology Co Ltd Of Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jin Zheng Science And Technology Co Ltd Of Shenzhen filed Critical Jin Zheng Science And Technology Co Ltd Of Shenzhen
Priority to CN201811512927.8A priority Critical patent/CN109800259B/zh
Publication of CN109800259A publication Critical patent/CN109800259A/zh
Application granted granted Critical
Publication of CN109800259B publication Critical patent/CN109800259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理技术领域,提供了数据采集方法、装置及终端设备,包括:读取预先配置的配置文件;根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源;根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据;将所述第一数据进行格式转换,得到第二数据;发送所述第二数据至开源分布式流处理平台Kafka的集群中。本发明实施例能够实现多数据源、大数据量数据的实时采集。

Description

数据采集方法、装置及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据采集方法、装置及终端设备。
背景技术
随着大数据时代的来临,来源复杂的海量数据成为许多行业的重要信息资产。以金融行业为例,随着金融产品创新业务不断推出,交易方式层出不穷,证券公司的交易系统包括但不仅限于现货、期权、两融系统,由于交易风险时常出现,因此需要对各系统数据进行实时采集监控,以便及时作出风控措施。
现有的交易风控系统中,难以实时对多个系统的庞大数据进行采集,通常是采集日终清算后相对固定的数据进行风险预警,延时大,风险高。因此,实现多数据源、大数据量数据的实时采集是一个迫切的需求。
发明内容
有鉴于此,本发明实施例提供了数据采集方法、装置及终端设备,以解决现有技术中如何实时地采集多数据源、大数据量数据的问题。
本发明实施例的第一方面提供了一种数据采集方法,包括:
读取预先配置的配置文件;
根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源;
根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据;
将所述第一数据进行格式转换,得到第二数据;
发送所述第二数据至开源分布式流处理平台Kafka的集群中。
本发明实施例的第二方面提供了一种数据采集装置,包括:
读取单元,用于读取预先配置的配置文件;
数据获取单元,用于根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源;
解码器单元,用于根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据;
格式转换单元,将所述第一数据进行格式转换,得到第二数据;
发送单元,用于发送所述第二数据至开源分布式流处理平台Kafka的集群中。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述数据采集方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如数据采集方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例中,由于根据配置文件的配置对目标数据源数据进行解码、加工,并且以任务流程链的形式将每一个处理步骤分开配置,因此能够灵活地使不同数据源的数据都得以格式统一地发送至Kafka集群,降低了对接不同数据源的复杂性,实现多数据源的采集;同时,由于Kafka高吞吐量、低延迟的特性,使得大数据量数据能够以高吞吐率被实时采集。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的第一种数据采集方法的实现流程示意图;
图2是本发明实施例提供的第二种数据采集方法的实现流程示意图;
图3是本发明实施例提供的数据采集装置的示意图;
图4是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一:
图1示出了本申请实施例提供的第一种数据采集方法的流程示意图,详述如下:
在S101中,读取预先配置的配置文件。
数据采集器在接收到启动指令后,读取预先配置的配置文件,开始数据采集流程。数据采集的配置文件是用户根据需要采集的目标数据源数据对应配置的,配置文件可以为可扩展标记语言xml文件、初始化文件ini、JavaScript对象简谱json文件中的其中一种文件格式。配置文件里包括用户名、密码、数据采集器名称、采集任务、与采集任务对应的配置的解码器以及格式转换配置等。
采集任务的配置中,设定数据源采集的入口方法名及该入口方法所需参数,参数包括目标数据源的连接地址IP和端口Port、目标数据源的数据队列名等。可选地,采集任务的配置中可以配置多个工作线程同时执行一个采集任务,以提高数据采集效率。
同样地,解码器的配置中,可以设定解码器的入口方法名,格式转换配置中,可以设定格式转换的入口方法名。因为格式转换配置一般不需要经常更改,所以格式转换配置也可以直接在配置文件中以固定代码的形式一次配置即可。可选地,在所述S101之前,包括:显示用户界面,接收用户在所述用户界面发出的配置内容选择指令,根据所述配置内容选择指令实现配置文件的配置。进一步地,显示已配置的配置文件的配置内容。
在S102中,根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源。
如在S101中对配置文件的描述,配置文件中配置的采集任务包括了目标数据源的连接地址、端口、所需采集的数据队列名等信息,因此,根据配置文件中配置的采集任务,可唯一确定需要采集的目标数据源。采集任务的数量可以为一个也可以为多个,一个采集任务对应一个目标数据源,目标数据源数据可以为CouchDB、Redis、dBASE、Foxbase等数据库数据、文本类和日志类数据、以及金证通讯交换平台KCXP的消息队列等。
该步骤中,能够根据采集任务,实时采集对应目标数据源数据。以采集KCXP平台数据为例,系统在报盘和成交回报收发的同时发送数据到KCXP队列,数据采集器实时轮询KCXP队列获取数据。
在S103中,根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据。
在配置文件中,每个采集任务对应配置一个解码器,根据需要采集的目标数据源的数据类型,配置相应的解码器。根据所述配置文件中与所述采集任务对应配置的解码器,解析在上一步骤实时采集到的目标数据源数据,得到第一数据。这里的解码器对数据的解析是指对数据进行分割、提取有效信息的操作过程,例如对于目标数据源传来的一整串字符类型数据:“USER_CODE,PASS_WORD,STK_CODE,”,经过解码器解析之后,对“,”等形式符号进行剔除,分割得到对应的“USER_CODE”“PASS_WORD”“STK_CODE”等独立的有效信息。可选地,解码器还包括解密数据的功能,若判断出待解析的数据为加密数据,则解密该加密数据后再解析解密后的数据。
在S104中,将所述第一数据进行格式转换,得到第二数据。
将从解码器中解析得到的第一数据进行格式转换,这里的格式转换是指对独立的数据信息进行重新组装,组成一定传输格式的第二数据,以方便后续的数据传送。
在S105中,发送所述第二数据至开源分布式流处理平台Kafka的集群中。
开源分布式流处理平台Kafka是由Apache软件基金会开发的一个开源流处理平台,具有高吞吐量、低延迟的特点,每秒可以处理几十万条消息。将第二数据发送至Kafka的集群中,依托该平台现有的系统集群统一调度,可实现大数据量的实时采集,供后面处理数据的第三方系统读取。
具体地,可以使用Kafka系统提供的生产者API,将第二数据发送至Kafka的集群中,无阻碍地使用Kafka系统集群处理模式。由于Kafka系统具有高并发性,支持多个生产者API同时发送数据,因此支持多个数据采集器同时运行。
本发明实施例中,由于以任务流程链的形式将每一个处理步骤分开配置,根据配置文件的配置对目标数据源数据进行解码、加工,因此能够灵活地将不同目标数据源的数据以格式统一地发送至Kafka集群,降低了对接不同数据源的复杂性,实现多数据源的采集;同时,由于Kafka高吞吐量、低延迟的特性,使得大数据量数据能够以高吞吐率被实时采集。
实施例二:
图2示出了本申请实施例提供的第二种数据采集方法的流程示意图,详述如下:
在S201中,读取预先配置的配置文件。
数据采集器在接收到启动指令后,读取预先配置的配置文件,开始数据采集流程。数据采集的配置文件是用户根据需要采集的目标数据源数据对应配置的,配置文件可以为可扩展标记语言xml文件、初始化文件ini、JavaScript对象简谱json文件中的其中一种文件格式。配置文件里包括用户名、密码、数据采集器名称、采集任务、采集线程并发数、与采集任务对应的配置的解码器以及格式转换配置、同步或异步发送至Kafka集群等。
可选地,在所述读取预先配置的配置文件之前,还包括:
若检测到新增的目标数据源,在所述配置文件中添加所述新增的目标数据源对应的采集任务。
当检测到新增的目标数据源时,例如当检测到用户在用户界面上新增了目标数据源或者当检测到数据采集器接入了新的目标数据源时,在配置文件中添加新增的目标数据源对应的采集任务,新增的采集任务的相关配置可以通过接收用户在用户界面上的相关配置操作实现。
可选地,在所述读取预先配置的配置文件之前,还包括:
若检测到目标数据源删除指令,根据所述目标数据源删除指令删减对应的目标数据源,并在所述配置文件中删除所述目标数据源对应的采集任务。
当检测到目标数据源删除指令时,表示当前不需要采集该目标数据源数据,此时将该需要删除的目标数据源对应的采集任务从配置文件中删除,使得配置文件中配置的采集流程不冗余,避免系统资源的浪费。
可选地,在所述读取预先配置的配置文件之前,还包括:
若所述目标数据源的数据类型发生变化,调整所述配置文件中的解码器。
当一个目标数据源的数据类型发生变化时,例如目标数据源数据从文本数据类型变为Redis数据类型时,只需调整配置文件中的解码器部分的配置,使用Redis解析模式,即可实现数据的正常采集。无需删除原有的整个数据采集流程,再重新配置,使得数据采集的方法更加灵活简便,以适应不同数据类型的数据源。
在S202中,根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源。
本实施例中S202与上一实施例中的S102相同,具体请参阅上一实施例中S102的相关描述,此处不赘述。
在S203中,判断所述目标数据源数据的有效性,丢弃无效的目标数据源数据。
从目标数据源中采集得到的数据并不都是可用的数据,可能存在有些错误数据或者不具有实质信息的空白数据,这类数据都为无效数据。对于不同的目标数据源,其相应的数据有效性判断方法也不同。根据目标数据源的数据类型,采取对应的方式判断数据的有效性。例如,对于日志类数据,通过匹配委托和成交字段的方式;对于.dbf后缀的数据库数据类型,通过验证文件名、数据字段是否存在,是否有值的方式判断;对于Redis等以数据表形式存在的数据类型,通过验证表名、各字段是否存在,是否有值的方式判断;对于KCXP系统数据,可以通过验证数据包的包体、包长的方式来进行数据有效性判断。
通过对目标数据源数据的有效性进行判断,及时剔除无效数据,避免了无效数据进入后续的数据采集流程,节省系统资源,进一步提高数据采集效率。
在S204中,根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据。
在配置文件中,每个采集任务对应配置一个解码器,根据需要采集的目标数据源的数据类型,配置相应的解码器。根据所述配置文件中与所述采集任务对应配置的解码器,解析在上一步骤实时采集到的目标数据源数据,得到第一数据。这里的解码器对数据的解析是指对数据进行分割、提取有效信息的操作过程,还包括根据读取数据采集器数据的第三方系统对数据格式的要求,相应地剔除第三方系统不需要的多余字段以及进行数据类型转换。例如对于目标数据源传来的一整串字符类型数据:“ACC_CODE,AMT_BLN,SECU_ID,PRE_CLS,OPEN_ID,BUY_FLAG,FST_NO”进行数据解析,剔除读取数据采集器数据的第三方系统不需要的字段“AMT_BLN”,并将ACC_CODE字段从字符类型转换为读取数据采集器数据的第三方系统需要的整型类型,最终得到整型类型的字段“ACC_CODE”,字符型的字段:“SECU_ID”“PRE_CLS”“OPEN_ID”“BUY_FLAG”“FST_NO”等字段信息。
可选地,解码器还包括解密数据的功能,若判断出待解析的数据为加密数据,则解密该加密数据后再解析解密后的数据。
在S205中,将所述第一数据进行格式转换,得到第二数据。
具体地,所述步骤S205包括以下两个步骤:
S205A:将所述第一数据进行字段转换,得到第三数据。
数据采集器的目标数据源与读取数据采集器数据的第三方系统对于同一含义的数据信息,可能存在各自不同的字段表达形式。例如对于颜色的表达,目标数据源用“红色”“黄色”等文字字段形式表示,而第三方系统则以“#FF0000”“#FFFF00”等十六进制颜色码的形式表示。因此,需要根据对接的读取数据采集器数据的第三方系统,对采集的第一数据进行转义操作,也就是对字段进行翻译转换。具体地,在配置文件中预配置字段映射表,对第一数据进行字段转换,得到对应的第三数据。或者,例如根据xml文件,将上述S204中解析得到的整型类型的字段“ACC_CODE”,字符型的字段:“SECU_ID”“PRE_CLS”“OPEN_ID”“BUY_FLAG”“FST_NO”等字段相应转换为读取数据采集器数据的第三方系统对应的字段,转换过程字段的数据类型不变,只是字段名称的转义,如下表1的字段转换映射表:
表1:
从目标数据源数据解析得到的字段 第三方系统对应的字段
ACC_CODE(整型) USR_CODE(整型)
SECU_ID(字符型) ID_CODE(字符型)
PRE_CLS(字符型) PR_CLS(字符型)
OPEN_ID(字符型) OPN_ID(字符型)
BUY_FLAG(字符型) BUY_ID(字符型)
FST_NO(字符型) NUM_CODE(字符型)
S205B:将所述第三数据转换为预定格式,得到第二数据。
将第三数据进行排列组装,组成一定传输格式的第二数据,以方便后续的数据传送。所述预定格式可以为串口通信数据帧格式或者HTTP协议格式等。
在S206中,发送所述第二数据至开源分布式流处理平台Kafka的集群中。
使用Kafka系统提供的生产者API,将第二数据发送至Kafka的集群中,无阻碍地使用Kafka系统集群处理模式。
可选地,在所述发送所述第二数据至Kafka集群之后,还包括:
若发送所述第二数据时检测到网络异常,重新发送所述第二数据至Kafka集群。
如果发送第二数据时检测到网络异常,例如断网或者其它网络错误信息,说明数据发送失败,重新发送所述第二数据值Kafka集群,减少有效数据的丢失。
本发明实施例中,由于数据采集是采用任务流程链方式,当数据源数量或者类型变更时,通过对数据采集的任务链流程中其中一个环节的修改便可适应对不同数据源的采集,因此降低了对接不同数据源的复杂性,便捷地实现多数据源的采集;通过及时删除任务链及对无效数据的丢弃,进一步提高数据采集的实时性和采集效率;同时,由于Kafka高吞吐量、低延迟的特性,使得大数据量数据能够以高吞吐率被实时采集。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三:
图3示出了本申请实施例提供的一种数据采集装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分:
该数据采集装置包括:读取单元31、数据获取单元32、解码器单元33、格式转换单元34、发送单元35。其中:
读取单元31,用于读取预先配置的配置文件。
数据采集装置在接收到启动指令后,读取预先配置的配置文件,开始数据采集流程。数据采集的配置文件是用户根据需要采集的目标数据源数据对应配置的,配置文件可以为可扩展标记语言xml文件、初始化文件ini、JavaScript对象简谱json文件中的其中一种文件格式。配置文件里包括用户名、密码、数据采集器名称、采集任务、与采集任务对应的配置的解码器以及格式转换配置等。
可选地,所述数据采集装置还包括:
采集任务添加单元,用于若检测到新增的目标数据源,在所述配置文件中添加所述新增的目标数据源对应的采集任务。
可选地,所述数据采集装置还包括:
采集任务删除单元,用于若检测到目标数据源删除指令,根据所述目标数据源删除指令删减对应的目标数据源,并在所述配置文件中删除所述目标数据源对应的采集任务。
可选地,所述数据采集装置还包括:
调整单元,用于若所述目标数据源的数据类型发生变化,调整所述配置文件中的解码器。
数据获取单元32,用于根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源。
配置文件中配置的采集任务包括了目标数据源的连接地址、端口、所需采集的数据队列名等信息,因此,根据配置文件中配置的采集任务,可唯一确定需要采集的目标数据源。采集任务的数量可以为一个也可以为多个,一个采集任务对应一个目标数据源,目标数据源数据可以为CouchDB、Redis、dBASE、Foxbase等数据库数据、文本类和日志类数据、以及金证通讯交换平台KCXP的消息队列等。
可选地,所述数据采集装置还包括:
判断单元,用于判断所述目标数据源数据的有效性,丢弃无效的目标数据源数据。
解码器单元33,用于根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据。
在配置文件中,每个采集任务对应配置一个解码器,根据需要采集的目标数据源的数据类型,配置相应的解码器。解码器单元根据所述配置文件中与所述采集任务对应配置的解码器,解析实时采集到的目标数据源数据,得到第一数据。这里的解码器对数据的解析是指对数据进行分割、提取有效信息的操作过程,例如对于目标数据源传来的一整串字符类型数据:“USER_CODE,PASS_WORD,STK_CODE,”,经过解码器解析之后,对“,”等形式符号进行剔除,分割得到对应的“USER_CODE”“PASS_WORD”“STK_CODE”等独立的有效信息。可选地,解码器还包括解密数据的功能,若判断出待解析的数据为加密数据,则解密该加密数据后再解析解密后的数据。
格式转换单元34,用于将所述第一数据进行格式转换,得到第二数据。
格式转换单元将从解码器单元中解析得到的第一数据进行格式转换,这里的格式转换是指对独立的数据信息进行重新组装,组成一定传输格式的第二数据,以方便后续的数据传送。
可选地,所述格式转换单元34包括字段转换模块和预定格式生成模块:
字段转换模块,用于将所述第一数据进行字段转换,得到第三数据。
预定格式生成模块,用于将所述第三数据转换为预定格式,得到第二数据。
发送单元35,用于发送所述第二数据至开源分布式流处理平台Kafka的集群中。
发送单元使用Kafka系统提供的生产者API,将第二数据发送至Kafka的集群中,无阻碍地使用Kafka系统集群处理模式。由于Kafka系统具有高并发性,支持多个生产者API同时发送数据,因此支持多个数据采集器同时运行。
可选地,所述发送单元35还包括网络检测模块,用于若发送所述第二数据时检测到网络异常,重新发送所述第二数据至Kafka集群。
本发明实施例中,由于以任务流程链的形式将每一个处理步骤分开配置,根据配置文件的配置对目标数据源数据进行解码、加工,因此能够灵活地将不同目标数据源的数据以格式统一地发送至Kafka集群,降低了对接不同数据源的复杂性,实现多数据源的采集;同时,由于Kafka高吞吐量、低延迟的特性,使得大数据量数据能够以高吞吐率被实时采集。
实施例四:
图4是本发明一实施例提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如数据采集程序。所述处理器40执行所述计算机程序42时实现上述各个数据采集方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块31至35的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如,所述计算机程序42可以被分割成读取单元、数据获取单元、解码器单元、格式转换单元、发送单元,各单元具体功能如下:
读取单元,用于读取预先配置的配置文件。
数据获取单元,用于根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源。
解码器单元,用于根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据。
格式转换单元,将所述第一数据进行格式转换,得到第二数据。
发送单元,用于发送所述第二数据至开源分布式流处理平台Kafka的集群中。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
读取预先配置的配置文件;
根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源;
根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据;
将所述第一数据进行格式转换,得到第二数据;
发送所述第二数据至开源分布式流处理平台Kafka的集群中。
2.如权利要求1所述的数据采集方法,其特征在于,在所述读取预先配置的配置文件之前,还包括:
若检测到新增的目标数据源,在所述配置文件中添加所述新增的目标数据源对应的采集任务。
3.如权利要求1所述的数据采集方法,其特征在于,在所述读取预先配置的配置文件之前,还包括:
若检测到目标数据源删除指令,根据所述目标数据源删除指令删减对应的目标数据源,并在所述配置文件中删除所述目标数据源对应的采集任务。
4.如权利要求1所述的数据采集方法,其特征在于,在所述读取预先配置的配置文件之前,还包括:
若所述目标数据源的数据类型发生变化,调整所述配置文件中的解码器。
5.如权利要求1所述的数据采集方法,其特征在于,在所述根据所述配置文件中的解码器,解析所述目标数据源数据,得到第一数据之前,还包括:
判断所述目标数据源数据的有效性,丢弃无效的目标数据源数据。
6.如权利要求1所述的数据采集方法,其特征在于,将所述第一数据进行格式转换,得到第二数据,具体包括:
将所述第一数据进行字段转换,得到第三数据;
将所述第三数据转换为预定格式,得到第二数据。
7.如权利要求1至6任意一项所述的数据采集方法,其特征在于,在所述发送所述第二数据至开源分布式流处理平台Kafka的集群中之后,还包括:
若发送所述第二数据时检测到网络异常,重新发送所述第二数据至Kafka集群。
8.一种数据采集装置,其特征在于,包括:
读取单元,用于读取预先配置的配置文件;
数据获取单元,用于根据所述配置文件配置的采集任务,实时获取目标数据源数据,其中所述采集任务的数量大于或等于1,每个采集任务对应一个所述目标数据源;
解码器单元,用于根据所述配置文件中与所述采集任务对应配置的解码器,解析所述目标数据源数据,得到第一数据;
格式转换单元,将所述第一数据进行格式转换,得到第二数据;
发送单元,用于发送所述第二数据至开源分布式流处理平台Kafka的集群中。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN201811512927.8A 2018-12-11 2018-12-11 数据采集方法、装置及终端设备 Active CN109800259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811512927.8A CN109800259B (zh) 2018-12-11 2018-12-11 数据采集方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811512927.8A CN109800259B (zh) 2018-12-11 2018-12-11 数据采集方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN109800259A true CN109800259A (zh) 2019-05-24
CN109800259B CN109800259B (zh) 2021-08-10

Family

ID=66556592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811512927.8A Active CN109800259B (zh) 2018-12-11 2018-12-11 数据采集方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN109800259B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222253A (zh) * 2019-06-12 2019-09-10 北京睦合达信息技术股份有限公司 一种数据采集方法、设备及计算机可读存储介质
CN110457383A (zh) * 2019-08-13 2019-11-15 杭州高达软件系统股份有限公司 数据采集方法、装置、服务器、系统及可读存储介质
CN111125232A (zh) * 2019-12-31 2020-05-08 北京奇艺世纪科技有限公司 一种公有云资产信息接入的方法及装置
CN111262915A (zh) * 2020-01-10 2020-06-09 北京东方金信科技有限公司 一种跨Kafka集群的数据转换系统和方法
CN111897790A (zh) * 2020-07-31 2020-11-06 平安普惠企业管理有限公司 风控日志采集方法、装置、电子设备及存储介质
CN112068874A (zh) * 2020-07-30 2020-12-11 深圳市优必选科技股份有限公司 软件项目持续集成方法、装置、终端设备和存储介质
CN112417022A (zh) * 2020-11-27 2021-02-26 深圳市金证科技股份有限公司 用于获取数据的方法、装置、终端及存储介质
CN113377848A (zh) * 2020-02-25 2021-09-10 北京数聚鑫云信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN116578605A (zh) * 2023-04-19 2023-08-11 广东畅视科技有限公司 数据采集方法、装置、电子设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182798A1 (en) * 2008-01-11 2009-07-16 Mediatek Inc. Method and apparatus to improve the effectiveness of system logging
US20110208730A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
CN103699555A (zh) * 2013-07-03 2014-04-02 国电南瑞科技股份有限公司 一种适用于调度与变电站一体化系统的多源数据实时库数据生成方法
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法
CN104346681A (zh) * 2013-08-08 2015-02-11 中国科学院计算机网络信息中心 一种从异构企业信息系统中主动获取数据的方法
CN104461516A (zh) * 2014-11-21 2015-03-25 北京锐安科技有限公司 一种数据处理方法和装置
CN105100216A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 一种多业务的监控方法和装置
CN105262831A (zh) * 2015-10-30 2016-01-20 北京奇艺世纪科技有限公司 一种存储系统间同步数据的方法、装置及同步系统
CN105930226A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种数据处理方法及装置
CN106168909A (zh) * 2016-06-30 2016-11-30 北京奇虎科技有限公司 一种日志的处理方法和装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN107330096A (zh) * 2017-07-05 2017-11-07 恒生电子股份有限公司 文件处理方法及装置、计算机可读存储介质和电子设备
CN107818120A (zh) * 2016-09-14 2018-03-20 博雅网络游戏开发(深圳)有限公司 基于大数据的数据处理方法和装置
CN107862883A (zh) * 2017-12-21 2018-03-30 天津市中环系统工程有限责任公司 交通信号灯的故障检测及报警与运维管理系统及实现方法
US9990348B2 (en) * 2014-05-05 2018-06-05 Prasath Nayanar Chandrasekaran System and method for managing data using a spreadsheet model
WO2018161557A1 (en) * 2017-03-10 2018-09-13 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, device, terminal and storage medium for adjusting broadcast message queue

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182798A1 (en) * 2008-01-11 2009-07-16 Mediatek Inc. Method and apparatus to improve the effectiveness of system logging
US20110208730A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
CN103699555A (zh) * 2013-07-03 2014-04-02 国电南瑞科技股份有限公司 一种适用于调度与变电站一体化系统的多源数据实时库数据生成方法
CN104346681A (zh) * 2013-08-08 2015-02-11 中国科学院计算机网络信息中心 一种从异构企业信息系统中主动获取数据的方法
US9990348B2 (en) * 2014-05-05 2018-06-05 Prasath Nayanar Chandrasekaran System and method for managing data using a spreadsheet model
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法
CN104461516A (zh) * 2014-11-21 2015-03-25 北京锐安科技有限公司 一种数据处理方法和装置
CN105100216A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 一种多业务的监控方法和装置
CN105262831A (zh) * 2015-10-30 2016-01-20 北京奇艺世纪科技有限公司 一种存储系统间同步数据的方法、装置及同步系统
CN105930226A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种数据处理方法及装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106168909A (zh) * 2016-06-30 2016-11-30 北京奇虎科技有限公司 一种日志的处理方法和装置
CN107818120A (zh) * 2016-09-14 2018-03-20 博雅网络游戏开发(深圳)有限公司 基于大数据的数据处理方法和装置
WO2018161557A1 (en) * 2017-03-10 2018-09-13 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, device, terminal and storage medium for adjusting broadcast message queue
US10097292B2 (en) * 2017-03-10 2018-10-09 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, device, terminal and storage medium for adjusting broadcast message queue
CN107330096A (zh) * 2017-07-05 2017-11-07 恒生电子股份有限公司 文件处理方法及装置、计算机可读存储介质和电子设备
CN107862883A (zh) * 2017-12-21 2018-03-30 天津市中环系统工程有限责任公司 交通信号灯的故障检测及报警与运维管理系统及实现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FARSHAD SAFAEI 等: "Dependency Analysis of Message Packet Queues in Interconnection Networks with Faults", 《2008 SECOND ASIA INTERNATIONAL CONFERENCE ON MODELLING & SIMULATION》 *
T.J. HAMILTON 等: "An analysis of matching in the Tau cell log-domain filter", 《2006 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS》 *
梁锦华: "基于软交换的企业VoIP-呼叫控制研究与设计", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 *
顾兆军 等: "多源日志聚合分析方法", 《计算机工程与设计》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222253A (zh) * 2019-06-12 2019-09-10 北京睦合达信息技术股份有限公司 一种数据采集方法、设备及计算机可读存储介质
CN110457383A (zh) * 2019-08-13 2019-11-15 杭州高达软件系统股份有限公司 数据采集方法、装置、服务器、系统及可读存储介质
CN111125232A (zh) * 2019-12-31 2020-05-08 北京奇艺世纪科技有限公司 一种公有云资产信息接入的方法及装置
CN111262915A (zh) * 2020-01-10 2020-06-09 北京东方金信科技有限公司 一种跨Kafka集群的数据转换系统和方法
CN111262915B (zh) * 2020-01-10 2020-09-22 北京东方金信科技有限公司 一种跨Kafka集群的数据转换系统和方法
CN113377848A (zh) * 2020-02-25 2021-09-10 北京数聚鑫云信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN112068874A (zh) * 2020-07-30 2020-12-11 深圳市优必选科技股份有限公司 软件项目持续集成方法、装置、终端设备和存储介质
CN112068874B (zh) * 2020-07-30 2023-12-29 深圳市优必选科技股份有限公司 软件项目持续集成方法、装置、终端设备和存储介质
CN111897790A (zh) * 2020-07-31 2020-11-06 平安普惠企业管理有限公司 风控日志采集方法、装置、电子设备及存储介质
CN112417022A (zh) * 2020-11-27 2021-02-26 深圳市金证科技股份有限公司 用于获取数据的方法、装置、终端及存储介质
CN112417022B (zh) * 2020-11-27 2024-06-07 深圳市金证科技股份有限公司 用于获取数据的方法、装置、终端及存储介质
CN116578605A (zh) * 2023-04-19 2023-08-11 广东畅视科技有限公司 数据采集方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109800259B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN109800259A (zh) 数据采集方法、装置及终端设备
US9817867B2 (en) Dynamically processing an event using an extensible data model
CN108667725A (zh) 一种基于多种接入及边缘计算的工业软网关以及实现方法
CN109254982A (zh) 一种流数据处理方法、系统、装置及计算机可读存储介质
CN110445860B (zh) 一种报文发送方法、装置、终端设备及存储介质
US7614057B2 (en) Entity linking system
US20210385251A1 (en) System and methods for integrating datasets and automating transformation workflows using a distributed computational graph
CN113269547B (zh) 数据处理方法、装置、电子设备和存储介质
CN101867493B (zh) 基于微波设备网管系统的以太网包转发的实现方法
CN107818120A (zh) 基于大数据的数据处理方法和装置
CN108038207A (zh) 一种日志数据处理系统、方法和服务器
CN109768970A (zh) 一种基于可配置的通用协议生成方法
CN106453482A (zh) 一种物联网中间件系统及物联网系统
CN111083168A (zh) 可配置的物联网平台网关的数据传输方法、装置和网关
US20120232934A1 (en) Automated insurance policy form generation and completion
US20210136121A1 (en) System and method for creation and implementation of data processing workflows using a distributed computational graph
KR102478464B1 (ko) 웹 트래픽 데이터를 처리 및 관리하는 시스템, 장치 및 방법
CN109670081A (zh) 业务请求处理的方法及装置
CN111694828A (zh) 数据处理方法、设备、系统及存储介质
CN104268143A (zh) Xml数据的处理方法和装置
CN114125049A (zh) 遥测消息处理方法、装置、设备及存储介质
CN104202328B (zh) 一种订阅goose/smv报文的方法、配置模块及订阅端
CN110850452A (zh) 一种卫星遥测数据的处理方法、装置及系统
US11310353B2 (en) Data transmission method for creating data structure facilitating data transmission and reception
CN117171711A (zh) 一种基于云平台的企业内外部数据融合共享方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant