CN113688183A - 多类型数据源抽取方法、系统、终端设备以及存储介质 - Google Patents

多类型数据源抽取方法、系统、终端设备以及存储介质 Download PDF

Info

Publication number
CN113688183A
CN113688183A CN202111252003.0A CN202111252003A CN113688183A CN 113688183 A CN113688183 A CN 113688183A CN 202111252003 A CN202111252003 A CN 202111252003A CN 113688183 A CN113688183 A CN 113688183A
Authority
CN
China
Prior art keywords
data source
data
extraction
type
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111252003.0A
Other languages
English (en)
Inventor
吴育校
成建洪
罗启铭
杜冬冬
陈功
覃江威
熊皓
刘小双
叶佩玉
冯建设
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Original Assignee
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrun Fulian Digital Technology Co Ltd filed Critical Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority to CN202111252003.0A priority Critical patent/CN113688183A/zh
Publication of CN113688183A publication Critical patent/CN113688183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多类型数据源抽取方法、系统、终端设备以及计算机可读存储介质,该多类型数据源抽取方法的步骤包括:在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。本发明能够实现根据数据源类型采用相应的数据抽取方式进行数据抽取,使得各类型数据源都能应用于数据分析。

Description

多类型数据源抽取方法、系统、终端设备以及存储介质
技术领域
本发明涉及数据分析领域,尤其是涉及一种多类型数据源抽取方法、系统、终端设备以及计算机可读存储介质。
背景技术
目前数据分析人员在进行数据分析之前都需要针对数据源做相应的操作,以提高数据分析的效率和正确率。当前普遍采用编写SQL的方式对数据源进行查询和抽取,并抽取数据到指定地方之后再进行数据的分析,而ETL是目前被较多使用的数据源抽取工具,但是ETL抽取方式仅限于关系型数据源的抽取,无法对非关系型数据源、文本数据源和实时数据源等进行抽取。
当前针对数据源的数据抽取方式无法应用于所有的数据源类型,进而无法抽取各个类型的数据源进行数据分析,导致了数据源利用效率的降低。
发明内容
本发明的主要目的在于提供一种多类型数据源抽取方法、系统、终端设备以及计算机可读存储介质,旨在通过多种数据抽取方式实现多类型数据源的数据抽取。
为实现上述目的,本发明提供一种多类型数据源抽取方法,所述多类型数据源抽取方法包括:
在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
可选地,在所述在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型的步骤之前,还包括:
接收针对多类型初始数据源的数据配置请求;
根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则,同时将所述配置规则进行存储。
可选地,所述根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则的步骤,包括:
基于所述数据配置请求判断所述初始数据源的类型;
若判断到所述初始数据源为关系型数据源或者非关系型数据源,则配置所述初始数据源的基础信息、抽取频率和抽取时间节点,并得到第一配置规则。
可选地,在所述基于所述数据配置请求判断所述初始数据源的类型的步骤之后,还包括:
若判断到所述初始数据源为实时数据源,则配置所述初始数据源的所述基础信息,并得到第二配置规则,其中所述基础信息中包含了所述初始数据源的主题;
若判断到所述初始数据源为文本文件数据源,则基于所述初始数据配置请求获取所述初始数据源的本地文本文件,并得到第三配置规则。
可选地,所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务的步骤,包括:
判断所述目标数据源的类型;
若判断到所述目标数据源为关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第一抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为非关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第二抽取方式执行所述数据抽取任务。
可选地,在所述判断所述目标数据源的数据源类型的步骤之后,还包括:
若判断到所述目标数据源为实时数据源,则基于所述第二配置规则,针对所述目标数据源通过预设第三抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为文本文件数据源,则基于所述第三配置规则,针对所述目标数据源通过预设第四抽取方式执行所述数据抽取任务。
可选地,在所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果的步骤之后,还包括:
将所述数据抽取结果存入预设数据仓库,并输出所述数据抽取任务的完成消息。
为实现上述目的,本发明还提供一种多类型数据源抽取系统,所述多类型数据源抽取包括:
获取模块,用于在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
执行模块,用于基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
其中,本发明多类型数据源抽取系统的各个功能模块各自在运行时均实现如上所述的多类型数据源抽取方法的步骤。
为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的多类型数据源抽取程序,所述多类型数据源抽取程序被所述处理器执行时实现如上所述的多类型数据源抽取方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多类型数据源抽取程序,所述多类型数据源抽取程序被处理器执行时实现如上所述的多类型数据源抽取方法的步骤。
此外,为实现上述目的,本发明还提供计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的多类型数据源抽取方法的步骤。
本发明提供一种多类型数据源抽取方法、系统、终端设备、计算机可读存储介质以及计算机程序产品,通过在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;基于所述数据源类型,通过预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
本发明中,终端设备接收用户发起的针对数据源的数据抽取指令,解析该数据抽取指令,从该数据抽取指令中获取用户将要抽取的目标数据源和该目标数据源所对应的数据类型,以基于该目标数据源的类型采用预设的抽取方式对该目标数据源进行抽取,得到数据抽取结果。
本发明能够实现根据数据源类型采用相应的数据抽取方式进行数据抽取,使得各类型数据源都能应用于数据分析。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明多类型数据源抽取方法一实施例的流程示意图;
图3为本发明多类型数据源抽取方法一实施例涉及到的数据源配置流程示意图;
图4为本发明多类型数据源抽取方法一实施例涉及到的数据抽取流程示意图;
图5为本发明多类型数据源抽取方法一实施例涉及到的数据抽取进程示意图;
图6为本发明数据抽取系统一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例终端设备可以是用于实现多类型数据源的数据抽取的终端设备,该终端设备具体可以是智能手机、个人计算机和服务器等。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多类型数据源抽取程序。操作系统是管理和控制设备硬件和软件资源的程序,支持多类型数据源抽取程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的多类型数据源抽取程序,并执行以下操作:
在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
进一步地,在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型的步骤之前,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,还执行以下操作:
接收针对多类型初始数据源的数据配置请求;
根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则,同时将所述配置规则进行存储。
进一步地,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,还执行以下操作:
基于所述数据配置请求判断所述初始数据源的类型;
若判断到所述初始数据源为关系型数据源或者非关系型数据源,则配置所述初始数据源的基础信息、抽取频率和抽取时间节点,并得到第一配置规则。
进一步地,在所述在基于所述数据配置请求判断所述初始数据源的类型的步骤之后,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,执行以下操作:
若判断到所述初始数据源为实时数据源,则配置所述初始数据源的所述基础信息,并得到第二配置规则,其中所述基础信息中包含了所述初始数据源的主题;
若判断到所述初始数据源为文本文件数据源,则基于所述数据配置请求获取所述初始数据源的本地文本文件,并得到第三配置规则。
进一步地,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,还执行以下操作:
判断所述目标数据源的数据源类型;
若判断到所述目标数据源为关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第一抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为非关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第二抽取方式执行所述数据抽取任务。
进一步地,在所述判断所述目标数据源的数据源类型的步骤之后,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,还执行以下操作:
若判断到所述目标数据源为实时数据源,则基于所述第二配置规则,针对所述目标数据源通过预设第三抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为文本文件数据源,则基于所述第三配置规则,针对所述目标数据源通过预设第四抽取方式执行所述数据抽取任务。
进一步地,在所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果的步骤之后,处理器1001还可以用于调用存储器1005中存储的多类型数据源抽取程序,还执行以下操作:
将所述数据抽取结果存入预设数据仓库,并输出所述数据抽取任务的完成消息。
参照图2,图2为本发明多类型数据源抽取方法第一实施例的流程示意图。
在本实施例中,提供了多类型数据源抽取方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
步骤S10,在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
终端设备在接收到用户针对数据源发起的数据抽取指令后,解析该抽取指令,得到用户将要抽取的目标数据源,并获取到该目标数据源的数据类型。
需要说明的是,在本实施例中,数据源的数据类型包括:关系型数据源、非关系数据源、实时数据源和文本文件数据源等,终端设备设备在获取到数据抽取指令后,找寻该数据抽取指令所指向的目标数据源,在获取目标数据源同时也获取到该目标数据源的数据类型,如终端设备根据该数据抽取指令获取到属于实时数据源的目标数据源。
进一步地,在上述步骤S10,“在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型”之前,还包括:
步骤S30,接收针对多类型初始数据源的数据配置请求;
终端设备接收用户针对多类型初始数据源发送的数据配置请求,解析该数据配置请求,以按照该数据配置请求对该多类型初始数据源的相关参数进行配置。
需要说明的是,在本实施例中,用户针对多类型初始数据源发起数据配置请求的方式可以包括:数据配置界面,即用户可以通过由终端设备输出的数据配置界面去配置数据源,并通过该数据配置界面将该数据配置请求发送给终端设备。
具体地,例如,终端设备在将初始数据源配置界面输出给用户后,用户将基于该数据配置界面对初始数据源进行配置,对初始数据源配置的内容包括:选择数据源类型、填写数据源IP、填写数据源端口和填写数据库名称、选择待抽取数据、确定抽取规则等,并发送数据配置请求给终端设备,终端设备在获取到该数据配置请求后,将按照该数据配置请求对数据源进行配置。
步骤S40,根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则,同时将所述配置规则进行存储。
终端设备将根据用户发送的数据配置请求对初始数据源进行配置,并得到配置过程中的配置规则,同时将该配置规则进行保存,以基于该配置规则执行数据抽取任务。
具体地,例如,终端设备获取用户基于数据源配置界面发起的数据配置请求,如,填写数据源IP、填写数据源端口、填写数据库名称、选择待抽取数据操作、确定抽取频率、确定抽取时间节点等,在获取到包含上述内容的数据配置请求后,基于上述数据配置请求去配置初始数据源,并得到配置该初始数据源过程中的配置规则,将该配置规则进行保存,其中,该配置规则包含了配置该初始数据源的具体方式和抽取该初始数据源的具体规则,如初始数据源的IP、端口、名称和主题名等,又如抽取该初始数据源的抽取频率和抽取时间节点等。
需要说明的是,在本实施例中,如图3所示的数据源配置流程示意图,数据源的数据类型包括:关系型数据源、非关系型数据源、实时数据源和文本文件数据源等,基于不同的数据源,终端设备在配置数据源的时候将采用与数据源类型相匹配的方式进行数据源的配置。如,若检测到数据源的类型为关系型数据源或者非关系型数据源时,终端设备将配置该数据源的IP、端口地址、用户名称、用户密码等参数;又如,若检测到数据源的类型为实时数据源,将配置该数据源的IP、端口地址、主题等;又如,若判断到数据源的类型为文本文件数据源,则获取用户通过数据源配置界面上传的本地文本文件。
进一步地,上述步骤S40,“根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则”,可以包括:
步骤S401,基于所述数据配置请求判断所述初始数据源的类型;
终端设备在接收到用户针对多类型初始数据源发出的数据配置请求后,解析该数据配置请求,进而通过该数据配置请求判断该初始数据源的类型。
需要说明的是,在本实施例中,初始数据源的数据类型可以包括:关系型数据源、非关系数据源、实时数据源和文本文件数据源等,终端设备只有在获取到该初始数据源的类型后才能采用对应的配置方式对该初始数据源进行配置。
步骤S402,若判断到所述初始数据源为关系型数据源或者非关系型数据源,则配置所述初始数据源的基础信息、抽取频率和抽取时间节点,并得到第一配置规则。
终端设备根据数据配置请求对初始数据源的类型进行判断,在判断到该初始数据源为关系型数据源或者非关系型数据源时,将针对该关系型数据源或者该非关系型数据源的基础信息、抽取频率和抽取时间节点进行配置,同时将配置过程中的配置规则进行保存。
具体地,例如,终端设备针对关系型数据源或者非关系型数据源进行数据配置,如,配置关系型数据源的数据源IP、端口地址、用户名称、用户密码等参数,同时配置在抽取该关系型数据源时的抽取频率、抽取时间节点,以该抽取频率在该抽取时间节点执行数据抽取任务,并且,根据用户发起的数据配置请求获取该关系型数据源中的数据表,以针对该数据表执行关系型数据源的抽取任务。
具体地,例如,终端设备基于需要根据用户基于数据源配置界面配置触发的数据配置请求去配置抽取规则,如,配置抽取频率为1分钟,抽取时间节点为2021年9月26日的14:00时,基于上述抽取规则,终端设备将以1分钟的抽取频率,在2021年9月26日的14:00时开始执行数据抽取任务,并且可通过Spark(计算引擎)对从关系型数据源中抽取的数据进行处理。
需要说明的是,在本实施例中,终端设备基于数据配置请求可以获取关系型数据源中的数据表,在获取到关系型数据源中的数据表后,获取该数据表的字段属性信息,并通过字段映射的方式,将该数据表的字段映射到预设的数据仓库表的相应字段上。字段属性信息约束了添加到该字段的数据的特征。其中,字段的数据类型是最该字段重要的属性信息,因为数据类型决定了该字段可存储何种类型数据。通过待抽取数据表的字段属性与预设的数据仓库表的字段属性之间的映射关系,终端设备能将抽取的数据表保存至该预设的数据仓库表所在的数据仓库中。通常,预设的数据仓库表的字段属性信息默认与数据表的字段属性信息相同,但是可以通过映射的方式,将该数据表映射到该数据仓库表的其它字段上,能够实现灵活存储。
进一步地,在步骤S401,“基于所述数据配置请求判断所述初始数据源的类型”之后,还包括:
步骤S403,若判断到所述初始数据源为实时数据源,则配置所述初始数据源的所述基础信息,并得到第二配置规则,其中所述基础信息中包含了所述初始数据源的主题;
终端设备根据数据配置请求对初始数据源的类型进行判断,在判断到该数据源为实时数据源时,将针对该实时数据源的基础信息进行配置。
需要说明的是,在本实施例中,终端设备在针对实时数据源进行配置时,不仅需要配置该实时数据源的数据源IP和端口,也需要配置该实时数据源的主题,该主题可由用户通过数据源配置界面选择得到,该实时数据源可具有各种主题,如设备、物料、产品等,用户可根据数据分析的需求进行主题的选择,以根据该实时数据源的主题建立数据抽取流程,并基于该数据抽取流程执行数据抽取任务。
步骤S404,若判断到所述初始数据源为文本文件数据源,则基于所述数据配置请求获取所述初始数据源的本地文本文件,并得到第三配置规则。
终端设备根据数据配置请求对初始数据源的类型进行判断,在判断到该初始数据源为文本文件数据源时,将根据用户发送的数据配置请求获取到该文本文数据源的本地文本文件,以得到配置完成的数据源。
需要说明的是,在本实施例中,在用户通过数据源配置界面向文本文件数据源上传本地文本文件后,终端设备能够根据数据配置请求获取到该本地文本文件,以基于该本地文本文件实现文本文件数据源的抽取。
进一步地,本发明多类型数据源抽取方法,还包括:
步骤S20,基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
终端设备在获取到目标数据源的类型后,基于预设的配置规则,并通过与目标数据源类型相对应的预设的抽取方式,针对该目标数据源执行数据抽取任务,并得到数据抽取结果。
需要说明的是,在本实施例中,终端设备在执行数据抽取任务时,不仅需要按照不同类型数据源的配置规则进行数据的抽取,同时还要按照预设的抽取方式进行数据的抽取,该抽取方式可以包括:ETL(Extract Transform Load,数据仓库技术)、sqoop(第三方数据转移模块)和Datax(异构数据源离线同步工具)等,基于不同的配置规则和抽取方式,可实现各个类型数据源的数据抽取。
在本实施例中,终端设备接收用户针对多类型初始数据源发送的数据配置请求,解析该数据配置请求,以按照该数据配置请求对该多类型初始数据源的相关参数进行配置,并得到配置过程中的配置规则,同时将该配置规则进行保存,以基于该配置规则执行数据抽取任务。终端设备在接收到用户针对数据源发起的数据抽取指令后,解析该抽取指令,得到用户将要抽取的目标数据源,并获取到该目标数据源的数据类型。终端设备在获取到目标数据源的类型后,根据与目标数据源类型相对应的预设的抽取方式,针对该目标数据源执行数据抽取任务,并得到数据抽取结果。
本发明能够根据数据源类型采用相应的数据抽取方式进行数据抽取,使得各类型数据源都能应用于数据分析。
进一步地,基于上述本发明多类型数据源抽取方法的第一实施例,提出本发明多类型数据源抽取方法的第二实施例。
本实施例与上述第一实施例之间的主要区别在于,在上述步骤S20中,“基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果”,还可以包括:
步骤S201,判断所述目标数据源的数据源类型;
终端设备在针对目标数据源执行数据抽取任务时,需要判断该目标数据源的数据源类型,并根据该目标数据源的数据源类型去执行相应的数据抽取任务。
具体地,例如,终端设备检测目标数据源的数据源类型,数据源类型可以包括:关系型数据源、非关系型数据源、实时数据源和文本文件数据源等,只有在确定目标数据源的数据源类型后,才能执行数据抽取任务。
步骤S202,若判断到所述目标数据源为关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第一抽取方式执行所述数据抽取任务;
终端设备在判断到目标数据源为关系型数据源后,将基于预先存储的第一配置规则,通过预设第一抽取方式对目标数据源中的数据进行抽取。
需要说明的是,在本实施例中,预设第一抽取方式包括:sqoop(第三方数据转移模块),终端设备可通过sqoop在HDFS(Hadoop Distributed File System,Hadoop分布式系统)和关系型数据库之间转移大量数据,实现数据的抽取。
具体地,例如,如图4所示的数据抽取流程示意图,终端设备在获取到目标源数据中的待抽取数据表,并判定该目标数据源为关系型数据源后,将按照预设的抽取频率,通过sqoop的抽取方式在抽取时间节点对该目标数据源中的数据进行抽取,并得到针对该目标数据源的数据抽取结果。
需要说明的是,当目标数据源的类型为关系型数据源时,终端设备在抽取关系型数据源中的数据时,可以通过抽取该关系型数据源中的数据表的方式实现数据抽取,由于用户已通过数据源配置界面对该数据表进行了配置,终端设备可根据数据抽取请求直接抽取该关系型数据源中的该数据表。
步骤S203,若判断到所述目标数据源为非关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第二抽取方式执行所述数据抽取任务。
终端设备在判断到目标数据源为非关系型数据源后,将基于预先存储的第一配置规则,通过预设第二抽取方式对目标数据源中的数据进行抽取。
需要说明的是,在本实施例中,预设第二抽取方式包括:Datax(异构数据源离线同步工具),终端设备能够通过Datax的方式将数据源A的数据采集到数据源B,即将数据从数据源A的某一字段抽取到数据源B的相应字段。
具体地,例如,如图4所示的数据抽取流程示意图,终端设备在获取到目标数据源,并判定该目标数据源为非关系型数据源后,将按照预设的抽取频率,通过Datax的抽取方式在抽取时间节点对该目标数据源中的数据进行抽取,并得到数据源抽取结果。
进一步地,在上述步骤S201,“判断所述目标数据源的数据源类型”之后,还可以包括:
步骤S204,若判断到所述目标数据源为实时数据源,则基于所述第二配置规则,针对所述目标数据源通过预设第三抽取方式执行所述数据抽取任务;
终端设备在判断到目标数据源为实时数据源后,将基于预先存储的第二配置规则,通过预设第三抽取方式对目标数据源中的数据进行抽取。
需要说明的是,在本实施例中,预设第三抽取方式为,建立与实时数据源主题相关的数据抽取进程,以通过该数据抽取进程实现数据抽取。
具体地,例如,实时数据源中的数据都是实时数据,即数据生产者每生成一个数据就会该实时数据源发送,由于终端设备在基于用户触发的数据配置请求对实时数据源进行配置时,配置了该实时数据源的IP、端口和主题等参数,终端设备将基于实时数据源的主题建立数据抽取进程,并且在获取到与该实时数据源主题相关的消息后,启动该数据抽取进程,以通过该数据抽取进程对该实时数据源的数据进行抽取和存储。如图5所述的数据抽取进程示意图,终端设备通过kafka(分布式发布订阅消息系统)获取与实时数据源的主题相关的消息,并通过该消息启动数据抽取进程,通过该数据抽取进程实现该实时数据源中数据的抽取。
步骤S205,若判断到所述目标数据源为文本文件数据源,则基于所述第三配置规则,针对所述目标数据源通过预设第四抽取方式执行所述数据抽取任务。
终端设备在判断到目标数据源为文本文件数据源后,将基于预先存储的第三配置规则,通过预设第四抽取方式对目标数据源中的数据进行抽取。
具体地,例如,由于终端设备在针对文本文件数据源进行配置时,获取到了用户通过数据源配置界面上传的本地文本文件,由于该本地文本文件已被用户预先定义文件属性,如文件名称、文件格式、文件大小等,终端设备可直接通过预设的java程序解析该文本文件数据源中的文件文本,并将该文件文本存入预设的数据仓库中。
需要说明的是,在本实施例中,当判断到目标数据源为文本文件数据源后,终端设备执行数据抽取任务的抽取方式为,通过预设的java程序解析该文本文件数据源中的文本文件,并将该文本文件存入预设的数据仓库表所处的数据仓库。
进一步地,在上述步骤S20,“基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果”之后,还包括:
步骤S50,将所述数据抽取结果存入预设数据仓库,并输出所述数据抽取任务的完成消息。
终端设备在根据数据抽取任务获取到数据源的抽取结果后,将该数据源抽取结果存入该预设数据仓库中,并向用户发送数据抽取任务的完成消息。
需要说明的是,在本实施例中,终端设备在将数据抽取结果保存至数据仓库时,若该数据抽取结果以数据表的形式进行展现,则可根据该数据表与预设的数据仓库表的映射关系对该数据表进行存储。数据映射是数据抽取、数据转换、数据加载等数据操作的基础,通过预先构建的映射关系能够明确定义进行数据抽取、数据转换、数据加载等数据操作过程中的规则,终端设备可通过该映射关系将该数据表存储到预设的数据仓库表的对应字段上,至于映射到哪一具体字段可由该映射关系来决定。
在本实施例中,终端设备在针对目标数据源执行数据抽取任务时,需要检测该目标数据源的类型,并根据该目标数据源的类型去执行相应的数据抽取任务。终端设备在判断到目标数据源为关系型数据源后,将基于预先保存的第一配置规则,通过预设第一抽取方式对目标数据源中的数据进行抽取。终端设备在判断到目标数据源为非关系型数据源后,将基于预先保存的第一配置规则,通过预设第二抽取方式对目标数据源中的数据进行抽取。终端设备在判断到目标数据源为实时数据源后,将基于预先保存的第二配置规则,通过预设第三抽取方式对目标数据源中的数据进行抽取。终端设备在判断到目标数据源为文本文件数据源后,将基于预先保存的第三配置规则,通过预设第四抽取方式对目标数据源中的数据进行抽取。终端设备在根据数据抽取任务获取到数据源的抽取结果后,将该数据源抽取结果存入该预设数据仓库表,最终存入该预设数据仓库表所属的数据仓库,并向用户发送数据抽取任务的完成消息。
此外,本发明实施例还提出一种多类型数据源抽取系统,参照图6,图6为本发明多类型数据源抽取系统一实施例的功能模块示意图。如图6所示,本发明多类型数据源抽取系统,包括:
获取模块10,用于在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
执行模块20,用于基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
进一步地,进一步地,本发明数据抽取系统,还包括:
接收模块,用于接收针对多类型初始数据源的数据配置请求;
配置模块,用于根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则,同时将所述配置规则进行存储。
进一步地,配置模块,包括:
第一判断单元,用于基于所述数据配置请求判断所述初始数据源的类型;
第一配置单元,用于若判断到所述初始数据源为关系型数据源或者非关系型数据源,则配置所述初始数据源的基础信息、抽取频率和抽取时间节点,并得到第一配置规则。
进一步地,配置模块,还包括:
第二配置单元,用于若判断到所述初始数据源为实时数据源,则配置所述初始数据源的所述基础信息,并得到第二配置规则,其中所述基础信息中包含了所述初始数据源的主题;
第三配置单元,用于若判断到所述初始数据源为文本文件数据源,则基于所述数据配置请求获取所述初始数据源的本地文本文件,并得到第三配置规则。
进一步地,执行模块20,包括:
第二判断单元,用于判断所述目标数据源的数据源类型;
第一执行单元,用于若判断到所述目标数据源为关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第一抽取方式执行所述数据抽取任务;
第二执行单元,用于若判断到所述目标数据源为非关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第二抽取方式执行所述数据抽取任务。
进一步地,执行模块20,还包括:
第三执行单元,用于若判断到所述目标数据源为实时数据源,则基于所述第二配置规则,针对所述目标数据源通过预设第三抽取方式执行所述数据抽取任务;
第四执行单元,用于若判断到所述目标数据源为文本文件数据源,则基于所述第三配置规则,针对所述目标数据源通过预设第四抽取方式执行所述数据抽取任务。
进一步地,本发明本发明数据抽取系统,还包括:
存储模块,用于将所述数据抽取结果存入预设数据仓库,并输出所述数据抽取任务的完成消息。
本发明多类型数据源抽取系统的各个功能模块的具体实施方式与上述多类型数据源抽取方法各实施例基本相同,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多类型数据源抽取程序,所述多类型数据源抽取程序被处理器执行时实现如上所述的多类型数据源抽取方法的步骤。
本发明数据抽取系统和计算机可读存储介质的各实施例,均可参照本发明多类型数据源抽取方法各个实施例,此处不再赘述。
此外,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如以上多类型数据源抽取方法的任一项实施例所述的多类型数据源抽取方法的步骤。
本发明计算机程序产品的具体实施例与上述多类型数据源抽取方法的各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多类型数据源抽取方法,其特征在于,所述多类型数据源抽取方法包括:
在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
2.如权利要求1所述的多类型数据源抽取方法,其特征在于,在所述在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型的步骤之前,还包括:
接收针对多类型初始数据源的数据配置请求;
根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则,同时将所述配置规则进行存储。
3.如权利要求2所述的多类型数据源抽取方法,其特征在于,所述根据所述数据配置请求对所述初始数据源进行配置,并得到所述配置规则的步骤,包括:
基于所述数据配置请求判断所述初始数据源的类型;
若判断到所述初始数据源为关系型数据源或者非关系型数据源,则配置所述初始数据源的基础信息、抽取频率和抽取时间节点,并得到第一配置规则。
4.如权利要求3所述的多类型数据源抽取方法,其特征在于,所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务的步骤,包括:
判断所述目标数据源的数据源类型;
若判断到所述目标数据源为关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第一抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为非关系型数据源,则基于所述第一配置规则,针对所述目标数据源通过预设第二抽取方式执行所述数据抽取任务。
5.如权利要求3所述的多类型数据源抽取方法,其特征在于,在所述基于所述数据配置请求判断所述初始数据源的类型的步骤之后,还包括:
若判断到所述初始数据源为实时数据源,则配置所述初始数据源的所述基础信息,并得到第二配置规则,其中所述基础信息中包含了所述初始数据源的主题;
若判断到所述初始数据源为文本文件数据源,则基于所述数据配置请求获取所述初始数据源的本地文本文件,并得到第三配置规则。
6.如权利要求5所述的多类型数据源抽取方法,其特征在于,所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务的步骤,包括:
判断所述目标数据源的数据源类型;
若判断到所述目标数据源为实时数据源,则基于所述第二配置规则,针对所述目标数据源通过预设第三抽取方式执行所述数据抽取任务;
若判断到所述目标数据源为文本文件数据源,则基于所述第三配置规则,针对所述目标数据源通过预设第四抽取方式执行所述数据抽取任务。
7.如权利要求1所述的多类型数据源抽取方法,其特征在于,在所述基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果的步骤之后,还包括:
将所述数据抽取结果存入预设数据仓库,并输出所述数据抽取任务的完成消息。
8.一种多类型数据源抽取系统,其特征在于,所述多类型数据源抽取系统包括:
获取模块,用于在接收到数据抽取指令时,获取所述数据抽取指令对应的目标数据源的数据源类型;
执行模块,用于基于所述数据源类型,通过预设的配置规则和预设的抽取方式针对所述目标数据源执行数据抽取任务,得到数据抽取结果。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的多类型数据源抽取程序,所述多类型数据源抽取程序被所述处理器执行时实现如权利要求1至7中任一项所述的多类型数据源抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多类型数据源抽取程序,所述多类型数据源抽取程序被处理器执行时实现如权利要求1至7中任一项所述的多类型数据源抽取方法的步骤。
CN202111252003.0A 2021-10-27 2021-10-27 多类型数据源抽取方法、系统、终端设备以及存储介质 Pending CN113688183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111252003.0A CN113688183A (zh) 2021-10-27 2021-10-27 多类型数据源抽取方法、系统、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111252003.0A CN113688183A (zh) 2021-10-27 2021-10-27 多类型数据源抽取方法、系统、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113688183A true CN113688183A (zh) 2021-11-23

Family

ID=78588213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111252003.0A Pending CN113688183A (zh) 2021-10-27 2021-10-27 多类型数据源抽取方法、系统、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113688183A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947468A (zh) * 2021-12-20 2022-01-18 鲁信科技股份有限公司 一种数据管理方法及平台
CN114461603A (zh) * 2021-12-30 2022-05-10 奇安信科技集团股份有限公司 多源异构数据融合方法及装置
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508912A (zh) * 2011-11-09 2012-06-20 深圳市同洲电子股份有限公司 数据提取、转化和加载的方法及系统
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN112527879A (zh) * 2020-12-15 2021-03-19 中国人寿保险股份有限公司 基于Kafka的实时数据抽取方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508912A (zh) * 2011-11-09 2012-06-20 深圳市同洲电子股份有限公司 数据提取、转化和加载的方法及系统
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN112527879A (zh) * 2020-12-15 2021-03-19 中国人寿保险股份有限公司 基于Kafka的实时数据抽取方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓波 等: "《科学数据共享关键技术》", 30 November 2007, 地质出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947468A (zh) * 2021-12-20 2022-01-18 鲁信科技股份有限公司 一种数据管理方法及平台
CN113947468B (zh) * 2021-12-20 2022-04-08 鲁信科技股份有限公司 一种数据管理方法及平台
CN114461603A (zh) * 2021-12-30 2022-05-10 奇安信科技集团股份有限公司 多源异构数据融合方法及装置
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质
CN115934825B (zh) * 2023-02-02 2023-08-25 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN113688183A (zh) 多类型数据源抽取方法、系统、终端设备以及存储介质
CN110309334B (zh) 图数据库的查询方法、系统、计算机设备和可读存储介质
CN109729183B (zh) 请求处理方法、装置、设备及存储介质
CN111092877B (zh) 一种数据处理方法、装置、电子设备及存储介质
EP3975474B1 (en) Methods and apparatuses for chaining service data
TWI579765B (zh) Offline transmission and display methods, devices and systems for offline data
CN109672888B (zh) 图片压缩方法、设备及计算机可读存储介质
CN106470110B (zh) 向用户列表中的多个用户群发消息的方法及装置
CN110753129A (zh) 消息传输方法、系统、装置、设备及计算机可读存储介质
CN111338693B (zh) 基于模型构建的目标文件生成方法、服务器及存储介质
WO2016070622A1 (zh) Oid配置、解析方法、客户端、节点及数据库和存储介质
CN111008254B (zh) 一种对象创建方法、装置、计算机设备和存储介质
CN113709187A (zh) 多服务器的数据请求方法、装置、设备及存储介质
CN108804711B (zh) 一种数据处理的方法、装置和计算机可读存储介质
CN113407560B (zh) 更新消息处理方法、数据同步方法、配置信息配置方法
US20120303601A1 (en) Mobile search method and system thereof
CN108768727B (zh) 访问第三方服务的方法、电子装置及可读存储介质
CN109391658B (zh) 一种账号数据同步方法及其设备、存储介质、终端
CN111061637B (zh) 接口测试方法、接口测试装置及存储介质
CN109951376B (zh) 一种即时通讯软件信息采集方法、装置、系统及存储介质
CN116776030A (zh) 灰度发布方法、装置、计算机设备、存储介质
CN109462649B (zh) 一种远程文件分析方法、装置、系统及其存储介质
CN110704498A (zh) 数据提取方法、装置、设备及计算机可读存储介质
CN106649678B (zh) 一种数据处理方法及系统
JP2011053874A (ja) アプリケーションサーバ、オブジェクト管理方法およびオブジェクト管理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211123