CN112148740A - 数据传输方法、装载、存储介质及电子装置 - Google Patents

数据传输方法、装载、存储介质及电子装置 Download PDF

Info

Publication number
CN112148740A
CN112148740A CN202011062985.2A CN202011062985A CN112148740A CN 112148740 A CN112148740 A CN 112148740A CN 202011062985 A CN202011062985 A CN 202011062985A CN 112148740 A CN112148740 A CN 112148740A
Authority
CN
China
Prior art keywords
target directory
database system
data
file
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011062985.2A
Other languages
English (en)
Other versions
CN112148740B (zh
Inventor
刘利强
喻波
王志海
安鹏
李永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202011062985.2A priority Critical patent/CN112148740B/zh
Publication of CN112148740A publication Critical patent/CN112148740A/zh
Application granted granted Critical
Publication of CN112148740B publication Critical patent/CN112148740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据传输方法、装载、存储介质及电子装置。该方法包括:在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小;在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的多个数据节点中。通过本申请,解决了相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题。

Description

数据传输方法、装载、存储介质及电子装置
技术领域
本申请涉及数据传输技术领域,具体而言,涉及一种数据传输方法、装载、存储介质及电子装置。
背景技术
业务系统在运行的过程中会产生业务数据,随着计算机技术的发展,让大数据创造大价值,是现在企业发展的趋势,因而需要将业务数据应用到大数据分析中。
但是,在相关技术中,大多情况下业务数据和大数据系统是两个不同的环境,为了实现运用大数据创造更多的数据价值,需要将现有业务数据导入到大数据系统中,这样才能给后期的数据应用提供基础。目前数据导入主要分为实时数据导入和离线数据导入,实时数据导入和离线数据导入都存在多种具体的导入方法,在离线数据的导入的过程中,常常出现由于采用的数据导入方式不合适,使得数据传输效率低的问题。
针对相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种数据传输方法、装载、存储介质及电子装置,以解决相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题。
根据本申请的一个方面,提供了一种数据传输方法。该方法包括:在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统;在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中。
可选地,在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中之前,方法还包括:在目标目录对应的文件大于预设容量的情况下,判断目标目录对应的文件的个数是否大于预设数量;在目标目录对应的文件的个数小于等于预设数量的情况,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件的个数大于预设数量的情况,执行通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中的步骤。
可选地,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中包括:在主节点中确定文件存储的元数据,其中,文件存储的元数据至少包括:待导入的文件的源存储地址以及待导入的文件的目的存储地址;基于文件存储的元数据,采用网络传输的方式将录对应的文件导入至多个数据节点。
可选地,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中包括:启动GPFDIST服务,并创建数据库系统的外部表,其中,外部表中至少存储有待导入的文件的源存储地址;在GPFDIST服务接收到数据节点的连接的情况下,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节点。
可选地,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节点包括:通过GPFDIST服务将目标目录对应的文件拆分成多个数据块;将多个数据块随机分发至多个数据节点中,并通过数据库系统的内部表调整多个数据块的存储地址,其中,内部表中至少存储有待导入的文件的目的存储地址。
可选地,通过数据库系统的内部表调整多个数据块的存储地址包括:通过数据库系统的内部表对多个数据块进行重新排布。
根据本申请的另一方面,提供了一种数据传输装置。该装置包括:检测单元,用于在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统;第一导入单元,用于在所述目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;第二导入单元,用于在所述目标目录对应的文件大于所述预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中。
可选地,该装置还包括:判断单元,用于在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中之前,在目标目录对应的文件大于预设容量的情况下,判断目标目录对应的文件的个数是否大于预设数量;传输单元,用于在目标目录对应的文件的个数小于等于预设数量的情况,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;执行单元,用于在目标目录对应的文件的个数大于预设数量的情况,执行通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中的步骤。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据传输方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据传输方法。
通过本申请,采用以下步骤:在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统;在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中,其中,逻辑表中存储有文件配置信息,文件配置信息至少包括:待导入的文件在存储服务器中的存储地址、待导入的文件的导入目的地址,解决了相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题。进而达到了提高采用离线传输方式进行数据导入的导入效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的数据传输方法的流程图;
图2是根据本申请实施例提供的数据传输方法中COPY的录入方式的示意图;
图3是根据本申请实施例提供的数据传输方法中GPFDIST的录入方式的示意图;
图4是根据本申请实施例提供的另一种数据传输方法的流程图;
图5是根据本申请实施例提供的另一种数据传输方法中COPY的录入方式的流程图;
图6是根据本申请实施例提供的另一种数据传输方法中GPFDIST的录入方式的流程图;以及
图7是根据本申请实施例提供的数据传输装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
GREENPLUM:简称GP,是一款开源的分布式数据库存储解决方案,其主要关注在数据仓库和商业智能方面,可以在虚拟化x86服务器上运行无分享的大规模并行处理架构。
GPFDIST:GREENPLUM的并行文件服务器。
数据导入:导入导出,是数据库的一种专用命令,此处的数据库指的是软件方面的所有与之有关的数据库。数据导入指将数据库外的数据导入到数据库中,包括但不限于结构化数据、半结构化数据和非结构化数据。
根据本申请的实施例,提供了一种数据传输方法。
图1是根据本申请实施例的数据传输方法的流程图。如图1所示,该方法包括以下步骤:
步骤S102,在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统。
具体地,目标指令可以为业务系统的服务器发出的通知,通知内携带有目标目录的地址信息。
需要说明的是,不同大小的文件,采用不同的导入方式,传输便捷程度以及传输速度不同,本申请实施例先将存储服务器的文件传输至数据库系统中的主节点对应的服务器的目标目录下,在将目标目录对应的文件导入数据库系统的多个数据节点之前,先检测目标目录对应的文件的大小,再判断采用何种导入方式。
目标目录对应的文件是业务系统定时存储得到的,可选地,在本申请实施例提供的数据传输方法中,在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小之前,方法还包括:业务系统的存储服务器接受业务系统生产的文件,并将产生的文件存储至不同目录对应的文件夹中。
具体地,在业务系统运行的过程中产生业务数据,并按照业务数据的种类,将其按时间周期发送到存储服务器的对应目录下进行存储。
步骤S104,在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中。
步骤S106,在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中,其中,逻辑表中存储有文件配置信息,文件配置信息至少包括:待导入的文件在存储服务器中的存储地址、待导入的文件的导入目的地址。
需要说明的是,在将文件从业务系统的存储服务器导入数据库系统时,需要通过数据库系统的主节点的服务器导入多个数据节点。
具体地,在一种方法中,可以将主节点的服务器中存储的文件通过主节点(记录元数据)导入至数据库系统的多个数据节点(具体的数据存储位置),该方式可以称为copy的录入方式,需要说明的是,数据量在一定范围内的时候使用COPY的录入方式将文件导入数据库系统的时间成本和机器性能成本较小。
在另一种方法中,可以通过GPFDIST服务将文件转载到数据库系统的外部表,并将文件导入多个数据节点,无需将文件装载到主节点,该方式可以称为GPFDIST的录入方式,需要说明的是,在海量文件和超大数据量的时候,使用GPFDIST的录入方式将文件导入数据库系统更便捷。
因而,可以设定预设容量,例如1G,在目标目录对应的文件小于等于1G的情况下,使用COPY的录入方式将文件导入数据库系统的数据节点,在目标目录对应的文件大于1G的情况下,使用GPFDIST的录入方式将文件导入数据库系统的数据节点,从而提高文件导入性能。
在数据导入的过程中,除了考虑文件的大小,还需要考虑文件的数量,可选地,在本申请实施例提供的数据传输方法中,在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中之前,方法还包括:在目标目录对应的文件大于预设容量的情况下,判断目标目录对应的文件的个数是否大于预设数量;在目标目录对应的文件的个数小于等于预设数量的情况,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件的个数大于预设数量的情况,执行通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中的步骤。
需要说明的是,在文件大于预设容量的情况下,若文件数量较小,也可以通过COPY的录入方式将文件导入数据系统,以减小机器性能成本。
本申请实施例提供的数据传输方法,通过在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统;在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中,其中,逻辑表中存储有文件配置信息,文件配置信息至少包括:待导入的文件在存储服务器中的存储地址、待导入的文件的导入目的地址,解决了相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题。进而达到了提高采用离线传输方式进行数据导入的导入效率的效果。
可选地,在本申请实施例提供的数据传输方法中,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中包括:在主节点中确定文件存储的元数据,其中,文件存储的元数据至少包括:待导入的文件的源存储地址以及待导入的文件的目的存储地址;基于文件存储的元数据,采用网络传输的方式将录对应的文件导入至多个数据节点。
如图2所示,COPY的录入方式是通过copy命令将存储服务器本地文件通过客户端装载到主节点(MAST节点)对应的服务器,然后由MAST节点通过网络连接多个数据节点(SEGMENT节点),根据分布键将本地文件的数据分发到各个SEGMENT节点,达到文件上传的目的。
可选地,在本申请实施例提供的数据传输方法中,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中包括:启动GPFDIST服务,创建数据库系统的外部表,其中,外部表中至少存储有待导入的文件的源存储地址;在GPFDIST服务接收到数据节点的连接的情况下,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节点;将逻辑表对应的多个文件夹中的文件分发到多个子节点。
需要说明的是,先启动GPFDIST,gpfdist服务将数据装载到对应的外部表,装载的逻辑为,通过随机分布将数据装载到对应的数据节点,然后再将数据通过外部表插入到对应的内部表中,具体地,将外部表的数据进行重分布,然后归结到内部表中。
可选地,在本申请实施例提供的数据传输方法中,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节点包括:通过GPFDIST服务将目标目录对应的文件拆分成多个数据块;将多个数据块随机分发至多个数据节点中,并通过数据库系统的内部表调整多个数据块的存储地址,其中,内部表中至少存储有待导入的文件的目的存储地址。
需要说明的是,GPFDIST的录入方式采用定时任务扫描的方式,在扫描到目标目录下存在文件的情况下,通过GPFDIST将文件装载到多个数据节点。
可选地,在本申请实施例提供的数据传输方法中,在GPFDIST服务接收到数据节点的连接的情况下,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节点包括:通过GPFDIST服务将目标目录对应的文件拆分成多个数据块;将多个数据块随机分发至多个数据节点中,并通过数据库系统的内部表调整多个数据块的存储地址,其中,内部表中至少存储有待导入的文件的目的存储地址。
具体地,如图3所示,SEGMENT根据建表时定义的GPFDIST url个数,启动相同的并发到GPFDIST获取数据,其中每个SEGMENT节点都会连接到GPFDIST上获取数据。GPFDIST收到SEGMENT的连接并要接收数据时,开始按顺序读取外部表对应的文件夹中的文件,然后将文件拆分成多个块,随机抛给SEGMENT。
可选地,在本申请实施例提供的数据传输方法中,通过数据库系统的内部表调整多个数据块的存储地址包括:通过数据库系统的内部表对多个数据块进行重新排布。
需要说明的是,由于GPFDIST并不知道数据库中有多少个SEGMENT,数据是按照哪个分布键拆分的,因此数据是随机发送到每个SEGMENT上的,数据到达SEGMENT的时间基本上是随机的,所以外部表可以看成是一张随机分布的表,将数据插入到物理表的时候,需要进行一次重新分布。
此外,为了提高性能,数据读取于与重分布是同时进行的,当数据重分布完毕后,整个数据导入流程结束。
图4是根据本申请实施例的数据传输方法的流程图。如图4所示,该方法包括:
业务系统根据一定的时间周期(可以以天为周期,也可以以周为周期,还可以以月为周期),将数据文件打包上传到文件存储服务器。
在应用系统接收到存储服务器的文件搬运通知时,到文件存储服务器的相应目录搬运需要处理的数据,将文件按照不同库、不同表搬运到数据库系数的相应目录结构中。
具体地,将业务系统的存储服务器中的文件传输至数据库系统的主节点对应的服务器后,遍历该服务器的相应目录中需要处理的所有文件夹,判断文件大小是否大于1G,如果小于等于1G,使用COPY的录入方式,如果大于1G,判断需要处理的文件夹,文件总数量是否大于100,如果大于100使用GPFDIST的录入方式;否则使用COPY的录入方式。
具体地,COPY的录入方式如图5所示,获取到copy命令入库的数据(文件夹),遍历文件主节点服务器需要执行的目录对应的文件夹(该目录包含入库的数据位置库/模式/表),生成执行的psql脚本,根据规则定时执行该脚本,完成数据入库,并移除已经处理的数据。
具体地,GPFDIST的录入方式如图6所示,启动GPFDIST服务,并使用GPFDIST创建对应入库数据表对应的外部表,并维护外部表对应的文件夹,具体地,将需要使用GPFDIST的文件导入外部表对应的文件夹。再定时扫描外部表,查询外部表有数据,则将外部表的数据导入到对应的堆表中,并移除已经处理的数据。
通过本申请实施例,通数据搬运、逻辑计算、数据录入三个步骤将文件从业务系统的存储服务器导入数据库系数,其中,数据搬运:应用系统根据业务规则将数据以一个时间周期,打包上传到存储服务器,存储服务器通知应用,搬运该文件;逻辑计算层根据配置的机器配置、当前时间、文件大小、文件数等因素选择使用导入方法;数据录入层根据选择的录入方法,将数据导入到GP库。提高了导入不同数据量级的数据的机器性能和效率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种数据传输装置,需要说明的是,本申请实施例的数据传输装置可以用于执行本申请实施例所提供的用于数据传输方法。以下对本申请实施例提供的数据传输装置进行介绍。
图7是根据本申请实施例的数据传输装置的示意图。如图7所示,该装置包括:检测单元10、第一导入单元20和第二导入单元30。
具体地,检测单元10,用于在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统。
第一导入单元20,用于在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中。
第二导入单元30,用于在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中。
本申请实施例提供的数据传输装置,通过检测单元10在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测目标目录对应的文件的大小,其中,目标指令用于指示将业务系统的存储服务器内的文件导入至数据库系统;第一导入单元20在目标目录对应的文件小于等于预设容量的情况下,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;第二导入单元30在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中,解决了相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题,进而达到了提高采用离线传输方式进行数据导入的导入效率的效果。
可选地,在本申请实施例提供的数据传输装置中,装置还包括:判断单元,用于在目标目录对应的文件大于预设容量的情况下,通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中之前,在目标目录对应的文件大于预设容量的情况下,判断目标目录对应的文件的个数是否大于预设数量;传输单元,用于在目标目录对应的文件的个数小于等于预设数量的情况,将目标目录对应的文件通过主节点导入至数据库系统的多个数据节点中;执行单元,用于在目标目录对应的文件的个数大于预设数量的情况,执行通过GPFDIST服务将目标目录对应的文件导入数据库系统的所述多个数据节点中的步骤。
可选地,在本申请实施例提供的数据传输装置中,第一导入单元20包括:存储模块,用于在主节点中确定文件存储的元数据,其中,文件存储的元数据至少包括:待导入的文件的源存储地址以及待导入的文件的目的存储地址;导入模块,用于基于文件存储的元数据,采用网络传输的方式将录对应的文件导入至多个数据节点。
可选地,在本申请实施例提供的数据传输装置中,第二导入单元30包括:启动模块,用于启动GPFDIST服务,并创建数据库系统的外部表,其中,外部表中至少存储有待导入的文件的源存储地址;装载模块,用于在GPFDIST服务接收到数据节点的连接的情况下,通过数据库系统的外部表将目标目录对应的文件装载至多个数据节。
可选地,在本申请实施例提供的数据传输装置中,装载模块包括:拆分子模块,用于过GPFDIST服务将目标目录对应的文件拆分成多个数据块;调整子模块,用于将多个数据块随机分发至多个数据节点中,并通过数据库系统的内部表调整多个数据块的存储地址,其中,内部表中至少存储有待导入的文件的目的存储地址。
可选地,在本申请实施例提供的数据传输装置中,调整子模块还用于通过数据库系统的内部表对多个数据块进行重新排布。数据传输装置包括处理器和存储器,上述检测单元10、第一导入单元20和第二导入单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中采用离线传输方式将业务系统的业务数据传输至数据系统时,导入效率低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据传输方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据传输方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可传输到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据传输方法,其特征在于,包括:
在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测所述目标目录对应的文件的大小,其中,所述目标指令用于指示将所述业务系统的存储服务器内的文件导入至所述数据库系统;
在所述目标目录对应的文件小于等于预设容量的情况下,将所述目标目录对应的文件通过所述主节点导入至所述数据库系统的多个数据节点中;
在所述目标目录对应的文件大于所述预设容量的情况下,通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的所述多个数据节点中。
2.根据权利要求1所述的方法,其特征在于,在所述目标目录对应的文件大于所述预设容量的情况下,通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的多个数据节点中之前,所述方法还包括:
在所述目标目录对应的文件大于所述预设容量的情况下,判断所述目标目录对应的文件的个数是否大于预设数量;
在所述目标目录对应的文件的个数小于等于所述预设数量的情况,将所述目标目录对应的文件通过所述主节点导入至所述数据库系统的多个数据节点中;
在所述目标目录对应的文件的个数大于所述预设数量的情况,执行通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的多个数据节点中的步骤。
3.根据权利要求1所述的方法,其特征在于,将所述目标目录对应的文件通过所述主节点导入至所述数据库系统的多个数据节点中包括:
在所述主节点中确定文件存储的元数据,其中,所述文件存储的元数据至少包括:待导入的文件的源存储地址以及所述待导入的文件的目的存储地址;基于所述文件存储的元数据,采用网络传输的方式将所述目标目录对应的文件导入至所述多个数据节点。
4.根据权利要求1所述的方法,其特征在于,通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的多个数据节点中包括:
启动GPFDIST服务,并创建所述数据库系统的外部表,其中,所述外部表中至少存储有待导入的文件的源存储地址;
在所述GPFDIST服务接收到所述数据节点的连接的情况下,通过所述数据库系统的外部表将所述目标目录对应的文件装载至所述多个数据节点。
5.根据权利要求4所述的方法,其特征在于,通过所述数据库系统的外部表将所述目标目录对应的文件装载至所述多个数据节点包括:
通过所述GPFDIST服务将所述目标目录对应的文件拆分成多个数据块;
将所述多个数据块随机分发至所述多个数据节点中,并通过所述数据库系统的内部表调整所述多个数据块的存储地址,其中,所述内部表中至少存储有所述待导入的文件的目的存储地址。
6.根据权利要求5所述的方法,其特征在于,通过所述数据库系统的内部表调整所述多个数据块的存储地址包括:
通过所述数据库系统的内部表对所述多个数据块进行重新排布。
7.一种数据传输装置,其特征在于,包括:
检测单元,用于在接收到目标指令的情况下,将业务系统的存储服务器内的文件,传输至数据库系统的主节点的服务器的目标目录下,并检测所述目标目录对应的文件的大小,其中,所述目标指令用于指示将所述业务系统的存储服务器内的文件导入至所述数据库系统;
第一导入单元,用于在所述目标目录对应的文件小于等于预设容量的情况下,将所述目标目录对应的文件通过所述主节点导入至所述数据库系统的多个数据节点中;
第二导入单元,用于在所述目标目录对应的文件大于所述预设容量的情况下,通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的所述多个数据节点中。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断单元,用于在所述目标目录对应的文件大于所述预设容量的情况下,通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的多个数据节点中目录对应之前,在所述目标目录对应的文件大于所述预设容量的情况下,判断所述目标目录对应的文件的个数是否大于预设数量;
传输单元,用于在所述目标目录对应的文件的个数小于等于所述预设数量的情况,将所述目标目录对应的文件通过所述主节点导入至所述数据库系统的多个数据节点中;
执行单元,用于在所述目标目录对应的文件的个数大于所述预设数量的情况,执行通过GPFDIST服务将所述目标目录对应的文件导入所述数据库系统的多个数据节点中的步骤。
9.一种非易失性存储介质,其特征在于,所非易失性存储介质包括存储的程序,其中,所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至6中任意一项所述的数据传输方法。
10.一种电子装置,其特征在于,包含处理器和存储器,所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至6中任意一项所述的数据传输方法。
CN202011062985.2A 2020-09-30 2020-09-30 数据传输方法、装置、存储介质及电子装置 Active CN112148740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011062985.2A CN112148740B (zh) 2020-09-30 2020-09-30 数据传输方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011062985.2A CN112148740B (zh) 2020-09-30 2020-09-30 数据传输方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN112148740A true CN112148740A (zh) 2020-12-29
CN112148740B CN112148740B (zh) 2023-12-08

Family

ID=73951674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011062985.2A Active CN112148740B (zh) 2020-09-30 2020-09-30 数据传输方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN112148740B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512240A (zh) * 2015-11-30 2016-04-20 中国建设银行股份有限公司 一种基于不同数据库的数据复制方法和系统
CN107463610A (zh) * 2017-06-27 2017-12-12 北京小度信息科技有限公司 一种数据入库方法及装置
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN110795508A (zh) * 2019-11-04 2020-02-14 中国建设银行股份有限公司 数据的复制方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512240A (zh) * 2015-11-30 2016-04-20 中国建设银行股份有限公司 一种基于不同数据库的数据复制方法和系统
CN107463610A (zh) * 2017-06-27 2017-12-12 北京小度信息科技有限公司 一种数据入库方法及装置
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN110795508A (zh) * 2019-11-04 2020-02-14 中国建设银行股份有限公司 数据的复制方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112148740B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
EP3739845B1 (en) Borrowing data storage resources in a distributed file system
CN107622091B (zh) 一种数据库查询方法和装置
CN106407207B (zh) 一种实时新增数据更新方法和装置
CN111813805A (zh) 一种数据处理方法及装置
CN108599973B (zh) 一种日志关联方法、装置及设备
CN103440301A (zh) 一种数据多副本混合存储方法及系统
Liu et al. An improved hadoop data load balancing algorithm
CN111708787A (zh) 多中心业务数据管理系统
CN110019169B (zh) 一种数据处理的方法及装置
US20210397373A1 (en) Peer Storage Compute Sharing Using Memory Buffer
CN112148740A (zh) 数据传输方法、装载、存储介质及电子装置
Prasad et al. Improving the performance of processing for small files in Hadoop: A case study of weather data analytics
CN116594734A (zh) 容器迁移方法、装置、存储介质及电子设备
US11308048B2 (en) Database migration method, apparatus, device, and computer-readable medium
CN115495432A (zh) 支持多实例的方法、装置及设备
CN111159192B (zh) 基于大数据的数据入库方法、装置、存储介质和处理器
CN114827158A (zh) 一种配置信息的加载方法、系统及服务器
CN113630317A (zh) 一种数据传输方法、装置、非易失性存储介质及电子装置
CN113342274A (zh) 一种数据处理方法及装置
CN110968552B (zh) 应用信息的存储方法及装置
CN108427625B (zh) 发送、记录日志的方法、客户端、服务器端及系统
CN115310075A (zh) 风险检测方法、装置、存储介质以及电子设备
CN113553329A (zh) 数据集成系统和方法
CN112948327A (zh) 文件处理方法、系统、电子设备和存储介质
CN113918632A (zh) 数据集成的处理方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant