CN117827979B - 一种数据批量导入方法、装置、电子设备及存储介质 - Google Patents
一种数据批量导入方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117827979B CN117827979B CN202410245862.4A CN202410245862A CN117827979B CN 117827979 B CN117827979 B CN 117827979B CN 202410245862 A CN202410245862 A CN 202410245862A CN 117827979 B CN117827979 B CN 117827979B
- Authority
- CN
- China
- Prior art keywords
- data
- batch
- import
- importing
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008676 import Effects 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 abstract description 52
- 230000008569 process Effects 0.000 abstract description 21
- 239000002699 waste material Substances 0.000 abstract description 7
- 238000013523 data management Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据管理领域,提供一种数据批量导入方法、装置、电子设备及存储介质,方法包括:确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,并确定数据节点已存储待导入数据的各批次分批数据对应的进度管理元数据;向数据导入服务发送读取请求,读取请求携带当前批次的进度管理元数据,以基于进度管理元数据读取数据导入服务的格式化数据;接收从数据导入服务读取到的目标数据,将目标数据导入目标存储表附属的非分布式表中;对非分布式表执行数据重分布操作。本发明通过将数据进行分批次导入实现断点续传,无需将待导入数据重新进行全部导入,进而能够降低数据导入过程中存在的资源浪费,节省计算机资源。
Description
技术领域
本发明属于数据管理领域,更具体地,涉及一种数据批量导入方法、装置、电子设备及存储介质。
背景技术
目前的数据导入方式是通过部署多个数据管理节点(datanode),在批量数据导入时,通常部署多个数据导入服务(Data Service,DS),批量数据导入任务可以在多个datanode及DS之间并行执行。
然而,这种数据导入方式过程中,数据管理节点需要消耗CPU资源、网络资源和计算机系统资源,而整个导入过程作为一次完整任务,当出现某一小批量的数据导入异常时会导致整个数据导入任务回滚,造成资源浪费。
因此,如何降低数据导入过程中存在的资源浪费,达到节省计算机资源的目的,是当前亟需解决的技术问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种数据批量导入方法、装置、电子设备及存储介质,旨在解决数据导入过程中存在的资源浪费的问题。
为实现上述目的,本发明提供了一种数据批量导入方法,应用于分布式数据库的数据节点,所述方法包括:
确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,并确定所述数据节点已存储待导入数据的各批次分批数据对应的进度管理元数据;
向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成;
根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作。
在一些实施例中,所述进度管理元数据包括所述分批数据的导入文件名、导入起始位置、导入终止位置以及导入状态;
所述基于当前批次的进度管理元数据读取所述数据导入服务的格式化数据,包括:
基于所述当前批次的进度管理元数据确定所述当前批次的导入起始位置和导入终止位置;
基于所述导入起始位置和导入终止位置读取所述数据导入服务的格式化数据。
在一些实施例中,所述根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作,包括:
确定所述分布式数据库的服务器资源利用率,以及接收用户的输入命令;
基于所述服务器资源利用率或所述输入命令,对所述非分布式表进行重分布操作,将重分布后的数据转移至所述目标存储表中。
在一些实施例中,所述确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据之前,还包括:
在数据导入作业首次启动的情况下,接收所述数据导入服务发送的元数据列表,基于所述元数据列表将所述待导入数据划分为多个批次的分批数据;所述元数据列表包括文件名、文件大小以及文件行数;
在本地记录各批次的分批数据的进度管理元数据。
在一些实施例中,所述确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,包括:
确定所述当前批次的分批数据导入完成,记录所述当前批次的数据导入的事务日志,以及提交所述当前批次的数据导入事务,并记录当前批次的分批数据导入的进度元数据;
基于所述当前批次的分批数据导入的进度元数据更新所述数据导入作业的导入进度,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中。
本发明还提供一种数据批量导入方法,应用于数据导入服务,所述方法包括:
确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,接收数据服务节点的读取请求;
响应于所述读取请求确定目标数据,并将所述目标数据发送至所述数据服务节点,以供所述数据服务节点将所述目标数据存储至非分布式表中。
在一些实施例中,所述方法还包括:
采集管理文件目录下数据文件的元数据,得到元数据列表;
对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化,根据数据解析结果和格式化结果得到数据元组;
将所述数据元组进行数据转换,得到二进制数据。
第二方面,本发明还提供一种数据批量导入装置,应用于分布式数据库的数据节点,所述装置包括:
确定模块,用于确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据;
读取模块,用于向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
导入模块,用于接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
重复导入模块,用于确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成。
重分布模块,用于根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作。
本发明还提供一种数据批量导入装置,应用于数据导入服务,所述装置包括:
接收模块,用于确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,接收数据服务节点的读取请求;
发送模块,用于响应于所述读取请求确定目标数据,并将所述目标数据发送至所述数据服务节点,以供所述数据服务节点将所述目标数据存储至非分布式表中。
第三方面,本发明提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第四方面,本发明提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第五方面,本发明提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供的一种数据批量导入方法、装置、电子设备及存储介质,当数据导入作业为导入失败并重启的导入作业时,确定数据节点中已经存在待导入数据的各批次分批数据对应的进度管理元数据,可根据分批数据的进度管理元数据直接实现对数据导入服务的读取,获取格式化的目标数据存储在非分布式表中,通过将数据进行分批次导入实现断点续传,无需将待导入数据重新进行全部导入,进而能够降低数据导入过程中存在的资源浪费,达到节省计算机资源的目的。
附图说明
图1是本发明实施例提供的一种数据批量导入方法的流程示意图之一;
图2是本发明实施例提供的一种数据批量导入方法的流程示意图之二;
图3是本发明实施例提供的一种数据批量导入方法的流程示意图之三;
图4是本发明实施例提供的一种数据批量导入方法的流程示意图之四;
图5是本发明实施例提供的一种数据批量导入装置的结构示意图之一;
图6是本发明实施例提供的一种数据批量导入装置的结构示意图之二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
首先,对本发明实施例中涉及的技术术语进行介绍。
Data Service(DS):即数据导入服务。该服务管理一个或多个数据目录中的数据文件,包括收集数据文件元数据、解析数据等。
Datanode:即分布式数据库的数据节点;每一个数据节点独立管理一个数据分片。在一个分布式数据库系统中,通常存在多个数据节点。这些数据节点管理的数据的合集,构成数据库系统管理的数据集合。
Coordinator:即分布式数据库的协调节点。协调节点的职责为:接受用户输入(通常为SQL命令),解析、优化并控制用户命令执行。注意Coordinator与datanode角色可以由两个不同实例独立承担,也可以由一个实例承担(即一个实例兼具coordinator与datanode角色)。
数据重分布:如上所述,每个datanode管理自己的数据分片。每条数据归属哪个datanode,由数据库内部规定的数据分布方式来确定。如果当前数据处在不恰当的datanode上(比如由计算过程新生成的数据、外部DS传入的数据),则需要按数据库内部的数据分布方式重新分布这些数据。这个过程称为数据重分布。常用的数据分布方式:将数据表的某些列定义为分布列,根据这些分布列计算数据行的Hash值,然后根据Hash值确定当前数据行所属datanode,即当前数据行的分布列的值,将确定当前数据行归属哪个datanode。
No-distribute表:目标存储表的特殊附属数据表,对用户不可见。它附属于一张普通数据表,表结构(列名、列类型等)及属性(比如访问权限等)与之相同。这种特殊数据表不遵循数据库内部的数据分布方式,因而在数据导入时无需执行重分布。
数据tuple:关系型数据库将用户数据以表的形式存储、管理。其中每一数据行,在数据库内部表示为数据tuple。数据tuple存储格式需要满足存储引擎要求。一般来说,与外部数据文件中的存储格式不同,因此在数据导入过程中需要将外部数据文件中的数据行格式化为数据库满足内部要求的数据tuple。
接下来,对本发明实施例中提供的技术方案进行介绍。
参照图1,本发明提供的一种数据批量导入方法,应用于分布式数据库的数据服务节点,所述方法包括:
S101、确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,并确定所述数据服务节点已存储待导入数据的各批次分批数据对应的进度管理元数据;
S102、向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
S103、接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
S104、确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成。
S105、根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作。
以下对本实施例进行详细描述。
在步骤S101中,首先需要确定本实施例中的数据导入作业为上一次导入作业失败并重启的导入作业,也就是说,当前的数据导入作业为任务回滚时的数据导入过程。需要确定分布式数据库的数据节点中已经存储有待导入数据的各批次分批数据对应的进度管理元数据。
进度管理元数据是用于跟踪和记录本实施例中的分批数据导入任务和进程状态的关键信息。进度管理元数据包括导入文件名、导入起始位置、导入终止位置、导入状态。
在步骤S102和S103中,数据节点向数据导入服务发送读取请求,数据导入服务接收到读取请求后,根据进度管理元数据确定数据读取的起始位置和终止位置,读取当前批次数据的格式化数据,并将其发送给数据节点。
需要说明的是,本实施例中的分布式数据库无需格式化数据,能够减少数据库CPU消耗。另外,数据在数据导入服务端进行格式化,可以保留出错数据原始形式。
进一步地,数据节点需要对接收到的格式化数据导入目标存储表附属的非分布式表中,即对本地附属的no-distribute表执行插入insert操作。在一些可选的示例中,插入操作过程可以包括:确认数据格式、执行insert语句、检查插入结果以及监控数据变化等,从而确保数据能够正确地导入到目标存储表的各个分区中。
通过步骤S104,数据节点接受完毕当前数据小批次后,立即执行当前小批次数据导入事务提交,并更新导入进度管理元数据,将当前小批次进度标记为已导入,之后数据节点进入下一轮小批次数据导入处理。
具体流程如下:确认当前批次导入完成,当当前批次的所有分批数据都已经成功导入到非分布式表中,并且数据符合要求时,可以确认当前批次的导入已经完成。如果存在下一批次的数据需要导入,可以根据预先设定的批次顺序,确定下一批次的分批数据的进度管理元数据。根据下一批次的分批数据的进度管理元数据,读取该批次数据的格式化数据,并将其导入到非分布式表中。与当前批次的数据导入流程相同,需要对数据进行解析和转换、插入到目标存储表中、监控数据变化等操作。重复上述步骤,直至所有批次的数据导入完成。
最后通过步骤S105,执行重分布操作,执行时机可以根据数据库服务器资源利用率启动执行,或按需即根据用户命令启动执行。例如,当服务器资源利用率不超过预设阈值或输入命令包含重分布指令时,认定需要执行重分布操作。
本发明实施例提供的一种数据批量导入方法,当数据导入作业为导入失败并重启的导入作业时,确定数据节点中已经存在待导入数据的各批次分批数据对应的进度管理元数据,可根据分批数据的进度管理元数据直接实现对数据导入服务的读取,获取格式化的目标数据存储在非分布式表中,通过将数据进行分批次导入实现断点续传,无需将待导入数据重新进行全部导入,进而能够降低数据导入过程中存在的资源浪费,达到节省计算机资源的目的。
在一些实施例中,所述进度管理元数据包括所述分批数据的导入文件名、导入起始位置、导入终止位置以及导入状态;
所述基于当前批次的进度管理元数据读取所述数据导入服务的格式化数据,包括:
基于所述当前批次的进度管理元数据确定所述当前批次的导入起始位置和导入终止位置;
基于所述导入起始位置和导入终止位置读取所述数据导入服务的格式化数据。
具体地,本实施例中通过数据导入的进度管理元数据确定数据导入服务的读取位置。也就是说,在进行数据导入操作之前,需要明确指定导入的起始位置和终止位置,起始位置和终止位置可以是行号、记录ID、时间戳或其他标识符,具体根据数据导入服务的实际情况而定。
根据确定的导入起始位置和导入终止位置,从数据导入服务中读取相应的格式化数据。读取到的格式化数据可能以不同的标记、分隔符或结构存储,需要对其进行解析。
本发明实施例提供的一种数据批量导入方法,基于所述导入起始位置和导入终止位置读取数据导入服务的格式化数据,并将其导入到目标位置,可以有效地管理和操作大量的格式化数据,实现数据的快速导入与处理。
在一些实施例中,所述根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作,包括:
确定所述分布式数据库的服务器资源利用率,以及接收用户的输入命令;
基于所述服务器资源利用率或所述输入命令,对所述非分布式表进行重分布操作,将重分布后的数据转移至所述目标存储表中。
本实施例中,数据节点自适应或按需对附属非分布式表执行重分布操作。执行时机可以根据数据库服务器资源利用率,或根据用户命令启动执行。例如,当服务器资源利用率不超过预设阈值或输入命令包含重分布指令时,认定需要执行重分布操作。比如满足以下条件:CPU利用率20%以下,网络带宽利用率20%以下,网络延时低于0.5ms,由数据库自适应执行数据重分布。
具体流程为:开启事务;读取非分布式表表中前100数据页面(此数目可根据需求进行配置)数据,将这些数据发送到正确的数据节点上执行插入insert操作,并将此页面中数据删除;最后提交事务。
当非分布式表中数据全部清空、转移到目标存储表后,清除数据库中各个批次的进度管理元数据以节省数据的存储资源。
数据重分布之后,将重分布后的数据转移至目标存储表中,包括数据插入、更新或替换等操作,以确保目标存储表中的数据与重分布后的数据一致。
本发明实施例提供的一种数据批量导入方法,可以基于服务器资源利用率或输入命令对非分布式表进行重分布操作,并将重分布后的数据转移至目标存储表中,本实施例中在计算机系统的占用率较小时执行数据重分布,减少数据导入对网络带宽的冲击,保证业务平稳。
在一些实施例中,所述确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据之前,还包括:
在数据导入作业首次启动的情况下,接收所述数据导入服务发送的元数据列表,基于所述元数据列表将所述待导入数据划分为多个批次的分批数据;所述元数据列表包括文件名、文件大小以及文件行数;
在本地记录各批次的分批数据的进度管理元数据。
本实施例中,是在数据导入作业首次启动时,接收数据导入服务发送的元数据列表,基于元数据列表将待导入数据划分为多个批次的分批数据。
在数据导入作业首次启动时,需要先接收数据导入服务发送的元数据列表,根据接收到的元数据列表,解析其中的信息,以确定待导入数据的文件名、文件大小和文件行数,将待导入数据划分为多个批次的分批数据,以便进行分批导入操作。
本发明实施例提供的一种数据批量导入方法,通过在数据导入作业首次启动的情况下,接收元数据列表,基于元数据列表将待导入数据划分为多个批次的分批数据,并进行逐批次导入,可以有效地管理和操作大量的待导入数据,实现数据的快速导入与处理。
在一些实施例中,所述确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,包括:
确定所述当前批次的分批数据导入完成,并记录所述当前批次的数据导入的事务日志,以及提交所述当前批次的数据导入事务,并记录当前批次的分批数据导入的进度元数据;
基于所述当前批次的分批数据导入的进度元数据更新所述数据导入作业的导入进度,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中。
本实施例中,在分批导入数据的过程中,需要实时监控每个批次的导入进度,并判断当前批次的分批数据是否已经导入完成。确定当前批次的分批数据导入完成,需要记录当前批次的数据导入的进度元数据。导入进度元数据可以包括数据导入的状态、完成时间、错误信息等信息,以便于后续的数据管理和操作。
然后根据所记录的当前批次的导入进度元数据,更新数据导入作业的状态和进度,可以设计如下更新信息:更新作业状态:将当前批次的数据导入状态更新为已完成;更新导入进度:根据已完成的批次数量,更新数据导入作业的进度和剩余导入任务数。
参照图2,本发明还提供一种数据批量导入方法,应用于数据导入服务,所述方法包括以下步骤:
S201、确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,接收数据服务节点的读取请求;
S202、响应于所述读取请求确定目标数据,并将所述目标数据发送至所述数据服务节点,以供所述数据服务节点将所述目标数据存储至非分布式表中。
在上述步骤S201中,首先确定本实施例的当前导入作业是上次导入失败且进行重启的导入作业。
相应地,在导入作业第一次启动时,需要首先收集所管理文件目录下的所有数据文件的元数据,包括文件名、文件大小、文件行数等,并形成一个元数据列表,此列表用于与数据节点协调小批次数据导入进度管理。
需要说明的是,通常一个数据导入服务进程管理一个或多个文件夹。为提高导入效率起见,通常启动多个数据导入服务进程服务数据导入作业。
然后将元数据列表发送至数据节点,以使数据节点根据元数据列表将待导入数据划分为多个批次的分批数据。
进一步地通过上述步骤S202,根据读取请求进行数据读取,读取过程中可依据各批次分批数据对应的进度管理元数据确定读取起始位置和终止位置。将读取到的目标数据即已经格式化的数据发送至数据节点,以供数据节点进行导入。
本发明实施例提供的一种数据批量导入方法,当数据导入作业为导入失败并重启的导入作业时,确定数据节点中已经存在待导入数据的各批次分批数据对应的进度管理元数据,可根据分批数据的进度管理元数据直接实现对数据导入服务的读取,获取格式化的目标数据存储在非分布式表中,通过将数据进行分批次导入实现断点续传,无需将待导入数据重新进行全部导入,进而能够降低数据导入过程中存在的资源浪费,达到节省计算机资源的目的。并且,本实施例的数据化格式过程无需在分布式数据库执行,而是通过数据导入服务进行数据格式化,因此能够减少数据库CPU消耗。
在一些实施例中,所述方法还包括:
采集管理文件目录下数据文件的元数据,得到元数据列表;
对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化,根据数据解析结果和格式化结果得到数据元组;
将所述数据元组进行数据转换,得到二进制数据。
具体地,本实施例为数据格式化的过程。
根据分布式数据库的存储引擎需求,将解析出的数据按行进行格式化。将每个字段的数据按照预定的格式排列,并使用适当的分隔符或者固定的列宽来分隔字段值,可以确保数据在存储引擎中的正确存储和读取。将格式化后的各行数据组合成数据元组tuple。
根据数据节点的需求,将数据元组进行数据转换,最终得到二进制数据。数据转换可能包括数据类型的转换、编码格式的转换等操作,以满足分布式数据库存储引擎的要求。转换后的数据将以二进制形式表示,可以更高效地进行存储和处理。本实施例的数据化格式过程无需在分布式数据库执行,而是通过数据导入服务进行数据格式化,因此能够减少数据库CPU消耗。
参照图3,图3是本发明实施例的一种数据批量导入方法的完整流程示意图,包括:
S301、数据节点连接数据导入服务;
S302、数据库与数据导入服务协调数据划分方式,并初始化数据小批次导入进度管理元数据;
S303、开始一轮小批次数据导入,数据节点从数据导入服务读取数据。在数据导入服务发送数据前,按数据节点存储引擎要求格式化数据,然后发送完成格式化后的二进制数据tuple;
S304、数据节点将格式化的二进制数据tuple执行写入附属非分布式表表;并记录事务日志;
S305、数据节点完成当前小批次数据接受和写入非分布式表表后,更新当前小批次导入进度,并提交当前小批次数据导入事务;
S306、确定所有数据已完成导入非分布式表表,完成各批次数据导入;
S307、数据节点自适应或按需对非分布式表表中数据执行重分布;
S308、确定整个数据导入完成。
参照图4,图4是本发明实施例的一种数据批量导入方法的数据节点和数据导入服务的交互流程图,包括:
S401、数据导入服务收集所管理文件目录下的所有数据文件的元数据,形成元数据列表;
S402、数据导入服务将元数据列表发送给数据节点;
S403、数据节点根据元数据列表将待导入数据划分为多批次的分批数据,在本地记录各批次的分批数据的进度管理元数据;
S404、数据节点向数据导入服务发送读取请求,进行数据读取;
S405、数据导入服务将格式化的数据以二进制方式发送给数据节点;
S406、数据节点将读取到的数据插入非分布式表中;
S407、返回S404,直至所有批次的数据导入完成;
S408、数据节点自适应或按需对非分布式表进行重分布;
S409、数据节点确定非分布式表的数据转移到目标存储表中,清除数据库中的进度管理元数据。
参照图5,本发明还提供一种数据批量导入装置,应用于分布式数据库的数据节点,所述装置包括:
确定模块510,用于确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据;
读取模块520,用于向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
导入模块530,用于接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
重复导入模块540,用于确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成;
重分布模块550,用于根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作。
在一些实施例中,所述进度管理元数据包括所述分批数据的导入文件名、导入起始位置、导入终止位置以及导入状态;
所述基于当前批次的进度管理元数据读取所述数据导入服务的格式化数据,包括:
基于所述当前批次的进度管理元数据确定所述当前批次的导入起始位置和导入终止位置;
基于所述导入起始位置和导入终止位置读取所述数据导入服务的格式化数据。
在一些实施例中,所述根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作,包括:
确定所述分布式数据库的服务器资源利用率,以及接收用户的输入命令;
基于所述服务器资源利用率或所述输入命令,对所述非分布式表进行重分布操作,将重分布后的数据转移至所述目标存储表中。
在一些实施例中,还包括分批模块,所述分批模块用于:
在数据导入作业首次启动的情况下,接收所述数据导入服务发送的元数据列表,基于所述元数据列表将所述待导入数据划分为多个批次的分批数据;所述元数据列表包括文件名、文件大小以及文件行数;
在本地记录各批次的分批数据的进度管理元数据。
在一些实施例中,所述确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,包括:
确定所述当前批次的分批数据导入完成,记录所述当前批次的数据导入的事务日志,以及提交所述当前批次的数据导入事务,并记录当前批次的分批数据导入的进度元数据;
基于所述当前批次的分批数据导入的进度元数据更新所述数据导入作业的导入进度,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中。
参照图6,本发明还提供一种数据批量导入装置,应用于数据导入服务,所述装置包括:
接收模块610,用于确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,接收数据服务节点的读取请求;
发送模块620,用于响应于所述读取请求确定目标数据,并将所述目标数据发送至所述数据服务节点,以供所述数据服务节点将所述目标数据存储至非分布式表中。
在一些实施例中,所述装置还包括格式化模块,所述格式化模块用于:
采集管理文件目录下数据文件的元数据,得到元数据列表;
对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化,根据数据解析结果和格式化结果得到数据元组;
将所述数据元组进行数据转换,得到二进制数据。
可以理解的是,上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
基于上述实施例中的方法,本发明实施例提供了一种电子设备。该设备可以包括:至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中,当存储器存储的程序被执行时,处理器用于执行上述实施例中所描述的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本发明实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本发明实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本发明实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明的实施例的范围。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种数据批量导入方法,其特征在于,应用于分布式数据库的数据节点,所述方法包括:
确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,并确定所述数据节点已存储待导入数据的各批次分批数据对应的进度管理元数据;
向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成;
根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作;
其中,所述格式化数据是所述数据导入服务通过采集管理文件目录下数据文件的元数据,得到元数据列表,对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化得到的。
2.根据权利要求1所述的数据批量导入方法,其特征在于,所述进度管理元数据包括所述分批数据的导入文件名、导入起始位置、导入终止位置以及导入状态;
所述基于所述进度管理元数据读取所述数据导入服务的格式化数据,包括:
基于所述当前批次的进度管理元数据确定所述当前批次的导入起始位置和导入终止位置;
基于所述导入起始位置和导入终止位置读取所述数据导入服务的格式化数据。
3.根据权利要求1所述的数据批量导入方法,其特征在于,所述根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作,包括:
确定所述分布式数据库的服务器资源利用率,以及接收用户的输入命令;
基于所述服务器资源利用率或所述输入命令,对所述非分布式表进行重分布操作,将重分布后的数据转移至所述目标存储表中。
4.根据权利要求1所述的数据批量导入方法,其特征在于,确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据之前,还包括:
在数据导入作业首次启动的情况下,接收所述数据导入服务发送的元数据列表,基于所述元数据列表将所述待导入数据划分为多个批次的分批数据;所述元数据列表包括文件名、文件大小以及文件行数;
在本地记录各批次的分批数据的进度管理元数据。
5.根据权利要求1所述的数据批量导入方法,其特征在于,所述确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,包括:
确定所述当前批次的分批数据导入完成,记录所述当前批次的数据导入的事务日志,以及提交所述当前批次的数据导入事务,并记录当前批次的分批数据导入的进度元数据;
基于所述当前批次的分批数据导入的进度元数据更新所述数据导入作业的导入进度,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中。
6.一种数据批量导入方法,其特征在于,应用于数据导入服务,所述方法包括:
确定当前的数据导入作业的上次导入结果为导入失败且已完成作业重启操作,接收数据服务节点的读取请求;
响应于所述读取请求确定目标数据,并将所述目标数据发送至所述数据服务节点,以供所述数据服务节点将所述目标数据存储至非分布式表中;
所述方法还包括:
采集管理文件目录下数据文件的元数据,得到元数据列表;
对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化,根据数据解析结果和格式化结果得到数据元组;
将所述数据元组进行数据转换,得到二进制数据。
7.一种数据批量导入装置,应用于分布式数据库的数据节点,其特征在于,所述装置包括:
确定模块,用于确定当前的数据导入作业为上次作业导入失败并重启,确定已存储待导入数据的各批次分批数据对应的进度管理元数据;
读取模块,用于向数据导入服务发送读取请求,所述读取请求携带当前批次的进度管理元数据,以基于所述进度管理元数据读取所述数据导入服务的格式化数据;
导入模块,用于接收从所述数据导入服务读取到的目标数据,将所述目标数据导入目标存储表附属的非分布式表中;
重复导入模块,用于确定所述当前批次的分批数据导入完成,获取所述当前批次的下一批次的分批数据对应的格式化数据并导入所述非分布式表中,直至所有批次的分批数据导入完成;
重分布模块,用于根据计算机资源利用率自适应或按需对所述非分布式表执行数据重分布操作;
其中,所述格式化数据是所述数据导入服务通过采集管理文件目录下数据文件的元数据,得到元数据列表,对所述元数据列表进行数据解析,并根据分布式数据库的存储引擎需求,将所述元数据列表对应的数据按存储引擎需求格式化得到的。
8.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-6任一所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410245862.4A CN117827979B (zh) | 2024-03-05 | 2024-03-05 | 一种数据批量导入方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410245862.4A CN117827979B (zh) | 2024-03-05 | 2024-03-05 | 一种数据批量导入方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117827979A CN117827979A (zh) | 2024-04-05 |
CN117827979B true CN117827979B (zh) | 2024-05-17 |
Family
ID=90523089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410245862.4A Active CN117827979B (zh) | 2024-03-05 | 2024-03-05 | 一种数据批量导入方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117827979B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699660A (zh) * | 2013-12-26 | 2014-04-02 | 清华大学 | 一种大规模网络流式数据缓存写入的方法 |
CN104516967A (zh) * | 2014-12-25 | 2015-04-15 | 国家电网公司 | 一种电力系统海量数据管理系统及其使用方法 |
WO2015166052A1 (en) * | 2014-04-30 | 2015-11-05 | Usw Commercial Services Ltd | Data acquistion |
CN105069149A (zh) * | 2015-08-24 | 2015-11-18 | 电子科技大学 | 一种面向结构化列式数据的分布式并行数据导入方法 |
CN108932256A (zh) * | 2017-05-25 | 2018-12-04 | 中兴通讯股份有限公司 | 分布式数据重分布控制方法、装置及数据管理服务器 |
CN112905668A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 |
US11366802B1 (en) * | 2019-09-27 | 2022-06-21 | Amazon Technologies, Inc. | Batch undo processing for transaction rollbacks in a multi-writer database |
CN115374175A (zh) * | 2021-05-18 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 基于微服务架构的任务执行进度的跟踪方法及装置 |
CN115408383A (zh) * | 2022-08-03 | 2022-11-29 | 中银金融科技有限公司 | 高并发数据入库方法、装置、电子设备及存储介质 |
CN115934311A (zh) * | 2022-09-22 | 2023-04-07 | 超聚变数字技术有限公司 | 一种数据重分布方法及电子设备 |
CN116089394A (zh) * | 2022-12-23 | 2023-05-09 | 北京人大金仓信息技术股份有限公司 | 数据库的数据回滚方法、存储介质与设备 |
CN116204575A (zh) * | 2023-03-09 | 2023-06-02 | 中国建设银行股份有限公司 | 将数据导入数据库的方法、装置、设备及计算机存储介质 |
CN116860789A (zh) * | 2023-07-24 | 2023-10-10 | 瀚高基础软件股份有限公司 | 一种数据分布优化方法及分布式数据库系统 |
WO2024030113A1 (en) * | 2022-08-01 | 2024-02-08 | Rakuten Symphony Singapore Pte. Ltd. | System and method for bulk update of resource data for view parameters |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073887B2 (en) * | 2008-10-09 | 2011-12-06 | International Business Machines Corporation | Representational state transfer (REST) service import editor |
US9262494B2 (en) * | 2013-12-30 | 2016-02-16 | Microsoft Technology Licensing, Llc | Importing data into dynamic distributed databases |
US11120015B2 (en) * | 2015-10-05 | 2021-09-14 | Salesforce.Com, Inc. | Importing data using a mobile computing device |
US10545815B2 (en) * | 2016-08-03 | 2020-01-28 | Futurewei Technologies, Inc. | System and method for data redistribution in a database |
GB201615748D0 (en) * | 2016-09-15 | 2016-11-02 | Gb Gas Holdings Ltd | System for importing data into a data repository |
US10908947B2 (en) * | 2016-12-09 | 2021-02-02 | Salesforce.Com, Inc. | Big object bulk data ingest |
-
2024
- 2024-03-05 CN CN202410245862.4A patent/CN117827979B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699660A (zh) * | 2013-12-26 | 2014-04-02 | 清华大学 | 一种大规模网络流式数据缓存写入的方法 |
WO2015166052A1 (en) * | 2014-04-30 | 2015-11-05 | Usw Commercial Services Ltd | Data acquistion |
CN104516967A (zh) * | 2014-12-25 | 2015-04-15 | 国家电网公司 | 一种电力系统海量数据管理系统及其使用方法 |
CN105069149A (zh) * | 2015-08-24 | 2015-11-18 | 电子科技大学 | 一种面向结构化列式数据的分布式并行数据导入方法 |
CN108932256A (zh) * | 2017-05-25 | 2018-12-04 | 中兴通讯股份有限公司 | 分布式数据重分布控制方法、装置及数据管理服务器 |
US11366802B1 (en) * | 2019-09-27 | 2022-06-21 | Amazon Technologies, Inc. | Batch undo processing for transaction rollbacks in a multi-writer database |
CN112905668A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 |
CN115374175A (zh) * | 2021-05-18 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 基于微服务架构的任务执行进度的跟踪方法及装置 |
WO2024030113A1 (en) * | 2022-08-01 | 2024-02-08 | Rakuten Symphony Singapore Pte. Ltd. | System and method for bulk update of resource data for view parameters |
CN115408383A (zh) * | 2022-08-03 | 2022-11-29 | 中银金融科技有限公司 | 高并发数据入库方法、装置、电子设备及存储介质 |
CN115934311A (zh) * | 2022-09-22 | 2023-04-07 | 超聚变数字技术有限公司 | 一种数据重分布方法及电子设备 |
CN116089394A (zh) * | 2022-12-23 | 2023-05-09 | 北京人大金仓信息技术股份有限公司 | 数据库的数据回滚方法、存储介质与设备 |
CN116204575A (zh) * | 2023-03-09 | 2023-06-02 | 中国建设银行股份有限公司 | 将数据导入数据库的方法、装置、设备及计算机存储介质 |
CN116860789A (zh) * | 2023-07-24 | 2023-10-10 | 瀚高基础软件股份有限公司 | 一种数据分布优化方法及分布式数据库系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117827979A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691722B2 (en) | Consistent query execution for big data analytics in a hybrid database | |
US12093241B2 (en) | Method for replaying log on data node, data node, and system | |
WO2021238902A1 (zh) | 数据导入方法、装置、服务平台及存储介质 | |
CN109086382B (zh) | 一种数据同步方法、装置、设备及存储介质 | |
CN113438275B (zh) | 数据迁移方法、装置、存储介质及数据迁移设备 | |
WO2021109777A1 (zh) | 一种数据文件的导入方法及装置 | |
WO2021031583A1 (zh) | 执行语句的方法、装置、服务器及存储介质 | |
CN113792094A (zh) | 一种数据同步系统、方法、设备及介质 | |
WO2022127866A1 (zh) | 数据处理方法、装置、电子设备、存储介质 | |
CN114185867A (zh) | 确认数据一致性的方法、装置和电子设备 | |
CN115080666A (zh) | 数据同步方法、系统、电子设备及存储介质 | |
CN115185955A (zh) | 一种数据湖数据处理方法和系统 | |
CN117827979B (zh) | 一种数据批量导入方法、装置、电子设备及存储介质 | |
CN112711606A (zh) | 数据库访问方法、装置、计算机设备和存储介质 | |
CN117014327A (zh) | 数据共享方法、装置、设备、介质及产品 | |
CN112163948A (zh) | 一种分润计算方法、系统、设备及存储介质 | |
CN116842244A (zh) | 搜索引擎数据同步方法、系统、设备和存储介质 | |
CN114880401B (zh) | 处理事务的方法和装置 | |
WO2023015809A1 (zh) | 一种分布式内存数据查询优化的方法和设备 | |
CN114461454A (zh) | 数据恢复方法、装置、存储介质及电子设备 | |
CN114254042A (zh) | 读写分离数据库集群系统的访问方法、装置及电子设备 | |
CN113568892A (zh) | 一种基于内存计算对数据源进行数据查询的方法和设备 | |
CN114153857A (zh) | 数据同步方法、数据同步装置和计算机可读存储介质 | |
CN113778975A (zh) | 基于分布式数据库的数据处理方法及装置 | |
CN113268483A (zh) | 请求处理方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |