CN114896326A - 将大数据量的文本文件导入数据库的方法及装置 - Google Patents
将大数据量的文本文件导入数据库的方法及装置 Download PDFInfo
- Publication number
- CN114896326A CN114896326A CN202210622332.8A CN202210622332A CN114896326A CN 114896326 A CN114896326 A CN 114896326A CN 202210622332 A CN202210622332 A CN 202210622332A CN 114896326 A CN114896326 A CN 114896326A
- Authority
- CN
- China
- Prior art keywords
- data
- subfiles
- importing
- text file
- script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013515 script Methods 0.000 claims abstract description 120
- 230000008676 import Effects 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000000926 separation method Methods 0.000 claims description 12
- 230000005012 migration Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 18
- 238000012546 transfer Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种将大数据量的文本文件导入数据库的方法及装置,该方法包括:获取原始文本文件,且将原始文本文件拆分为多个子文件;生成第一设定数量个存储单元,且将各子文件存储在对应的存储单元中;生成第一设定数量个数据导入脚本;采用数据导入脚本将各存储单元中的子文件导入至对应的数据库中,导入脚本与存储单元一一对应,数据库的个数与数据导入脚本的个数相同。本方案采用存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
Description
技术领域
本申请涉及数据库技术领域,具体而言,涉及一种将大数据量的文本文件导入数据库的方法、装置、计算机可读存储介质及处理器。
背景技术
为了将文本文件导入数据库,常使用分库分表算法对文本文件进行拆分,将拆分后得到的子文件分发到对应的分布式节点,并且向各分布式节点发起应用请求进行文件导入。将文件分发至各个分布式节点的过程比较耗时,尤其当节点过多时会增加操作的复杂性,也从整体上增加了数据导入的时间;并且在各节点部署应用进行文件导入,增加了资源占用和编码配置工作量。
发明内容
本申请的主要目的在于提供一种将大数据量的文本文件导入数据库的方法、装置、计算机可读存储介质及处理器,以至少解决将大数据量的文本文件导入数据库的方法操作较复杂的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种将大数据量的文本文件导入数据库的方法,该方法包括:获取原始文本文件,且将所述原始文本文件拆分为多个子文件;生成第一设定数量个存储单元,且将各所述子文件存储在对应的所述存储单元中;生成所述第一设定数量个数据导入脚本;采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,所述导入脚本与所述存储单元一一对应,所述数据库的个数与所述数据导入脚本的个数相同。
进一步地,将所述原始文本文件拆分为多个子文件包括:将所述原始文本文件拆分为第二数量个母文件;采用第二数量的线程将各所述母文件异步拆分为多个子文件,所述子文件的个数为所述第一设定数量、所述第二数量和第三数量的乘积,所述第三数量为一个所述数据库中的数据表的数量。
进一步地,各所述数据库包括多个数据表,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中包括:生成各所述子文件的子文件名称,所述子文件名称由所述子文件所对应的所述母文件的编号和数据表的编号组成;采用所述数据导入脚本根据所述子文件名称,将各所述存储单元中的所述子文件导入至对应的数据表中。
进一步地,各所述数据库包括多个数据表,所述数据导入脚本包括逻辑脚本和参数脚本,所述逻辑脚本中存储有数据导入指令,所述数据导入指令至少包括数据复制指令和数据迁移指令,所述参数脚本中至少存储有各所述存储单元中的所述子文件的目录和数据库连接相关信息,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中包括:控制所述逻辑脚本读取所述参数脚本中存储的参数,以遍历所述存储单元中的各所述子文件,并将各所述子文件与所述数据表的对应关系填充至所述逻辑脚本中,形成更新后的逻辑脚本;采用所述更新后的逻辑脚本将各所述存储单元中的所述子文件导入至对应的数据表中。
进一步地,在将所述原始文本文件拆分为多个子文件之后,且在生成第一设定数量个存储单元之前,所述方法还包括:对各所述子文件进行校验;将不符合校验规则的所述子文件进行标记,所述校验规则包括数据格式。
进一步地,将所述原始文本文件拆分为多个子文件包括:获取所述原始文本文件的分隔方式和所述原始文本文件的数据量,所述分隔方式是由分隔符的种类决定的;根据所述原始文本文件的分隔方式和所述原始文本文件的数据量,确定拆分规则;采用所述拆分规则将所述原始文本文件拆分为多个所述子文件。
进一步地,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中包括:异步执行所有的所述数据导入脚本,以将各所述存储单元中的所述子文件导入至对应的数据库中。
根据本申请的另一方面,提供了一种将文本文件导入数据库的装置,该装置包括:获取单元、第一生成单元、第二生成单元和导入单元;所述获取单元用于获取原始文本文件,且将所述原始文本文件拆分为多个子文件;所述第一生成单元用于生成第一设定数量个存储单元,且将各所述子文件存储在对应的所述存储单元中;所述第二生成单元用于生成所述第一设定数量个数据导入脚本;所述导入单元用于采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,所述导入脚本与所述存储单元一一对应,所述数据库的个数与所述数据导入脚本的个数相同。
根据本申请的另一方面,还提供了计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一种所述的方法.
根据本申请的另一方面,还提供了处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一种所述的方法。
应用本申请的技术方案,采用数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,节省了时间,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例的将大数据量的文本文件导入数据库的方法的流程图;
图2示出了根据本申请的实施例的将子文件导入至数据库对应的文件夹下的过程图;
图3示出了根据本申请的实施例的存储单元中的数据导入至对应的数据表的过程图;
图4示出了根据本申请的实施例的将文本文件导入数据库的装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
正如背景技术上述,将文件分发至各个分布式节点的过程比较耗时,尤其当节点过多时会增加操作的复杂性,也从整体上增加了数据导入的时间;并且在各节点部署应用进行文件导入,增加了资源占用和编码配置工作量,为了至少解决将大数据量的文本文件导入数据库的方法操作较复杂的问题,提出了一种将大数据量的文本文件导入数据库的方法、装置、计算机可读存储介质及处理器。
根据本申请的实施例,提供了一种将大数据量的文本文件导入数据库的方法。
图1是根据本申请实施例的将大数据量的文本文件导入数据库的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取原始文本文件,且将上述原始文本文件拆分为多个子文件;
具体地,上述原始文本文件为千万级大数据量的文本文件;
上述步骤中,可以根据原始文本文件的大小将原始文本文件拆分多个大小相等的子文件;
步骤S102,生成第一设定数量个存储单元,且将各上述子文件存储在对应的上述存储单元中;
步骤S103,生成上述第一设定数量个数据导入脚本;
步骤S104,采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,上述导入脚本与上述存储单元一一对应,上述数据库的个数与上述数据导入脚本的个数相同。
上述方案,采用数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,节省了时间,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一种具体的实施例中,可以将本方案的将大数据量的文本文件导入数据库的方法应用于银行等大型金融机构进行业务系统更迭的过程中,以实现将原系统千万级以上的大数量客户数据迁移至新系统数据库。可以克服导入单库单表导致的耗时较长或者服务器CPU占用较高而内存溢出、同时单库存放着全量数据,灾备容错性面临挑战的缺陷。
在本申请的一种实施例中,将上述原始文本文件拆分为多个子文件,包括:将上述原始文本文件拆分为第二数量个母文件;采用第二数量的线程将各上述母文件异步拆分为多个子文件,上述子文件的个数为上述第一设定数量、上述第二数量和第三数量的乘积,上述第三数量为一个上述数据库中的数据表的数量。由于原始文本文件的数据量太大,所以需要先将原始文本文件先拆分为母文件,然后再将母文件拆分为多个子文件。例如,第一设定数量为K,第二数量为M,第三数量为N,则子文件的总个数为K×M×N。发起第二数量个线程,给每一个母文件创建一个数据拆分任务,多线程任务并发执行文件拆分。可以保证对母文件拆分的高效性。
具体地,将原始文本文件拆分为多个数据量相等的母文件(即多个目文件的大小是相等的),然后将每一个母文件按照(分库分表)算法进一步的拆分成若干子文件,并按照规则将这些子文件移动到不同的存储单元中。
一种具体的实施例中,第一设定数量等于第二数量,即采用K个线程,将原始文本文件拆分为M个母文件,然后对于每一个母文件再进行异步拆分。节省文件拆分的时间。
一种具体的实施例中,第一设定数量不等于第二数量,即采用K个线程,将原始文本文件拆分为M个母文件,然后对于每一个母文件再进行异步拆分。节省文件拆分的时间。
在本申请的一种实施例中,各上述数据库包括多个数据表,采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中包括:生成各上述子文件的子文件名称,上述子文件名称由上述子文件所对应的上述母文件的编号和数据表的编号组成;采用上述数据导入脚本根据上述子文件名称,将各上述存储单元中的上述子文件导入至对应的数据表中。即对于每一个子文件进行编号,使得文件名称由上述子文件所对应的上述母文件的编号和数据表的编号组成,进而可以精确地将每一个子文件导入至对应的数据表中。
在本申请的一种实施例中,各上述数据库包括多个数据表,上述数据导入脚本包括逻辑脚本和参数脚本,上述逻辑脚本中存储有数据导入指令,上述数据导入指令至少包括数据复制指令和数据迁移指令,所述参数脚本中至少存储有各所述存储单元中的所述子文件的目录和数据库连接相关信息,所述数据库连接相关信息包括数据库连接的ip信息、端口、用户、密码等,采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中包括:控制上述逻辑脚本读取上述参数脚本中存储的参数,以遍历上述存储单元中的各上述子文件,并将各上述子文件与上述数据表的对应关系填充至上述逻辑脚本中,形成更新后的逻辑脚本;采用上述更新后的逻辑脚本将各上述存储单元中的上述子文件导入至对应的数据表中。即在参数脚本存储了各上述存储单元中的上述子文件的目录、各上述数据库中的数据表的目录和上述子文件与上述数据表的对应关系,逻辑脚本中存储了具体的数据导入指令,进而结合逻辑脚本和参数脚本就可以实现将子文件导入至对应的数据表中。
在本申请的一种实施例中,在将上述原始文本文件拆分为多个子文件之后,且在生成第一设定数量个存储单元之前,上述方法还包括:对各上述子文件进行校验(包括对子文件中的每行数据格式校验);将不符合校验规则的上述子文件进行标记(具体地,将不符合校验规则的行数据进行标记并剔除,后续不再对该条数据进行导入),上述校验规则包括数据格式。即通过将不符合校验规则的上述子文件进行标记,可以实现对符合校验规则的上述子文件进行精准导入。
在本申请的一种实施例中,将上述原始文本文件拆分为多个子文件包括:获取上述原始文本文件的分隔方式和上述原始文本文件的数据量,上述分隔方式是由分隔符的种类决定的;根据上述原始文本文件的分隔方式和上述原始文本文件的数据量,确定拆分规则;采用上述拆分规则将上述原始文本文件拆分为多个上述子文件。即确定适应性较强的拆分规则,实现将各种类型的原始文本文件拆分为多个上述子文件。
一种具体的实施例中,采用数据文件拆分工程将上述原始文本文件拆分为多个子文件,数据文件拆分工程执行步骤如下:
步骤1:数据文件拆分工程将大数据量的原始文本文件以数据均分方式分成K个母文件;
步骤2:发起K个线程,给每一个母文件创建一个数据拆分任务,多线程任务并发执行文件拆分。线程拆分任务逻辑为:
(1)新建M×N个子文件,M为分库数,N为每个分库下的分表数,把分表名与待拆分文件编号结合作为子文件名;
(2)解析数据文件内容,筛除不符合规范的数据并留出记录,以方便后期进行数据核对;对符合的每条数据(对应数据库表中一条数据)取出分片键值计算该条数据所在分表,并写入对应的分表子文件;
(3)所有线程都拆分完数据文件后,会生成K×M×N个子文件,同时为每个分库建立一个文件夹即存储单元(一共M个),将子文件移动到对应分库文件夹下,每个分库对应的文件夹存放对应待导入的子文件,过程如图2所示。
子文件名称以分表名与拆分文件编号相结合命名,如文本文件名Table_N_K表示该数据来自第K个拆分文件,且文件将导入Table_N分表。
(4)数据文件导入脚本生成。数据导入脚本包括两部分,一部分为逻辑脚本,其主要逻辑:通过指定分表表名与数据文件名,将数据文件导入到对应的分表,其中涉及的数据库配置参数与数据文件名使用变量填充;脚本的第二部分为参数脚本,参数脚本包含了逻辑脚本所需要的数据库配置参数与数据文件目录等参数。
在本申请的一种实施例中,采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中包括:异步执行所有的上述数据导入脚本,以将各上述存储单元中的上述子文件导入至对应的数据库中。异步执行数据导入脚本,可以实现文件的快速导入。将存储单元即文件夹中的数据导入至对应的数据表的过程如图3所示。
本申请实施例还提供了一种将文本文件导入数据库的装置,需要说明的是,本申请实施例的将文本文件导入数据库的装置可以用于执行本申请实施例所提供的用于将大数据量的文本文件导入数据库的方法。以下对本申请实施例提供的将文本文件导入数据库的装置进行介绍。
图4是根据本申请实施例的将文本文件导入数据库的装置的示意图。如图4所示,该装置包括:获取单元10、第一生成单元20、第二生成单元30和导入单元40;
上述获取单元10用于获取原始文本文件,且将上述原始文本文件拆分为多个子文件;上述第一生成单元20用于生成第一设定数量个存储单元,且将各上述子文件存储在对应的上述存储单元中;上述第二生成单元30用于生成第一设定数量个数据导入脚本;上述导入单元40用于采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,上述导入脚本与上述存储单元一一对应,上述数据库的个数与上述数据导入脚本的个数相同。
上述装置中,导入单元采用数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,节省了时间,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
在本申请的一种实施例中,上述获取单元包括:第一拆分模块和第二拆分模块,上述第一拆分模块用于将上述原始文本文件拆分为第二数量个母文件;上述第二拆分模块用于采用第二数量的线程将各上述母文件异步拆分为多个子文件,上述子文件的个数为上述第一设定数量、上述第二数量和第三数量的乘积,上述第三数量为一个上述数据库中的数据表的数量。由于原始文本文件的数据量太大,所以需要先将原始文本文件先拆分为母文件,然后再将母文件拆分为多个子文件。例如,第一设定数量为K,第二数量为M,第三数量为N,则子文件的总个数为K×M×N。发起第二数量个线程,给每一个母文件创建一个数据拆分任务,多线程任务并发执行文件拆分。可以保证对母文件拆分的高效性。
在本申请的一种实施例中,各上述数据库包括多个数据表,上述导入单元包括:生成模块和第一控制模块,上述生成模块用于生成各上述子文件的子文件名称,上述子文件名称由上述子文件所对应的上述母文件的编号和数据表的编号组成;上述第一控制模块用于采用上述数据导入脚本根据上述子文件名称,将各上述存储单元中的上述子文件导入至对应的数据表中。即对于每一个子文件进行编号,使得文件名称由上述子文件所对应的上述母文件的编号和数据表的编号组成,进而可以精确地将每一个子文件导入至对应的数据表中。
在本申请的一种实施例中,各上述数据库包括多个数据表,上述数据导入脚本包括逻辑脚本和参数脚本,上述逻辑脚本中存储有数据导入指令,上述数据导入指令至少包括数据复制指令和数据迁移指令,上述参数脚本中至少存储有各上述存储单元中的上述子文件的目录和数据库连接相关信息,上述导入单元还包括:第二控制模块和第一处理模块,上述第二控制模块用于控制上述逻辑脚本读取上述参数脚本中存储的参数,以遍历上述存储单元中的各上述子文件,并将各上述子文件与上述数据表的对应关系填充至上述逻辑脚本中,形成更新后的逻辑脚本;上述第一处理模块用于采用上述更新后的逻辑脚本将各上述存储单元中的上述子文件导入至对应的数据表中。即在参数脚本存储了各上述存储单元中的上述子文件的目录、各上述数据库中的数据表的目录和上述子文件与上述数据表的对应关系,逻辑脚本中存储了具体的数据导入指令,进而结合逻辑脚本和参数脚本就可以实现将子文件导入至对应的数据表中。
在本申请的一种实施例中,上述装置还包括校验单元和处理单元,上述校验单元用于在将上述原始文本文件拆分为多个子文件之后,且在生成第一设定数量个存储单元之前,对各上述子文件进行校验;上述处理单元用于将不符合校验规则的上述子文件进行标记,上述校验规则包括数据格式。即通过将不符合校验规则的上述子文件进行标记,可以实现对符合校验规则的上述子文件进行精准导入。
在本申请的一种实施例中,上述获取单元包括获取模块、第二处理模块和第三拆分模块,上述获取模块用于获取上述原始文本文件的分隔方式和上述原始文本文件的数据量,上述分隔方式是由分隔符的种类决定的;上述第二处理模块用于根据上述原始文本文件的分隔方式和上述原始文本文件的数据量,确定拆分规则;上述第三拆分模块用于采用上述拆分规则将上述原始文本文件拆分为多个上述子文件。即确定适应性较强的拆分规则,实现将各种类型的原始文本文件拆分为多个上述子文件。
在本申请的一种实施例中,上述导入单元还包括:第三处理模块,上述第三处理模块用于异步执行所有的上述数据导入脚本,以将各上述存储单元中的上述子文件导入至对应的数据库中。异步执行数据导入脚本,可以实现文件的快速导入。
上述将文本文件导入数据库的装置包括处理器和存储器,上述获取单元、第一生成单元、第二生成单元和导入单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来至少解决将大数据量的文本文件导入数据库的方法操作较复杂的问题以至少解决将大数据量的文本文件导入数据库的方法操作较复杂的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述将大数据量的文本文件导入数据库的方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述将大数据量的文本文件导入数据库的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:获取原始文本文件,且将上述原始文本文件拆分为多个子文件;生成第一设定数量个存储单元,且将各上述子文件存储在对应的上述存储单元中;生成第一设定数量个数据导入脚本;采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,上述导入脚本与上述存储单元一一对应,上述数据库的个数与上述数据导入脚本的个数相同。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:获取原始文本文件,且将上述原始文本文件拆分为多个子文件;生成第一设定数量个存储单元,且将各上述子文件存储在对应的上述存储单元中;生成第一设定数量个数据导入脚本;采用上述数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,上述导入脚本与上述存储单元一一对应,上述数据库的个数与上述数据导入脚本的个数相同。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的将大数据量的文本文件导入数据库的方法,采用数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,节省了时间,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
2)、本申请的将文本文件导入数据库的装置,导入单元采用数据导入脚本将各上述存储单元中的上述子文件导入至对应的数据库中,存储单元作为文件存储的中转站,数据导入脚本作为文件导入工具,省去了将文件分发至各个分布式节点的过程,节省了时间,且操作简单,省去了通过部署应用程序来处理文件导入的步骤,减少了资源占用和编码配置工作量,实现了将大数据量的文本文件快速地导入对应的数据库中。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种将大数据量的文本文件导入数据库的方法,其特征在于,包括:
获取原始文本文件,且将所述原始文本文件拆分为多个子文件;
生成第一设定数量个存储单元,且将各所述子文件存储在对应的所述存储单元中;
生成所述第一设定数量个数据导入脚本;
采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,所述导入脚本与所述存储单元一一对应,所述数据库的个数与所述数据导入脚本的个数相同。
2.根据权利要求1所述的方法,其特征在于,将所述原始文本文件拆分为多个子文件,包括:
将所述原始文本文件拆分为第二数量个母文件;
采用第二数量的线程将各所述母文件异步拆分为多个子文件,所述子文件的个数为所述第一设定数量、所述第二数量和第三数量的乘积,所述第三数量为一个所述数据库中的数据表的数量。
3.根据权利要求2所述的方法,其特征在于,各所述数据库包括多个数据表,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,包括:
生成各所述子文件的子文件名称,所述子文件名称由所述子文件所对应的所述母文件的编号和数据表的编号组成;
采用所述数据导入脚本根据所述子文件名称,将各所述存储单元中的所述子文件导入至对应的数据表中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,各所述数据库包括多个数据表,所述数据导入脚本包括逻辑脚本和参数脚本,所述逻辑脚本中存储有数据导入指令,所述数据导入指令至少包括数据复制指令和数据迁移指令,所述参数脚本中至少存储有各所述存储单元中的所述子文件的目录和数据库连接相关信息,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,包括:
控制所述逻辑脚本读取所述参数脚本中存储的参数,以遍历所述存储单元中的各所述子文件,并将各所述子文件与所述数据表的对应关系填充至所述逻辑脚本中,形成更新后的逻辑脚本;
采用所述更新后的逻辑脚本将各所述存储单元中的所述子文件导入至对应的数据表中。
5.根据权利要求1至3中任一项所述的方法,其特征在于,在将所述原始文本文件拆分为多个子文件之后,且在生成第一设定数量个存储单元之前,所述方法还包括:
对各所述子文件进行校验;
将不符合校验规则的所述子文件进行标记,所述校验规则包括数据格式。
6.根据权利要求1至3中任一项所述的方法,其特征在于,将所述原始文本文件拆分为多个子文件,包括:
获取所述原始文本文件的分隔方式和所述原始文本文件的数据量,所述分隔方式是由分隔符的种类决定的;
根据所述原始文本文件的分隔方式和所述原始文本文件的数据量,确定拆分规则;
采用所述拆分规则将所述原始文本文件拆分为多个所述子文件。
7.根据权利要求1至3中任一项所述的方法,其特征在于,采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,包括:
异步执行所有的所述数据导入脚本,以将各所述存储单元中的所述子文件导入至对应的数据库中。
8.一种将文本文件导入数据库的装置,其特征在于,包括:
获取单元,用于获取原始文本文件,且将所述原始文本文件拆分为多个子文件;
第一生成单元,用于生成第一设定数量个存储单元,且将各所述子文件存储在对应的所述存储单元中;
第二生成单元,用于生成所述第一设定数量个数据导入脚本;
导入单元,用于采用所述数据导入脚本将各所述存储单元中的所述子文件导入至对应的数据库中,所述导入脚本与所述存储单元一一对应,所述数据库的个数与所述数据导入脚本的个数相同。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210622332.8A CN114896326A (zh) | 2022-06-02 | 2022-06-02 | 将大数据量的文本文件导入数据库的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210622332.8A CN114896326A (zh) | 2022-06-02 | 2022-06-02 | 将大数据量的文本文件导入数据库的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114896326A true CN114896326A (zh) | 2022-08-12 |
Family
ID=82726702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210622332.8A Pending CN114896326A (zh) | 2022-06-02 | 2022-06-02 | 将大数据量的文本文件导入数据库的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896326A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168673A (zh) * | 2022-09-08 | 2022-10-11 | 北京嘉和美康信息技术有限公司 | 一种数据的图形化处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9094299B1 (en) * | 2013-01-08 | 2015-07-28 | Juniper Networks, Inc. | Auto-generation of platform-independent interface and operational scripts for configuring network devices |
CN111597244A (zh) * | 2020-05-19 | 2020-08-28 | 北京思特奇信息技术股份有限公司 | 一种数据快速导入的方法、系统及计算机存储介质 |
CN112597219A (zh) * | 2020-12-15 | 2021-04-02 | 中国建设银行股份有限公司 | 用于将大数据量的文本文件导入分布式数据库的方法及装置 |
CN112597121A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 逻辑脚本的处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-06-02 CN CN202210622332.8A patent/CN114896326A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9094299B1 (en) * | 2013-01-08 | 2015-07-28 | Juniper Networks, Inc. | Auto-generation of platform-independent interface and operational scripts for configuring network devices |
CN111597244A (zh) * | 2020-05-19 | 2020-08-28 | 北京思特奇信息技术股份有限公司 | 一种数据快速导入的方法、系统及计算机存储介质 |
CN112597219A (zh) * | 2020-12-15 | 2021-04-02 | 中国建设银行股份有限公司 | 用于将大数据量的文本文件导入分布式数据库的方法及装置 |
CN112597121A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 逻辑脚本的处理方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168673A (zh) * | 2022-09-08 | 2022-10-11 | 北京嘉和美康信息技术有限公司 | 一种数据的图形化处理方法、装置、设备及存储介质 |
CN115168673B (zh) * | 2022-09-08 | 2022-12-09 | 北京嘉和美康信息技术有限公司 | 一种数据的图形化处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897206B (zh) | 一种业务测试方法及装置 | |
US9576019B2 (en) | Increasing distributed database capacity | |
US8645660B2 (en) | Automatic allocation of data replicas | |
CN106339386B (zh) | 数据库弹性调度方法以及装置 | |
CN104615606A (zh) | 一种Hadoop分布式文件系统及其管理方法 | |
CN110018878B (zh) | 一种分布式系统数据加载方法以及装置 | |
EP3432132B1 (en) | Data storage method and device | |
CN106897345B (zh) | 一种数据存储的方法及装置 | |
CN109325026B (zh) | 基于大数据平台的数据处理方法、装置、设备及介质 | |
CN114896326A (zh) | 将大数据量的文本文件导入数据库的方法及装置 | |
CN105335450B (zh) | 数据存储处理方法及装置 | |
CN116226271A (zh) | 数据同步方法、装置、电子设备和存储介质 | |
CN106874181B (zh) | 一种接口转换的验证方法和装置 | |
US10979488B2 (en) | Method for increasing file transmission speed | |
CN110019169B (zh) | 一种数据处理的方法及装置 | |
CN114553971A (zh) | 一种应用框架的设计方法、系统、设备及介质 | |
CN106339473A (zh) | 文件复制方法及装置 | |
CN116450107B (zh) | 低代码平台二次开发软件的方法、装置、电子设备 | |
CN116594734A (zh) | 容器迁移方法、装置、存储介质及电子设备 | |
CN107291439B (zh) | 一种目标增量数据构建方法及装置 | |
CN110059075B (zh) | 一种数据库迁移的方法、装置、设备及计算机可读介质 | |
CN110928860B (zh) | 数据迁移方法和装置 | |
US20210326249A1 (en) | Media import and export in storage management systems | |
CN113342806A (zh) | 大数据处理方法、装置、存储介质及处理器 | |
CN113626510A (zh) | 交易核对方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |