CN110674109B - 数据导入方法、系统、计算机设备及计算机可读存储介质 - Google Patents
数据导入方法、系统、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110674109B CN110674109B CN201910842244.7A CN201910842244A CN110674109B CN 110674109 B CN110674109 B CN 110674109B CN 201910842244 A CN201910842244 A CN 201910842244A CN 110674109 B CN110674109 B CN 110674109B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- file
- configuring
- import
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 title claims description 21
- 230000008676 import Effects 0.000 claims abstract description 95
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005012 migration Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据导入方法,所述方法包括:获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被标准化的多个目标数据文件;选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件;根据用户输入指令配置目标导入工具参数;基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。本发明实施例根据用户输入指令配置目标导入工具参数,基于配置后的目标导入工具导入数据,解决现有导入数据操作繁琐、效率低的问题,也避免了通过中间表进行数据导入的问题。
Description
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种数据导入方法、系统、计算机设备以及计算机可读存储介质。
背景技术
随着信息化的发展,大数据平台开始具备海量数据,这些海量数据可以用于大数据分析领域,为企业或政府机构提供科学研究基础。这些海量数据存储于数据库中,可知数据库在人们的生活中起着越来越重要的作用。因此,数据库管理技术得到越来越广泛的应用,而在在业务开发流程中,或者生产突发状态中,经常需要进行数据迁移。
传统数据迁移的通常做法是通过SQL语句的导入导出,创建临时表扮演中间表等。虽然上述传统数据迁移也能迁移数据,但是由于SQL语句顺序执行,其并发量十分有限,不能承担10万数据量以上的数据迁移工作。
发明内容
有鉴于此,本发明实施例的目的是提供一种数据导入方法、系统、计算机设备以及计算机可读存储介质,可以解决解决现有导入数据操作繁琐、效率低的问题,以及避免通过中间表进行数据导入的问题。
为实现上述目的,本发明实施例提供了一种数据导入方法,包括以下步骤:
获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被多个标准化的目标数据文件;
选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件;
根据用户输入指令配置目标导入工具参数,所述目标导入工具参数为读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组;
基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
根据用户输入的命令行形式的代码指令,生成用于配置目标导入工具参数的bat批处理文件或shell脚本文件;
其中,所述bat批处理文件或shell脚本文件包括主体脚本,所述主体脚本文件包括目标数据库连接串、用户认证信息、控制文件、日志文件和丢弃行文件;所述控制文件包括:是否并行信息、是否去标题信息、文件读取路径信息、文件读取类型信息、数据库操作模式信息、是否使用直连模式信息、数据行标示信息、数据行内数据格标示信息、控制文件内的数据与目标数据库的数据格式匹配关系。
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置中间提交点,所述中间提交点用于限制提交数据到所述目标数据库的提交次数。
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置数据路径模式为直连路径模式,所述直连路径模式用于指示服务器将接收到的所述多个待导入数据文件中的数据写入所述目标数据表中。
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
将并行负载模式配置为有效状态,并配置所述并行负载模式下的并发量,以指示在数据导入过程中运行多个导入任务,并将所述多个导入任务导入到的数据加载到所述目标数据表中。
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
将所述目标数据库的归档状态配置为归档禁用状态;
在所述直连路径模式下,将不可恢复模式配置为开启状态;
将对应于目标数据表的索引状态配置为索引禁用状态;以及
将对应于目标数据表的限制状态配置为限制禁用状态
优选地,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置预定宽度的数据格式,用于指示将所述多个待导入数据文件中的数据以所述预定宽度导入到所述目标数据库中。
为实现上述目的,本发明实施例还提供了数据导入系统,包括:
获取模块,用于获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被多个标准化的目标数据文件;
选择模块,用于选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件;
配置模块,用于根据用户输入指令配置目标导入工具参数,所述目标导入工具参数为读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组;
导入模块,用于基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的数据导入方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的数据导入方法的步。
本发明实施例所述的数据导入方法、系统、计算机设备以及计算机可读存储介质,根据用户输入指令配置目标导入工具参数:如配置读取缓冲区大小参数以及绑定数组,基于配置后的目标导入工具导入数据,解决现有导入数据操作繁琐、效率低的问题,也避免了通过中间表进行数据导入的问题。
附图说明
图1为本发明数据导入方法实施例一的流程图。
图2为本发明数据导入系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下实施例将以计算机设备2为执行主体进行示例性描述。
计算机设备2示例性的连接前端设备。所述前端设备也可以是个人计算机、平板计算机等。所述前端设备上可以运行Microsoft Windows、Linux、Mac OS、Android、IOS等操作系统,并在上述操作系统中装载有应用程序(如,IE浏览器、Chrome浏览器等)等,工作人员可以通过上述应用程序与所述计算机设备2进行数据交互,以向所述计算机设备2提供配置指令等。
所述计算机设备2可以内置于数据库系统中,为数据库系统的硬件之一;也可以独立于数据库系统的后台设备。所述数据库系统可以为独立型系统、文件共享型系统、客户端/服务器型系统等。
实施例一
参阅图1,示出了本发明实施例一之数据导入方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到标准化的多个目标数据文件。
具体的,接收用于指示将数据导入目标数据库的数据导入指令,根据所述数据导入指令获取所述多个数据文件,对所述数据文件进行数据转化、清洗、及合并,以得到被标准化的多个目标数据文件。
具体的,对多个数据文件的待处理数据进行过滤,去除掉不关注或者不需要的数据(如,去除空值),并将处理后的数据进一步转换为所需要的存储格式,将转换后的数据按照一定的规则进行合并(对重复数据进行合并),作为后续分析处理、数据挖掘的基础。
示例性的,可以预先配置用户图像界面,所述用户管理界面包括多个子接口,每个子接口分别用于输入对应的配置指令。这些子接口可以为下拉菜单式接口、文本输入式接口等。所述下拉菜单式接口预先设有各类选项,工作人员可以对各类选项执行添加或删除操作。
示例性的,本实施例可以采用B/S架构,工作人员可以通过前端设备的浏览器上显示的所述用户管理界面输入所述配置指令,所述前端设备配置有实体键盘/鼠标或者虚拟键盘/鼠标等硬件接口。工作人员可以通过所述硬件接口将所述用户配置指令输入到所述用户图形接口中。
步骤S102,选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件。
需说明的是,所述目标导入工具可以是SQLLDR工具。
目标文件格式可以是逗号分隔值(Comma-Separated Values,CSV)格式。每个目标数据文件有多条记录构成,每条记录有通过逗号分隔的多个字段的多个字段数据构成。
即,本实施例在于将CSV格式的待导入数据文件导入到目标数据库:选择CSV格式,将每个目标数据文件的多条记录,以此格式分隔开,形成这个格式的待导入数据文件,然后将此格式的待导入数据文件导入到目标数据库中。
步骤S104,根据用户输入指令配置目标导入工具参数,所述目标导入工具参数为配置读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组。
所述读取缓冲区大小参数,用于指示读取所述多个待导入数据文件时的读取缓冲区的大小。示例性的,默认参数为1048576字节。例如,可以通过以下语句预先设定:SQLLDRkeyword=value[,keyword=value,...]。
所述绑定数组,用于在导入使用SQL数组接口选项将所述多个待导入数据文件传输到所述目标数据库的过程中,存储从所述多个待导入数据文件中一次性读取的多行记录。增加所述绑定数组的大小,可减少对所述目标数据库的调用次数,提升数据读取性能都会有很大提高。示例性的,默认绑定数组为256000字节。例如,可以通过以下语句预先设定:SQLLDR keyword=value[,keyword=value,...]。
在示例性的实施例中,根据用户输入指令配置目标导入工具参数的步骤,还包括:根据用户输入的命令行形式的代码指令,生成用于配置目标导入工具参数的bat批处理文件或shell脚本文件;
其中,所述bat批处理文件或shell脚本文件包括主体脚本,所述主体脚本文件包括目标数据库连接串、用户认证信息、控制文件、日志文件、丢弃行文件等;所述控制文件包括:是否并行信息、是否去标题信息、文件读取路径信息、文件读取类型信息、数据库操作模式信息、是否使用直连模式信息、数据行标示信息、数据行内数据格标示信息、控制文件内的数据与目标数据库的数据格式匹配关系。
在示例性的实施例中,步骤S104还包括:配置中间提交点,所述中间提交点用于限制提交数据到所述目标数据库的提交次数。
在示例性的实施例中,步骤S104还包括:配置数据路径模式为直连路径模式,所述直连路径模式用于指示服务器将接收到的所述多个待导入数据文件中的数据写入所述目标数据表中。
具体的,通过所述直连路径模式导入可以跳过所述目标数据库的相关逻辑,直接将数据导入到目标数据库中,以提高数据导入效率。
在示例性的实施例中,步骤S104还包括:将并行负载模式配置为有效状态,并配置所述并行负载模式下的并发量,以指示在数据导入过程中运行多个导入任务,并将所述多个导入任务导入到的数据加载到所述目标数据表中。
当并行负载模式被配置为有效状态时,将所述多个数据文件中的待加载数据分成多份,为每份待加载数据建立一个导入任务,从而将各个导入任务对应的待加载数据同时加载到所述目标数据表中。
所述并行负载模式下的并发量是可设置的,其用于指示运行所述多个导入任务时最大加载数据量。进一步的,可以根据所述并发量设置对日志的生产抑制级别。不难理解,当加载数据较大时,抑制日志的产生,可以提高数据加载效率。不同的抑制级别对应不同的抑制程度。加载数据越大,则抑制程度应该越高。
在示例性的实施例中,步骤S104还包括:将所述目标数据库的归档状态配置为归档禁用状态;和/或,在所述直连路径模式下,将不可恢复(unrecoverable)模式配置为开启状态。
将所述归档状态配置为归档禁用状态,可以解除一个或多个归档进程,从而抑制日志的产生,节省了计算机设备写日志的时间以及存储日志所消耗的存储空间,也有效降低了计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
在所述直连路径模式下,将不可恢复模式配置为开启状态,以停止在日志中对新载入数据和载入动作进行详细描述,同样地节省了计算机设备写日志的时间以及存储日志所消耗的存储空间,有效降低了计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
上述抑制日志产生的方式可以单独执行也可以同时执行,具体可以根据所述并发量而定。
在示例性的实施例中,步骤S104还包括:将对应于目标数据表的索引状态配置为索引禁用状态;以及将对应于目标数据表的限制状态配置为限制禁用状态。
禁用索引和限制,可以降低计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
在示例性的实施例中,步骤S104还包括:配置预定宽度的数据格式,用于指示将所述多个待导入数据文件中的数据以所述预定宽度导入到所述目标数据库中,以节省所述目标数据库的磁盘开销。
步骤S106,基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。
即,基于配置后的数据导入工具将CSV格式的待导入数据文件导入到目标数据库中。
实施例二
请继续参阅图2,示出了本发明数据导入系统实施例二的程序模块示意图。在本实施例中,数据导入系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述数据操作方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述数据导入系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被标准化的多个目标数据文件。具体的,接收用于指示将数据导入目标数据库的数据导入指令,根据所述数据导入指令获取所述多个数据文件,对所述数据文件进行数据转化、清洗、及合并,以得到被标准化的多个目标数据文件。
选择模块202,选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件。目标文件格式可以是逗号分隔值(Comma-Separated Values,CSV)格式。每个目标数据文件有多条记录构成,每条记录有通过逗号分隔的多个字段的多个字段数据构成。即,本实施例在于将CSV格式的待导入数据文件导入到目标数据库中。
配置模块204,用于根据用户输入指令配置目标导入工具参数:配置读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组。所述读取缓冲区大小参数,用于指示读取所述多个待导入数据文件时的读取缓冲区的大小。所述绑定数组,用于在导入使用SQL数组接口选项将所述多个待导入数据文件传输到所述目标数据库的过程中,存储从所述多个待导入数据文件中一次性读取的多行记录。增加所述绑定数组的大小,可减少对所述目标数据库的调用次数,提升数据读取性能都会有很大提高。
导入模块206,用于基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。即,基于配置后的数据导入工具将CSV格式的待导入数据文件导入到目标数据库中。
在示例性的实施例中,配置模块204,还用于:根据用户输入的命令行形式的代码指令,生成用于配置目标导入工具参数的bat批处理文件或shell脚本文件;其中,所述bat批处理文件或shell脚本文件包括主体脚本,所述主体脚本文件包括目标数据库连接串、用户认证信息、控制文件、日志文件和丢弃行文件;所述控制文件包括:是否并行信息、是否去标题信息、文件读取路径信息、文件读取类型信息、数据库操作模式信息、是否使用直连模式信息、数据行标示信息、数据行内数据格标示信息、控制文件内的数据与目标数据库的数据格式匹配关系。
需说明的是,所述目标导入工具可以是SQLLDR工具。
在示例性的实施例中,配置模块204,还用于:配置中间提交点,所述中间提交点用于限制提交数据到所述目标数据库的提交次数。
在示例性的实施例中,配置模块204,还用于:配置数据路径模式为直连路径模式,所述直连路径模式用于指示服务器将接收到的所述多个待导入数据文件中的数据写入所述目标数据表中。具体的,通过所述直连路径模式导入可以跳过所述目标数据库的相关逻辑,直接将数据导入到目标数据库中,以提高数据导入效率。
在示例性的实施例中,配置模块204,还用于:将并行负载模式配置为有效状态,并配置所述并行负载模式下的并发量,以指示在数据导入过程中运行多个导入任务,并将所述多个导入任务导入到的数据加载到所述目标数据表中。
当并行负载模式被配置为有效状态时,将所述多个数据文件中的待加载数据分成多份,为每份待加载数据建立一个导入任务,从而将各个导入任务对应的待加载数据同时加载到所述目标数据表中。
所述并行负载模式下的并发量是可设置的,其用于指示运行所述多个导入任务时最大加载数据量。进一步的,可以根据所述并发量设置对日志的生产抑制级别。
在示例性的实施例中,配置模块204,还用于:将所述目标数据库的归档状态配置为归档禁用状态;在所述直连路径模式下,将不可恢复模式配置为开启状态;将对应于目标数据表的索引状态配置为索引禁用状态;以及将对应于目标数据表的限制状态配置为限制禁用状态。
将所述归档状态配置为归档禁用状态,可以解除一个或多个归档进程,从而抑制日志的产生,节省了计算机设备写日志的时间以及存储日志所消耗的存储空间,也有效降低了计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
在所述直连路径模式下,将不可恢复模式配置为开启状态,以停止在日志中对新载入数据和载入动作进行详细描述,同样地节省了计算机设备写日志的时间以及存储日志所消耗的存储空间,有效降低了计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
上述抑制日志产生的方式可以单独执行也可以同时执行,具体可以根据所述并发量而定。
禁用索引和限制,可以降低计算机设备的运行负担,从而提升所述目标数据库的操作性能,将更多的计算资源用于处理数据加载操作。
在示例性的实施例中,配置模块204,还用于:配配置预定宽度的数据格式,用于指示将所述多个待导入数据文件中的数据以所述预定宽度导入到所述目标数据库中,以节省所述目标数据库的磁盘开销。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及数据导入系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的数据导入系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行数据导入系统20,以实现实施例一的数据导入方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述数据导入系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了所述实现数据导入系统20实施例二的程序模块示意图,该实施例中,所述基于数据导入系统20可以被划分为获取模块200、选择模块202、配置模块204和导入模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述数据导入系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据导入系统20,被处理器执行时实现实施例一的数据导入方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种数据导入方法,其特征在于,所述方法包括:
获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被多个标准化的目标数据文件;
选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件;
根据用户输入指令配置目标导入工具参数,所述目标导入工具参数为读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组;
基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库;
其中,根据用户输入指令配置目标导入工具参数的步骤,还包括:
根据用户输入的命令行形式的代码指令,生成用于配置目标导入工具参数的bat批处理文件或shell脚本文件;
其中,所述bat批处理文件或shell脚本文件包括主体脚本文件,所述主体脚本文件包括目标数据库连接串、用户认证信息、控制文件、日志文件和丢弃行文件;所述控制文件包括:是否并行信息、是否去标题信息、文件读取路径信息、文件读取类型信息、数据库操作模式信息、是否使用直连模式信息、数据行标示信息、数据行内数据格标示信息、控制文件内的数据与目标数据库的数据格式匹配关系;
其中,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置中间提交点,所述中间提交点用于限制提交数据到所述目标数据库的提交次数;
其中,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置数据路径模式为直连路径模式,所述直连路径模式用于指示服务器将接收到的所述多个待导入数据文件中的数据写入目标数据表中;
其中,根据用户输入指令配置目标导入工具参数的步骤,还包括:
将所述目标数据库的归档状态配置为归档禁用状态;
在所述直连路径模式下,将不可恢复模式配置为开启状态;
将对应于目标数据表的索引状态配置为索引禁用状态;以及
将对应于目标数据表的限制状态配置为限制禁用状态;
其中,根据用户输入指令配置目标导入工具参数的步骤,还包括:
配置预定宽度的数据格式,用于指示将所述多个待导入数据文件中的数据以所述预定宽度导入到所述目标数据库中。
2.根据权利要求1所述的数据导入方法,其特征在于,根据用户输入指令配置目标导入工具参数的步骤,还包括:
将并行负载模式配置为有效状态,并配置所述并行负载模式下的并发量,以指示在数据导入过程中运行多个导入任务,并将所述多个导入任务导入到的数据加载到所述目标数据表中。
3.一种数据导入系统,其特征在于,所述系统包括:
获取模块,用于获取待处理的多个数据文件,并对所述多个数据文件分别进行数据转换、清洗和合并操作以得到被多个标准化的目标数据文件;
选择模块,用于选择目标文件格式及目标导入工具,并将所述多个标准化的目标数据文件转化为符合所述目标文件格式的多个待导入数据文件;
配置模块,用于根据用户输入指令配置目标导入工具参数,所述目标导入工具参数为读取缓冲区大小参数以及绑定数组,所述读取缓冲区大小参数大于读取缓冲区大小默认参数,所述绑定数组大于默认绑定数组;
所述配置模块还用于:根据用户输入的命令行形式的代码指令,生成用于配置目标导入工具参数的bat批处理文件或shell脚本文件;其中,所述bat批处理文件或shell脚本文件包括主体脚本文件,所述主体脚本文件包括目标数据库连接串、用户认证信息、控制文件、日志文件和丢弃行文件;所述控制文件包括:是否并行信息、是否去标题信息、文件读取路径信息、文件读取类型信息、数据库操作模式信息、是否使用直连模式信息、数据行标示信息、数据行内数据格标示信息、控制文件内的数据与目标数据库的数据格式匹配关系;
所述配置模块还用于:配置中间提交点,所述中间提交点用于限制提交数据到所述目标数据库的提交次数;
所述配置模块还用于:配置数据路径模式为直连路径模式,所述直连路径模式用于指示服务器将接收到的所述多个待导入数据文件中的数据写入目标数据表中;
所述配置模块还用于:将所述目标数据库的归档状态配置为归档禁用状态;在所述直连路径模式下,将不可恢复模式配置为开启状态;将对应于目标数据表的索引状态配置为索引禁用状态;以及将对应于目标数据表的限制状态配置为限制禁用状态;
所述配置模块还用于:配置预定宽度的数据格式,用于指示将所述多个待导入数据文件中的数据以所述预定宽度导入到所述目标数据库中;
导入模块,用于基于配置后的目标导入工具将所述多个待导入数据文件导入到目标数据库。
4.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的数据导入方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至2中任一项所述的数据导入方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842244.7A CN110674109B (zh) | 2019-09-06 | 2019-09-06 | 数据导入方法、系统、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842244.7A CN110674109B (zh) | 2019-09-06 | 2019-09-06 | 数据导入方法、系统、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674109A CN110674109A (zh) | 2020-01-10 |
CN110674109B true CN110674109B (zh) | 2024-02-06 |
Family
ID=69076141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910842244.7A Active CN110674109B (zh) | 2019-09-06 | 2019-09-06 | 数据导入方法、系统、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674109B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242751B (zh) * | 2020-03-11 | 2023-08-01 | 上海东普信息科技有限公司 | 快件订单更新方法、装置、设备及存储介质 |
CN112417012A (zh) * | 2020-04-29 | 2021-02-26 | 上海哔哩哔哩科技有限公司 | 数据处理方法及系统 |
CN111858467B (zh) * | 2020-07-22 | 2024-05-03 | 平安证券股份有限公司 | 基于人工智能的文件数据处理方法、装置、设备和介质 |
CN112711586A (zh) * | 2021-01-14 | 2021-04-27 | 北京致远宣大科技有限公司 | 一种基于云服务的智能数据分析管理方法及系统 |
CN112860777B (zh) * | 2021-03-22 | 2024-03-15 | 深圳市腾讯信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124458A (zh) * | 2008-07-17 | 2011-07-13 | 卢米耐克斯公司 | 用于配置分析系统的分类矩阵中的分类区域以及对测定的粒子进行分类的方法、存储介质和系统 |
WO2012074533A1 (en) * | 2010-12-03 | 2012-06-07 | James Victory | Apparatus and method for optimized power cell synthesizer |
CN105335412A (zh) * | 2014-07-31 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 用于数据转换、数据迁移的方法和装置 |
CN108132936A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 数据导入方法及装置 |
CN108170727A (zh) * | 2017-12-12 | 2018-06-15 | 交控科技股份有限公司 | 一种联锁数据的自动化处理方法及装置 |
CN109766387A (zh) * | 2018-12-20 | 2019-05-17 | 平安信托有限责任公司 | 数据处理文件生成方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9401933B1 (en) * | 2015-01-20 | 2016-07-26 | Cisco Technology, Inc. | Classification of security policies across multiple security products |
-
2019
- 2019-09-06 CN CN201910842244.7A patent/CN110674109B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124458A (zh) * | 2008-07-17 | 2011-07-13 | 卢米耐克斯公司 | 用于配置分析系统的分类矩阵中的分类区域以及对测定的粒子进行分类的方法、存储介质和系统 |
WO2012074533A1 (en) * | 2010-12-03 | 2012-06-07 | James Victory | Apparatus and method for optimized power cell synthesizer |
CN105335412A (zh) * | 2014-07-31 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 用于数据转换、数据迁移的方法和装置 |
CN108132936A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 数据导入方法及装置 |
CN108170727A (zh) * | 2017-12-12 | 2018-06-15 | 交控科技股份有限公司 | 一种联锁数据的自动化处理方法及装置 |
CN109766387A (zh) * | 2018-12-20 | 2019-05-17 | 平安信托有限责任公司 | 数据处理文件生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110674109A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674109B (zh) | 数据导入方法、系统、计算机设备及计算机可读存储介质 | |
CN110209652B (zh) | 数据表迁移方法、装置、计算机设备和存储介质 | |
CN107832406B (zh) | 海量日志数据的去重入库方法、装置、设备及存储介质 | |
CN107239392B (zh) | 一种测试方法、装置、终端及存储介质 | |
CN110688378B (zh) | 数据库存储过程的迁移方法及系统 | |
US11132362B2 (en) | Method and system of optimizing database system, electronic device and storage medium | |
CN110928802A (zh) | 基于自动生成用例的测试方法、装置、设备及存储介质 | |
CN111124872A (zh) | 基于差异代码分析的分支检测方法、装置及存储介质 | |
CN111177113A (zh) | 数据迁移方法、装置、计算机设备和存储介质 | |
CN109471893B (zh) | 网络数据的查询方法、设备及计算机可读存储介质 | |
CN111221698A (zh) | 任务数据采集方法与装置 | |
CN112416430A (zh) | 一种接口文档生成方法、装置、设备及存储介质 | |
CN110618990B (zh) | 清单报表设置方法、系统及清单报表获取方法 | |
CN110287182B (zh) | 一种大数据的数据对比方法、装置、设备及终端 | |
CN109344050B (zh) | 一种基于结构树的接口参数分析方法及装置 | |
CN112037003A (zh) | 文件对账处理方法及装置 | |
CN113704215B (zh) | 业务过程事件日志采样方法、系统、存储介质及计算设备 | |
CN115757639A (zh) | 数据源同步方法、装置、电子设备及存储介质 | |
CN104484174A (zh) | Rar格式的压缩文件的处理方法和装置 | |
CN114168581A (zh) | 数据清洗方法、装置、计算机设备及存储介质 | |
CN109683813B (zh) | 一种nvme ssd自动格式化方法、装置、终端及存储介质 | |
US8495033B2 (en) | Data processing | |
CN108073584B (zh) | 一种数据处理方法及服务器 | |
CN112559547A (zh) | 确定多存储对象副本之间一致性的方法及装置 | |
CN112860629B (zh) | 业绩归属方法与系统、计算机设备及其可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |