CN111694811B - 一种批量数据入库方法及装置 - Google Patents

一种批量数据入库方法及装置 Download PDF

Info

Publication number
CN111694811B
CN111694811B CN202010247836.7A CN202010247836A CN111694811B CN 111694811 B CN111694811 B CN 111694811B CN 202010247836 A CN202010247836 A CN 202010247836A CN 111694811 B CN111694811 B CN 111694811B
Authority
CN
China
Prior art keywords
batch
batch data
data
udf
import
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010247836.7A
Other languages
English (en)
Other versions
CN111694811A (zh
Inventor
李京京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202010247836.7A priority Critical patent/CN111694811B/zh
Publication of CN111694811A publication Critical patent/CN111694811A/zh
Application granted granted Critical
Publication of CN111694811B publication Critical patent/CN111694811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种批量数据入库方法及装置,用于解决大批量数据导入Hbase数据库时使用SparkSQL调用Hbase提供的原生批量导入接口不支持对Phoenix的二级索引同步更新的技术问题。本发明对批量导入Hbase表的文本数据进行预处理,将预处理后的文本文件存储HDFS指定位置,然后通过集成在SparkSQL中的Phoenix的批量数据导入工具类的实例对象,基于在SparkSQL运行环境中构造的批量数据导入工具类的参数,实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix的二级索引。

Description

一种批量数据入库方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种批量数据入库方法及装置。
背景技术
Hbase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统,亦可称为Hbase数据库。Hbase本身不提供二级索引支持,只有RowKey作为一级索引,如果对非RowKey字段进行检索和查询,则会触发Hbase的全表扫描,这对资源的压力会非常大。因此,衍生出了各种Hbase二级索引方案,其中Apache的Phoenix是开源方案中使用最为广泛的一种,能够提供Hbase的二级索引功能,从而避开全表扫描。
Hbase的使用过程中,不可避免的会面临将海量文本数据导入Hbase的场景。Hbase官方推荐使用大批量数据迁移Bulkload方式来实现海量文本数据批量导入。但对于使用Phoenix构建二级索引的Hbase应用,SparkSQL提供的对Hbase数据批量导入的Bulk LoadAPI不支持Phoenix二级索引的同步更新。
发明内容
有鉴于此,本发明提供一种批量数据入库的方法及装置,用于解决大批量数据导入Hbase数据库时Phoenix二级索引不能同步更新的技术问题。
基于本发明实施例,本发明提供一种批量数据入库方法,该方法包括:
将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径;
通过在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象;
通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。
进一步地,所述的批量数据导入工具类为Phoenix的CsvBulkloadTool,所述的Hadoop的辅助工具运行类为ToolRunner。
进一步地,通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理,所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。
进一步地,所述方法还包括:在进行批量数据导入之前,通过Phoenix为所述目的Hbase表建立二级索引。
进一步地,所述方法还包括:在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后,判断本次入库操作是否成功,若不成功则再次尝试,若指定次数后仍未成功,则记录错误日志,并进行下一个处理后的文本数据文件的处理。
基于本发明实施例,本发明还提供一种批量数据入库装置,该装置包括:
预处理模块,用于将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径;
接口模块,用于在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象;
导入模块,用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。
本发明对批量导入Hbase表的文本数据进行预处理,将预处理后的文本文件存储HDFS指定位置,然后通过集成在SparkSQL中的Phoenix的批量数据导入工具类的实例对象,基于在SparkSQL运行环境中构造的批量数据导入工具类的参数,实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix的二级索引。
附图说明
为了更加清楚地说明本发明实施例或者现有技术中的技术方案,下面将对本发明实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本发明实施例的这些附图获得其他的附图。
图1为本发明提供了一种批量数据入库方法的流程示意图;
图2为本发明提供了一种批量数据入库装置的结构示意图。
具体实施方式
在本发明实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本发明实施例。本发明实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本发明中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在将海量文本数据批量导入Hbase时,通常需要根据具体使用场景对文本数据进行处理,例如根据行键RowKey分布情况确定Hbase表预分区个数,以保证数据能够均匀分布到分布式数据库的各个存储分区Region上。这些海量文本数据的处理通常都在SparkSQL中来进行处理,但是缺少一套灵活方便的处理流程和方法。此外,虽然SparkSQL提供了对Hbase数据批量导入的批量导入应用程序接口(Bulk Load API),可以实现将Spark中的弹性分布式数据集(Resilient Distributed Dataset,RDD)直接用Bulk Load方式导入Hbase,且无需事先在Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)上生成Hfiles。但该种方式不支持对Phoenix建立的二级索引的同步更新,只能对表数据进行批量导入,从而导致使用SparkSQL的Bulk Load API导入Hbase表的数据无法使用Phoenix二级索引。
本发明对上述实际应用中遇到的问题进行研究和分析后,提出了一种通用有效的解决方案。本发明在将批量文本数据导入Hbase之前,首先对批量文本数据进行预处理,然后通过将Phoenix提供的文本批量导入工具CsvBulkloadTool类集成在SparkSQL中,通过在SparkSQL中实例化CsvBulkloadTool类以及在运行环境中构造CsvBulkloadTool的参数,最终实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix所建的二级索引。
图1为本发明提供了一种批量数据入库方法的流程示意图,该方法包括:
步骤101.将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入HDFS的指定路径。
数据集DataFrame为SparkSQL中一种表格型数据结构,具有行索引和列索引,DataFrame类派生于弹性分布式数据集RDD。本发明将格式化的文本数据文件,例如以分隔符分隔字段值的CSV文件,转化为DataFrame数据结构,然后通过调用SparkSQL的用户定义函数(User Defined Function,UDF)对这些DataFrame进行预处理,所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF等其中的一种或多种的组合。
步骤102.通过在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象。
步骤103.通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象。
以下结合一个具体的应用实例来描述本发明的实现过程,该实施例中格式化文本数据文件以CSV文本数据文件为例,所引入并实例化的批量数据导入工具类为Phoenix的CsvBulkloadTool,所调用的Hadoop的辅助工具运行类为ToolRunner。
首先通过预处理对待导入的海量数据进行预处理从而得到符合要求的数据集,并将预处理后的数据集存储在HDFS中的指定路径待后续处理。具体步骤如下:
S1、SparkSQL从HDFS读取存储待导入数据的原始CSV文件,将CSV文件中的以分隔符分隔的数据记录集转换为Spark的DataFrame数据结构。
S2、预先实现Hbase行键RowKey生成UDF函数,然后在SparkSQL中调用RowKey生成UDF函数,为数据记录生成rowkey并列添加到DataFrame中。
S3、可选地,预先实现新增列UDF函数,然后调用新增列UDF函数,在DataFrame中添加入库时间列insert_time。
S4、可选地,在DataFrame中删除掉原始CSV数据中不需要的字段列。
S5、在SparkSQL中将处理过的DataFrame以CSV格式写入HDFS指定路径下。
通常,大数据业务场景中会有多个存储待导入数据的原始CSV文件,因此上述S1~S5会由多个进程并行或循环执行,直到将所有原始CSV文件处理完毕。
在完成上述预处理步骤后,将进一步执行将数据导入目的Hbase表的步骤,但由于Hbase的批量数据导入工具不支持Phoenix二级索引的同步更新,所以如果使用Hbase原有的批量导入工具则会导致虽然数据导入成功,但与目的Hbase表关的联的二级索引未同步更新情况。为解决这个问题,该实施例中将Phoenix的CsvBulkLoadTool集成到SparkSQL中,通过在SparkSQL中引入并实例化Phoenix的批量数据导入工具类CsvBulkLoadTool得到批量数据导入工具对象,将接收导入数据的目的Hbase表的表名、预处理后的文本数据文件在HDFS中的存储位置以及预处理后的文本数据文件中的字段列与目的Hbase表的字段列的对应关系作为参数传入CsvBulkLoadTool对象。
要实现目的Hbase表和其二级索引同步更新,需要使用Phoenix事先为目的Hbase表创建二级索引,其二级索引可以有多个。示例性地,可通过如下方法将CsvBulkLoadTool集成如SparkSQL中:
在SparkSQL程序中引入包含CsvBulkLoadTool的jar包,例如phoenix-core-4.10.0-Hbase-1.1.jar,该jar包版本需与Hbase版本相兼容。在SparkSql中直接调用CsvBulkLoadTool类,将CsvBulkLoadTool构造为一个Tool接口的实现(即初始化一个该类的对象实例,在SparkSQL中将Spark上下文环境中的Hadoop配置:SparkSession.sparkContext.hadoopConfiguration,赋给该类的对象实例),然后在SparkSQL进程中构造CsvBulkLoadTool的参数args,参数包括目的Hbase表的表名—table、预处理后的CSV文件在HDFS上的存储位置—input以及预处理后的CSV文件中的字段列与目的Hbase表的字段列的对应关系-import-columns等参数。
在引入CsvBulkLoadTool后,通过Hadoop的辅助工具运行类ToolRunner运行CsvBulkLoadTool对象,CsvBulkLoadTool对象通过参数读取HDFS指定路径下的预处理后的CSV文件,根据文本数据文件中的字段列与目的Hbase表的字段列的对应关系将数据导入到目的Hbase表中,Phoenix的CsvBulkLoadTool在执行批量数据导入的同时,会同步更新与目的Hbase表关联的二级索引,从而使目的Hbase表和二级索引能够得到同步更新。
在运行CsvBulkLoadTool对象完成一个预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后,为了安全和可追溯的目的,还可包括判断本次入库操作是否成功的步骤,例如在执行完导入步骤后,判断数据入Hbase表是否成功,若不成功则再次尝试,若尝试指定次数后例如3次后仍未成功,则记录错误日志,例如未导入成功的预处理后的CSV文件移入bulkload_error文件夹中并在系统中记录日志,然后再进行下一个预处理后的CSV文本数据文件的处理。
图2为本发明一实施例提供的一种批量数据入库装置结构示意图,该装置可以应用于Hadoop等分布式架构中,可以在一个硬件设备上执行,也可以由不同的硬件设备分别完成上述批量数据入库方法中的一个或多个步骤。
该装置200包括:
预处理模块201,用于将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径;
接口模块202,用于在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象;
导入模块203,用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。
接口模块202在SparkSQL中引入并实例化的批量数据导入工具类可为Phoenix的CsvBulkloadTool。导入模块203所调用的Hadoop的辅助工具运行类可为ToolRunner。
预处理模块201通过调用SparkSQL的用户定义函数UDF对DataFrame进行预处理,UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。
为实现对Hbase表的二级索引的同步更新支持,该装置200还包括:二级索引建立模块,用于在进行批量数据导入之前,通过Phoenix为所述目的Hbase表建立二级索引。
为安全及可追溯的目的,导入模块203在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后,可进一步判断本次入库操作是否成功,若不成功则再次尝试,若指定次数后仍未成功,则记录错误日志,并进行下一个处理后的文本数据文件的处理。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种批量数据入库方法,其特征在于,所述方法包括:
将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径;
通过在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象;
通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库;
所述的批量数据导入工具类为Phoenix的CsvBulkloadTool,所述的Hadoop的辅助工具运行类为ToolRunner。
2.根据权利要求1所述的方法,其特征在于,
通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理,所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在进行批量数据导入之前,通过Phoenix为所述目的Hbase表建立二级索引。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后,判断本次入库操作是否成功,若不成功则再次尝试,若指定次数后仍未成功,则记录错误日志,并进行下一个处理后的文本数据文件的处理。
5.一种批量数据入库装置,其特征在于,所述装置包括:
预处理模块,用于将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame,对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径;
接口模块,用于在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象,接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象;
导入模块,用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库;
所述的批量数据导入工具类为Phoenix的CsvBulkloadTool,所述的Hadoop的辅助工具运行类为ToolRunner。
6.根据权利要求5所述的装置,其特征在于,
所述接口模块在SparkSQL中引入并实例化的批量数据导入工具类为Phoenix的CsvBulkloadTool;
所述导入模块所调用的Hadoop的辅助工具运行类为ToolRunner。
7.根据权利要求6所述的装置,其特征在于,
所述预处理模块通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理,所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
二级索引建立模块,用于在进行批量数据导入之前,通过Phoenix为所述目的Hbase表建立二级索引。
9.根据权利要求5所述的装置,其特征在于,
所述导入模块在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后,判断本次入库操作是否成功,若不成功则再次尝试,若指定次数后仍未成功,则记录错误日志,并进行下一个处理后的文本数据文件的处理。
CN202010247836.7A 2020-04-01 2020-04-01 一种批量数据入库方法及装置 Active CN111694811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247836.7A CN111694811B (zh) 2020-04-01 2020-04-01 一种批量数据入库方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247836.7A CN111694811B (zh) 2020-04-01 2020-04-01 一种批量数据入库方法及装置

Publications (2)

Publication Number Publication Date
CN111694811A CN111694811A (zh) 2020-09-22
CN111694811B true CN111694811B (zh) 2022-08-30

Family

ID=72476283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247836.7A Active CN111694811B (zh) 2020-04-01 2020-04-01 一种批量数据入库方法及装置

Country Status (1)

Country Link
CN (1) CN111694811B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579683A (zh) * 2020-12-30 2021-03-30 广州华资软件技术有限公司 一种高效批量接入Tbase数据的方法
CN112559603B (zh) * 2021-02-23 2021-05-18 腾讯科技(深圳)有限公司 特征提取方法、装置、设备及计算机可读存储介质
CN113190563B (zh) * 2021-06-30 2021-11-26 阿里云计算有限公司 索引生成方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115867A (ja) * 1997-06-26 1999-01-22 Fujitsu Ltd 設計情報管理システム,設計情報アクセス装置およびプログラム記憶媒体
CN103353901A (zh) * 2013-08-01 2013-10-16 百度在线网络技术(北京)有限公司 基于Hadoop分布式文件系统的表数据的有序管理方法以及系统
CN110362617A (zh) * 2019-06-24 2019-10-22 北京人大金仓信息技术股份有限公司 基于多并发技术从数据库快速导出批量数据方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956408B2 (en) * 2017-06-29 2021-03-23 Bank Of America Corporation Data transformation tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115867A (ja) * 1997-06-26 1999-01-22 Fujitsu Ltd 設計情報管理システム,設計情報アクセス装置およびプログラム記憶媒体
CN103353901A (zh) * 2013-08-01 2013-10-16 百度在线网络技术(北京)有限公司 基于Hadoop分布式文件系统的表数据的有序管理方法以及系统
CN110362617A (zh) * 2019-06-24 2019-10-22 北京人大金仓信息技术股份有限公司 基于多并发技术从数据库快速导出批量数据方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Design and Evaluation of Materialized View as a Service for Smart City Services with Large-Scale House Log;Yamamoto, Shintaro;《International Journal of Advanced Computer IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》;20141105;第E97D卷;全文 *
基于VBA和COM组件进行数据转换在文廷式数据库信息采集中的研究与应用;李国屏;《萍乡学院学报》;20170630(第03期);全文 *
基于非关系型数据库HBase存储技术的检索研究;王伟晨;《物联网技术》;20200120(第01期);全文 *
大数据技术发展趋势及灯塔大数据行业应用平台;王若倪;《中兴通讯技术》;20160304;第22卷(第3期);全文 *

Also Published As

Publication number Publication date
CN111694811A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111694811B (zh) 一种批量数据入库方法及装置
CN104462370A (zh) 分布式任务调度系统及方法
CN109145055B (zh) 一种基于Flink的数据同步方法和系统
CN109062925B (zh) 自动生成insert语句的方法、装置、计算机设备及存储介质
US20150074115A1 (en) Distributed storage of data
CN109002484A (zh) 一种用于顺序消费数据的方法及系统
CN109408507B (zh) 多属性数据的处理方法、装置、设备及可读存储介质
US11281623B2 (en) Method, device and computer program product for data migration
CN110083749A (zh) 用于软件快速开发的检索、复用、环境搭建的系统及方法
CN114077602A (zh) 数据迁移方法和装置、电子设备、存储介质
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN114595288A (zh) 一种基于sql命令级的多idc分布式系统数据同步方法
CN116431598A (zh) 一种基于Redis的关系型数据库全量内存化的方法
CN117421302A (zh) 一种数据处理方法及相关设备
CN117033492A (zh) 数据导入方法、装置、存储介质及电子设备
CN110019169A (zh) 一种数据处理的方法及装置
US20040162837A1 (en) Storage medium having object-oriented program
CN115964054A (zh) 应用服务部署方法和装置
CN113590651B (zh) 一种基于hql的跨集群数据处理系统及方法
US8566814B2 (en) Transporting object packets in a nested system landscape
CN114547206A (zh) 一种数据同步方法和数据同步系统
CN113468446A (zh) 一种支持识别第三方二维码数据的方法、系统及设备
CN107169098B (zh) 数据搬运方法、数据搬运装置及电子设备
US20070214127A1 (en) Scalable data extraction from data stores

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant