CN111651509B - 基于Hbase数据库的数据导入方法、装置、电子设备及介质 - Google Patents
基于Hbase数据库的数据导入方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111651509B CN111651509B CN202010370915.7A CN202010370915A CN111651509B CN 111651509 B CN111651509 B CN 111651509B CN 202010370915 A CN202010370915 A CN 202010370915A CN 111651509 B CN111651509 B CN 111651509B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- hbase database
- target data
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005192 partition Methods 0.000 claims abstract description 87
- 238000011068 loading method Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000008676 import Effects 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013479 data entry Methods 0.000 claims 1
- 238000007726 management method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012550 audit Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据,揭露了一种基于Hbase数据库的数据导入方法,包括:接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;创建所述目标数据集中每一个目标数据的标识字段,对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。本发明还涉及区块链技术,所述原始数据集可存储于区块链节点中。本发明可以提高基于Hbase数据库的数据导入的时效性和成功率。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于Hbase数据库的数据导入的方法、装置、电子设备及计算机可读存储介质。
背景技术
Hbase数据库是基于Apache Hadoop的NoSQL数据库,是一个分布式的和面向列的动态模式数据库,可以支持实时读写和随机访问超大规模的数据集。
目前基于Hbase数据库的数据导入主要有两种方式:方式一、直接调用Hbase的Put接口进行数据导入;方式二、依赖MapReduce框架进行数据批量转换后再进行数据导入。
但是,通过调用Hbase的Put接口进行数据导入,容易过多的占用Hbase数据库资源,从而会影响数据导入的时效;通过依赖MapReduce框架进行数据批量转换后再进行数据导入,会过多的依赖MapReduce框架,一旦MapReduce框架出现故障,会影响数据导入的成功率。
发明内容
本发明提供一种基于Hbase数据库的数据导入的方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于Hbase数据库的数据导入的时效性和成功率。
为实现上述目的,本发明提供的一种基于Hbase数据库的数据导入方法,包括:
接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;
创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;
根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;
利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
可选地,所述原始数据集存储于区块链中,所述利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集,包括:
利用所述计算框架中的读取指令读取所述原始数据集;
通过所述计算框架中的检测指令判断所述目标数据集中每个原始数据是否合法;
若所述原始数据不合法,接收所述原始数据集中剩余的原始数据;
若所述原始数据合法,通过所述计算框架中的获取指令获取所述原始数据的数据格式,并调用所述计算框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述计算框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
可选地,所述散列处理包括:反转处理、加盐处理以及Hash散列处理。
可选地,所述根据所述目标字段,创建Hbase数据库的数据预存储分区,包括:
根据所述目标字段,配置Hbase数据库的数据预存储分区的字段范围;
利用预设的自定义语句确定所述字段范围的分区策略;
根据所述分区策略,执行所述Hbase数据库的数据预存储分区的创建。
可选地,所述利用预设的数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中,包括:
读取所述数据预存储分区中的目标数据;
将读取的目标数据导入至所述Hbase数据库的存储介质中;
对所述存储介质中的目标数据建立存储目录;
根据所述存储目录,利用所述数据加载方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
为了解决上述问题,本发明还提供一种基于Hbase数据库的数据导入装置,所述装置包括:
统一化模块,用于接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;
散列模块,用于创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;
保存模块,用于根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;
加载模块,用于利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
可选地,所述原始数据集存储于区块链中,所述统一化模块包括:
读取子模块:用于利用所述计算框架中的读取指令读取所述原始数据集;
判断子模块:用于通过所述计算框架中的检测指令判断所述目标数据集中每个原始数据是否合法,若所述原始数据不合法,接收所述原始数据集中剩余的原始数据,若所述原始数据合法,通过所述计算框架中的获取指令获取所述原始数据的数据格式,并调用所述计算框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述计算框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
可选地,所述加载模块包括:
导入子模块:用于读取所述数据预存储分区中的目标数据,将读取的目标数据导入至所述Hbase数据库的存储介质中;
建立子模块:对所述存储介质中的目标数据建立存储目录,根据所述存储目录,利用所述数据加载方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述中所述的基于Hbase数据库的数据导入方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述中所述的基于Hbase数据库的数据导入方法。
本发明实施例首先利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集,基于预设的计算框架可以实现数据格式的统一,从而可以支持Hbase数据库的高并发,及避免占用过多的Hbase数据的资源,进而可以提高后续数据导入的速度;其次,本发明实施例将创建的所述目标数据集中每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段,根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中,其中,根据创建的数据预存储分区可以实现Hbase数据库与需要导入数据的无缝连接,避免了依赖其它工具进行的数据导入,从而可以提高数据导入的成功率;进一步地,本发明实施例利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。因此,本发明提出的一种基于Hbase数据库的数据导入方法、装置、电子设备以及计算机可读存储介质可以提高基于Hbase数据库的数据导入的时效性和成功率。
附图说明
图1为本发明一实施例提供的基于Hbase数据库的数据导入方法的流程示意图;
图2为本发明图1中基于Hbase数据库的数据导入方法中步骤S3的详细实施流程示意图;
图3为本发明一实施例提供的基于Hbase数据库的数据导入装置的模块示意图;
图4为本发明一实施例提供的实现基于Hbase数据库的数据导入方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将整合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供的基于Hbase数据库的数据导入方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于Hbase数据库的数据导入方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本发明提供一种基于Hbase数据库的数据导入的方法。参照图1所示,为本发明一实施例提供的基于Hbase数据库的数据导入方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于Hbase数据库的数据导入的方法包括:
S1、接收原始数据集,利用预设计算框架对所述原始数据集转的数据格式进行统一化,得到目标数据集。
在本发明的至少一个实施例中,所述原始数据集是由半结构化/非结构的数据文件组成,其中,所述数据文件包括、但不限于:文本文件、文档文件、视频格式文件以及图片格式文件等。需要强调的是,为进一步保证上述原始数据集的私密和安全性,上述稽核数据还可以存储于一区块链的节点中。
进一步地,由于存储至Hbase数据库中的数据需要格式统一,因此,本发明利用预设计算框架对所述原始数据集的数据格式进行统一化,以保障后续数据可以成功导入至Hbase数据库中。
一个可选实施例中,所述预设计算框架为Spark框架,所述利用Spark框架对所述原始数据集的数据格式进行统一化,即将所述原始数据集的数据格式转换为键值对(key-value)格式,得到目标数据集,即Hfile文件集,通过将所述原始数据集的数据格式转换为键值对格式,可以实现后续数据的快速导入和查询以及支持Hbase数据库的高并发。
所述Spark框架指的是专为大规模数据处理而设计的快速通用的计算引擎。
其支持开源集群计算环境,不仅能够提供交互式的数据查询,还可以优化数据迭代的工作负载。
具体的,所述利用Spark框架对所述原始数据集的数据格式进行统一化,得到目标数据集,包括:
利用所述Spark框架中的读取指令读取所述原始数据集;通过所述Spark框架中的检测指令判断所述目标数据集中每个原始数据是否合法;若所述原始数据不合法,接收所述原始数据集中剩余的原始数据;若所述原始数据合法,通过所述Spark框架中的获取指令获取所述原始数据的数据格式,并调用所述Spark框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述Spark框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
可选的,所述读取指令为RDD.saveAsNewAPIHadoopFile,所述检测指令为checkOutputSpecs,所述获取指令getRecordWriter,所述转换指令为getWriter,所述输出指令为HFileOutputFormat。
S2、创建所述目标数据集中每一个目标数据的标识字段,并对所述标识字段进行散列处理,得到目标标识字段。
在本发明的至少一个实施例中,通过创建所述目标数据集中每一个目标数据的标识字段,可以实现快速的将所述目标数据集导入至Hbase数据库对应的数据表中。其中,所述数据表又称region,用于存储导入Hbase数据库中的数据。
较佳地,本发明实施例选取所述目标数据集中每一个目标数据的关键字段作为所述目标数据的标识字段。例如,所述目标数据为某学生语文成绩为98分,则选取字段“Student”、“Chinese”以及“achievement”作为该目标数据的标识字段。进一步地,为使创建的标识字段具有唯一性,本发明实施例还包括将所述标识字段的格式转换为MD5哈希格式,所述MD5哈希指的是以32位16进制的小写字符串形式返回字段数值。
进一步地,由于数据在导入Hbase数据库时,会存在Hbase数据库中少数数据表的数据负载过大,其他数据表负载却很小的热点现象,这样会使热点数据表所在的主机负载过大,引起性能下降,甚至导致数据表不可用。因此,本发明通过对所述每一个目标数据的标识字段进行散列处理,解决了数据导入Hbase数据库时出现的热点现象。
可选的,所述散列处理包括:反转处理、加盐处理以及Hash散列处理。
所述反转处理指的是对固定长度的标识字段进行反转后存储。
所述加盐处理指的是在所述标识字段Rowkey随机增加一个前缀字符。
所述Hash散列处理指的是在所述标识字段Rowkey随机增加一个Hash值。
S3、根据所述目标字段,创建Hbase数据库的数据预存储分区,将所述目标字段对应的目标数据保存至所述数据预存储分区中。
在本发明的至少一个实施例中,根据所述目标字段,创建Hbase数据库的数据预存储分区,通过所述数据预存储分区,可以实现数据导入Hbase数据库时的数据均衡。
详细地,参阅图2所示,所述根据所述目标字段,创建Hbase数据库的数据预存储分区,包括:
S30、根据所述目标字段,配置Hbase数据库的数据预存储分区的字段范围;
例如,所述目标字段为学生语文成绩,则配置Hbase数据库的数据预存储分区的字段范围可以为:学生成绩。
S31、利用预设的自定义语句确定所述字段范围的分区策略;
可选的,所述预设的自定义语句如下所示:
create'hbase_table',{NAME=>'cf',TTL=>xxx},{NUMREGIONS=>xxx,SPLITALGO=>'HexStringSplit'}
所述分区策略包括确定需要建立的数据预存储分区数量以及自定义需要建立的数据预存储分区的关键字段。
S32、根据所述分区策略,执行所述Hbase数据库的数据预存储分区的创建。
进一步地,本发明实施例利用catch命令将所述目标字段对应的目标数据保存至所述数据预存储分区中。
S4、利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
本发明较佳实施例中,所述预设数据加载方法包括LoadIncrementalHFiles方法。
具体的,所述利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中,包括:
通过get()命令读取所述数据预存储分区中的目标数据,通过预设Hbase命令将读取的目标数据导入至所述Hbase数据库的存储介质中,通过set()命令对所述存储介质中的目标数据建立存储目录,根据所述存储目录,利用所述LoadIncrementalHFiles方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
其中,所述存储介质为HDFS(Hadoop Distributed File System)分布式存储系统,在所述存储介质中可以对所述读取的目标数据进行增、删、改以及查的操作
所述预设Habse命令如下所示:
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles/tmp/pres person。
本发明实施例首先利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集,基于预设的计算框架可以实现数据格式的统一,从而可以支持Hbase数据库的高并发,及避免占用过多的Hbase数据的资源,进而可以提高后续数据导入的速度;其次,将创建的所述目标数据集中每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中,根据创建的数据预存储分区可以实现Hbase数据库与需要导入数据的无缝连接,避免了依赖其它工具进行的数据导入,从而可以提高数据导入的成功率;进一步地,利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。因此,本发明提出的一种基于Hbase数据库的数据导入方法可以提高基于Hbase数据库的数据导入的时效性和成功率。
如图3所示,是本发明一实施例提供的基于Hbase数据库的数据导入装置的模块示意图。
本发明所述基于Hbase数据库的数据导入装置100可以安装于电子设备中。根据实现的功能,所述基于Hbase数据库的数据导入装置可以包括统一化模块101、散列模块102、保存模块103以及加载模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述统一化模块101,用于接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集。
在本发明的至少一个实施例中,所述原始数据集是由半结构化/非结构的数据文件组成,其中,所述数据文件包括、但不限于:文本文件、文档文件、视频格式文件以及图片格式文件等。需要强调的是,为进一步保证上述原始数据集的私密和安全性,上述稽核数据还可以存储于一区块链的节点中。
进一步地,由于存储至Hbase数据库中的数据需要格式统一,因此,本发明利用预设计算框架对所述原始数据集的数据格式进行统一化,以保障后续数据可以成功导入至Hbase数据库中。
一个可选实施例中,所述预设计算框架为Spark框架,所述利用Spark框架对所述原始数据集的数据格式进行统一化,即将所述原始数据集的数据格式转换为键值对(key-value)格式,得到目标数据集,即Hfile文件集,通过将所述原始数据集的数据格式转换为键值对格式,可以实现后续数据的快速导入和查询以及支持Hbase数据库的高并发。
所述Spark框架指的是专为大规模数据处理而设计的快速通用的计算引擎。
其支持开源集群计算环境,不仅能够提供交互式的数据查询,还可以优化数据迭代的工作负载。
具体的,所述利用Spark框架对所述原始数据集的数据格式进行统一化,得到目标数据集,包括:
读取子模块1010:用于利用所述Spark框架中的读取指令读取所述原始数据集;
判断子模块1011:用于通过所述Spark框架中的检测指令判断所述目标数据集中每个原始数据是否合法;若所述原始数据不合法,接收所述原始数据集中剩余的原始数据;若所述原始数据合法,通过所述Spark框架中的获取指令获取所述原始数据的数据格式,并调用所述Spark框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述Spark框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
可选的,所述读取指令为RDD.saveAsNewAPIHadoopFile,所述检测指令为checkOutputSpecs,所述获取指令getRecordWriter,所述转换指令为getWriter,所述输出指令为HFileOutputFormat。
所述散列模块102,用于创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段。
在本发明的至少一个实施例中,通过创建所述目标数据集中每一个目标数据的标识字段,可以实现快速的将所述目标数据集导入至Hbase数据库对应的数据表中。其中,所述数据表又称region,用于存储导入Hbase数据库中的数据。
较佳地,本发明实施例选取所述目标数据集中每一个目标数据的关键字段作为所述目标数据的标识字段。例如,所述目标数据为某学生语文成绩为98分,则选取字段“Student”、“Chinese”以及“achievement”作为该目标数据的标识字段。进一步地,为使创建的标识字段具有唯一性,本发明实施例还包括将所述标识字段的格式转换为MD5哈希格式,所述MD5哈希指的是以32位16进制的小写字符串形式返回字段数值。
进一步地,由于数据在导入Hbase数据库时,会存在Hbase数据库中少数数据表的数据负载过大,其他数据表负载却很小的热点现象,这样会使热点数据表所在的主机负载过大,引起性能下降,甚至导致数据表不可用。因此,本发明通过对所述每一个目标数据的标识字段进行散列处理,解决了数据导入Hbase数据库时出现的热点现象。
可选的,所述散列处理包括:反转处理、加盐处理以及Hash散列处理。
所述反转处理指的是对固定长度的标识字段进行反转后存储。
所述加盐处理指的是在所述标识字段Rowkey随机增加一个前缀字符。
所述Hash散列处理指的是在所述标识字段Rowkey随机增加一个Hash值。
所述保存模块103,用于根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中。
在本发明的至少一个实施例中,根据所述目标字段,创建Hbase数据库的数据预存储分区,通过所述数据预存储分区,可以实现数据导入Hbase数据库时的数据均衡。
详细地,所述根据所述目标字段,创建Hbase数据库的数据预存储分区,包括:
步骤I、根据所述目标字段,配置Hbase数据库的数据预存储分区的字段范围;
例如,所述目标字段为学生语文成绩,则配置Hbase数据库的数据预存储分区的字段范围可以为:学生成绩。
步骤II、利用预设的自定义语句确定所述字段范围的分区策略;
可选的,所述预设的自定义语句如下所示:
create'hbase_table',{NAME=>'cf',TTL=>xxx},{NUMREGIONS=>xxx,SPLITALGO=>'HexStringSplit'}
所述分区策略包括确定需要建立的数据预存储分区数量以及自定义需要建立的数据预存储分区的关键字段。
步骤III、根据所述分区策略,执行所述Hbase数据库的数据预存储分区的创建。
进一步地,本发明实施例利用catch命令将所述目标字段对应的目标数据保存至所述数据预存储分区中。
所述加载模块104,用于利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
本发明较佳实施例中,所述预设数据加载方法包括LoadIncrementalHFiles方法。
具体的,所述利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中,包括:
导入子模块1040:用于通过get()命令读取所述数据预存储分区中的目标数据,通过预设Hbase命令将读取的目标数据导入至所述Hbase数据库的存储介质中;
建立子模块1041:通过set()命令对所述存储介质中的目标数据建立存储目录,根据所述存储目录,利用所述LoadIncrementalHFiles方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
其中,所述存储介质为HDFS(Hadoop Distributed File System)分布式存储系统,在所述存储介质中可以对所述读取的目标数据进行增、删、改以及查的操作
所述预设Habse命令如下所示:
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles/tmp/pres person。
本发明实施例首先利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集,基于预设的计算框架可以实现数据格式的统一,从而可以支持Hbase数据库的高并发,及避免占用过多的Hbase数据的资源,进而可以提高后续数据导入的速度;其次,将创建的所述目标数据集中每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中,根据创建的数据预存储分区可以实现Hbase数据库与需要导入数据的无缝连接,避免了依赖其它工具进行的数据导入,从而可以提高数据导入的成功率;进一步地,利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。因此,本发明提出的一种基于Hbase数据库的数据导入装置可以提高基于Hbase数据库的数据导入的时效性和成功率。
如图4所示,是本发明一实施例提供的实现基于Hbase数据库的数据导入的方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于Hbase数据库的数据导入程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于Hbase数据库的数据导入程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于Hbase数据库的数据导入程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于Hbase数据库的数据导入程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;
创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段;
根据所述目标字段,创建Hbase数据库的数据预存储分区,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;
利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述原始数据集的私密和安全性,上述稽核数据还可以存储于一区块链的节点中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种基于Hbase数据库的数据导入方法,其特征在于,所述方法包括:
接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;
创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段,所述目标数据的标识字段为所述目标数据的关键字段;
根据所述目标字段,配置Hbase数据库的数据预存储分区的字段范围,利用预设的自定义语句确定所述字段范围的分区策略,所述分区策略包括确定需要建立的数据预存储分区数量以及自定义需要建立的数据预存储分区的关键字段,根据所述分区策略,执行所述Hbase数据库的数据预存储分区的创建,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;
利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
2.如权利要求1所述的基于Hbase数据库的数据导入方法,其特征在于,所述原始数据集存储于区块链中,所述利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集,包括:
利用所述计算框架中的读取指令读取所述原始数据集;
通过所述计算框架中的检测指令判断所述目标数据集中每个原始数据是否合法;
若所述原始数据不合法,接收所述原始数据集中剩余的原始数据;
若所述原始数据合法,通过所述计算框架中的获取指令获取所述原始数据的数据格式,并调用所述计算框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述计算框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
3.如权利要求1所述的基于Hbase数据库的数据导入方法,其特征在于,所述散列处理包括:反转处理、加盐处理以及Hash散列处理。
4.如权利要求1至3中任意一项所述的基于Hbase数据库的数据导入方法,其特征在于,所述利用预设的数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中,包括:
读取所述数据预存储分区中的目标数据;
将读取的目标数据导入至所述Hbase数据库的存储介质中;
对所述存储介质中的目标数据建立存储目录;
根据所述存储目录,利用所述数据加载方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
5.一种基于Hbase数据库的数据导入装置,其特征在于,所述装置包括:
统一化模块,用于接收原始数据集,利用预设的计算框架对所述原始数据集的数据格式进行统一化,得到目标数据集;
散列模块,用于创建所述目标数据集中每一个目标数据的标识字段,并对所述每一个目标数据的标识字段进行散列处理,生成所述每一个目标数据的目标字段,所述目标数据的标识字段为所述目标数据的关键字段;
保存模块,用于根据所述目标字段,配置Hbase数据库的数据预存储分区的字段范围,利用预设的自定义语句确定所述字段范围的分区策略,所述分区策略包括确定需要建立的数据预存储分区数量以及自定义需要建立的数据预存储分区的关键字段,根据所述分区策略,执行所述Hbase数据库的数据预存储分区的创建,并将所述目标字段对应的目标数据保存至所述数据预存储分区中;
加载模块,用于利用预设数据加载方法将所述数据预存储分区中的目标数据加载至所述Hbase数据库的数据表中。
6.如权利要求5所述的基于Hbase数据库的数据导入装置,其特征在于,所述原始数据集存储于区块链中,所述统一化模块包括:
读取子模块:用于利用所述计算框架中的读取指令读取所述原始数据集;
判断子模块:用于通过所述计算框架中的检测指令判断所述目标数据集中每个原始数据是否合法,若所述原始数据不合法,接收所述原始数据集中剩余的原始数据,若所述原始数据合法,通过所述计算框架中的获取指令获取所述原始数据的数据格式,并调用所述计算框架中的转换指令将所述原始数据的数据格式转换为键值对格式,根据所述计算框架中的输出指令输出所述键值对格式的原始数据,得到所述目标数据集。
7.如权利要求5所述的基于Hbase数据库的数据导入装置,其特征在于,所述加载模块包括:
导入子模块:用于读取所述数据预存储分区中的目标数据,将读取的目标数据导入至所述Hbase数据库的存储介质中;
建立子模块:对所述存储介质中的目标数据建立存储目录,根据所述存储目录,利用所述数据加载方法将所述存储介质中的目标数据加载至所述Hbase数据库的数据表中。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任意一项所述的基于Hbase数据库的数据导入方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的基于Hbase数据库的数据导入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370915.7A CN111651509B (zh) | 2020-04-30 | 2020-04-30 | 基于Hbase数据库的数据导入方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370915.7A CN111651509B (zh) | 2020-04-30 | 2020-04-30 | 基于Hbase数据库的数据导入方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651509A CN111651509A (zh) | 2020-09-11 |
CN111651509B true CN111651509B (zh) | 2024-04-02 |
Family
ID=72346655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010370915.7A Active CN111651509B (zh) | 2020-04-30 | 2020-04-30 | 基于Hbase数据库的数据导入方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651509B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113760962A (zh) * | 2021-09-01 | 2021-12-07 | 中国人民银行清算总中心 | 单领域至跨领域数据集数据处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503058A (zh) * | 2016-09-27 | 2017-03-15 | 华为技术有限公司 | 一种数据加载方法、终端和计算集群 |
CN106777230A (zh) * | 2016-12-26 | 2017-05-31 | 东软集团股份有限公司 | 一种分区系统、分区方法及装置 |
CN108563789A (zh) * | 2018-04-28 | 2018-09-21 | 成都致云科技有限公司 | 基于Spark框架的数据清洗方法和装置 |
CN109492002A (zh) * | 2018-10-19 | 2019-03-19 | 浙江大学华南工业技术研究院 | 一种智能电网大数据存储与分析系统及处理方法 |
CN109918425A (zh) * | 2017-12-14 | 2019-06-21 | 北京京东尚科信息技术有限公司 | 一种实现数据导入非关系型数据库的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496283B2 (en) * | 2016-01-22 | 2019-12-03 | Suraj Prabhakar WAGHULDE | Adaptive prefix tree based order partitioned data storage system |
-
2020
- 2020-04-30 CN CN202010370915.7A patent/CN111651509B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503058A (zh) * | 2016-09-27 | 2017-03-15 | 华为技术有限公司 | 一种数据加载方法、终端和计算集群 |
CN106777230A (zh) * | 2016-12-26 | 2017-05-31 | 东软集团股份有限公司 | 一种分区系统、分区方法及装置 |
CN109918425A (zh) * | 2017-12-14 | 2019-06-21 | 北京京东尚科信息技术有限公司 | 一种实现数据导入非关系型数据库的方法和系统 |
CN108563789A (zh) * | 2018-04-28 | 2018-09-21 | 成都致云科技有限公司 | 基于Spark框架的数据清洗方法和装置 |
CN109492002A (zh) * | 2018-10-19 | 2019-03-19 | 浙江大学华南工业技术研究院 | 一种智能电网大数据存储与分析系统及处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111651509A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11640474B2 (en) | Method and apparatus for operating database | |
CN112052242A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US10360394B2 (en) | System and method for creating, tracking, and maintaining big data use cases | |
CN103970758A (zh) | 数据库访问系统及方法 | |
CN113704665B (zh) | 动态服务发布方法、装置、电子设备及存储介质 | |
CN112506779A (zh) | 软件接口测试方法、装置、电子设备及存储介质 | |
CN111538573A (zh) | 异步任务处理方法、装置及计算机可读存储介质 | |
CN112446022A (zh) | 数据权限控制方法、装置、电子设备及存储介质 | |
CN111651509B (zh) | 基于Hbase数据库的数据导入方法、装置、电子设备及介质 | |
Choi et al. | Improving database system performance by applying NoSQL | |
CN113221154A (zh) | 服务密码获取方法、装置、电子设备及存储介质 | |
GB2578628A (en) | Device attestation techniques | |
CN113468175A (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN112988888B (zh) | 密钥管理方法、装置、电子设备及存储介质 | |
CN114721952A (zh) | 多套测试环境同步部署方法、装置、设备及存储介质 | |
CN113407657A (zh) | 基于单级数据库的数据查询方法、装置、设备及存储介质 | |
CN113127109A (zh) | 接口调用方法、装置、电子设备及可读存储介质 | |
CN113364848A (zh) | 文件缓存方法、装置、电子设备及存储介质 | |
CN113918517A (zh) | 多类型文件集中管理方法、装置、设备及存储介质 | |
CN112487400A (zh) | 基于多页面的单点登录方法、装置、电子设备及存储介质 | |
CN113626533B (zh) | 一种紫外线功率检测方法、装置及电子设备 | |
CN114640666B (zh) | 文件共享下载方法、电子设备及可读存储介质 | |
CN114116684B (zh) | 基于Docker容器化的深度学习大模型与大数据集版本管理方法 | |
CN114860314B (zh) | 基于数据库兼容的部署升级方法、装置、设备及介质 | |
CN113703995B (zh) | 前后端数据交互方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |