CN116910310B

CN116910310B - 一种基于分布式数据库的非结构化数据存储方法及装置

Info

Publication number: CN116910310B
Application number: CN202310726298.3A
Authority: CN
Inventors: 杜家兵; 王晶; 宋才华; 吴丽贤; 皇甫汉聪; 关兆雄; 陈旭宇; 庞伟林; 庞维欣
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2024-02-13
Anticipated expiration: 2043-06-16
Also published as: CN116910310A

Abstract

本发明公开了一种基于分布式数据库的非结构化数据存储方法及装置，其中所述方法包括：获取非结构化数据；将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据；确定所述冷热分层处理后的非结构化数据所要存储的数据节点；所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片；基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本；将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点。本发明通过分布式数据库存储海量非结构化数据，提高了存储性能，实现文件的高可靠性、高性能和安全存储。

Description

一种基于分布式数据库的非结构化数据存储方法及装置

技术领域

本发明涉及分布式存储技术领域，尤其涉及一种基于分布式数据库的非结构化数据存储方法及装置。

背景技术

随着计算机信息技术的普及与互联网用户数量的增多，使得数据量的增长速度越来越快，传统数据库与集中式存储技术已无法适应海量信息处理的需求。为了改善传统数据存储技术的局限性，研发了分布式存储技术，分布式存储技术增强了数据库的处理能力与处理效率。使用分布式数据库对非结构化数据进行存储，不但能满足大规模数据存储的需要，并且能够提高存储的性能，实现了文件的高可靠性、高性能和安全存储。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于分布式数据库的非结构化数据存储方法及装置，通过分布式数据库存储海量非结构化数据，提高了存储性能，实现文件的高可靠性、高性能和安全存储。

为了解决上述技术问题，本发明实施例提供了一种基于分布式数据库的非结构化数据存储方法，所述方法包括：

获取非结构化数据；

将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据；

确定所述冷热分层处理后的非结构化数据所要存储的数据节点；

所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片；

基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本；

将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

可选的，所述获取非结构化数据，包括：

基于数据引擎接口接收写入数据请求；

基于所述写入数据请求对数据进行提取处理，获得非结构化数据。

可选的，所述将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，包括：

基于特定的时序规则对所述非结构化数据进行判断，获得冷热数据判断结果；

基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，获得冷热分层处理后的非结构化数据。

可选的，所述基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，包括：

基于实时流式投递技术创建Tablestore数据源表；

基于所述Tablestore数据源表进行TP查询处理，获得Tablestore数据源表的生命周期；

基于所述Tablestore数据源表的生命周期进行数据分离处理，获得冷热分层处理后的非结构化数据。

可选的，所述确定所述冷热分层处理后的非结构化数据所要存储的数据节点，包括：

基于异或运算方法计算所述冷热分层处理后的非结构化数据对应的哈希值；

基于所述哈希值确定非结构化数据所要存储的数据节点。

可选的，所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，包括：

所述数据节点基于水平分片对所述冷热分层处理后的非结构化数据进行横向切分，其中横向切分的分区通过HASH算法计算哈希索引，基于所述哈希索引确定切分的分区，获得非结构化数据分片。

可选的，所述基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本，包括：

基于多副本机制对所述非结构化数据分片进行多副本复制备份处理，确定主副本与备副本；

采用同步复制方式对所述主副本与备副本进行数据复制处理，获得所述非结构化数据分片对应的多个副本。

可选的，所述采用同步复制方式对所述主副本与备副本进行数据复制处理，包括：

将写请求发送给主副本，主副本接收写请求；

主副本基于复制日志将所述写请求同步给备副本，备副本进行同步处理，并将同步处理信息反馈至主副本；

主副本接收反馈信息，获得对应的备副本。

可选的，所述将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中，包括：

将所述非结构化数据分片及所述对应的多个副本进行映射处理，获得分卷标识；

基于所述分卷标识将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

另外，本发明实施例还提供了一种基于分布式数据库的非结构化数据存储装置，所述装置包括：

获取模块：获取非结构化数据；

冷热分层模块：将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据；

数据节点模块：确定所述冷热分层处理后的非结构化数据所要存储的数据节点；

水平分片模块：所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片；

副本模块：基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本；

存储模块：将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

在本发明实施例中，通过使用分布式数据库对非结构化数据进行存储，可以满足大规模数据存储的需要，而且分布式存储技术支持冷热数据分层处理，可以提高存储性能和进一步提升数据安全性；也支持多副本机制，采用多副本机制可以保障数据库的高可用与容灾；并且可以通过数据分片的方式，对数据引擎层的存储进行弹性水平扩展，从而实现高性能与无限水平弹性扩展能力；因此，采用分布式数据库存储数据不但提高了存储的可靠性和可用性，而且将通用硬件引入的不稳定因素降到最低，从而实现文件的高性能和安全存储。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是一种基于分布式数据库的非结构化数据存储方法的流程示意图；

图2是一种基于分布式数据库的非结构化数据存储装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例中的一种基于分布式数据库的非结构化数据存储方法的流程示意图。

如图1所示，一种基于分布式数据库的非结构化数据存储方法，所述方法包括：

S11：获取非结构化数据；

在本发明具体实施过程中，所述获取非结构化数据，包括：基于数据引擎接口接收写入数据请求；基于所述写入数据请求对数据进行提取处理，获得非结构化数据。

具体的，基于数据引擎接口接收写入数据请求，其中数据引擎接口可以实现数据的传输；基于所述写入数据请求对数据进行提取处理，其中提取处理使用正则表达式定义一个抽象字符串，基于抽象字符串验证输入的数据，验证完成后进行数据的匹配，数据匹配成功后提取非结构化数据，这种获取非结构化数据的方法可以做到用较为简单的方式来迅速且准确的提取数据。

S12：将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据；

在本发明具体实施过程中，所述将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，包括：基于特定的时序规则对所述非结构化数据进行判断，获得冷热数据判断结果；基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，获得冷热分层处理后的非结构化数据。

具体的，首先基于特定的时序规则对所述非结构化数据进行判断，时序规则的判断要求包括数据的访问频率和创建时间等，对数据的访问频率的多少和创建时间的顺序等进行判断，得到冷热数据判断结果；基于冷热数据判断结果使用Apache Doris技术进行冷热分层处理，通过Apache Doris技术自身的列存和动态分层功能，支持对数据源表的生命周期管理，进而完成冷热数据的分离，获得冷热分层处理后的非结构化数据，使用冷热数据分层处理可以提高存储的性能和提升数据存储的安全性。

具体的，所述基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，包括：基于实时流式投递技术创建Tablestore数据源表；基于所述Tablestore数据源表进行TP查询处理，获得Tablestore数据源表的生命周期；基于所述Tablestore数据源表的生命周期进行数据分离处理，获得冷热分层处理后的非结构化数据。

S13：确定所述冷热分层处理后的非结构化数据所要存储的数据节点；

在本发明具体实施过程中，所述确定所述冷热分层处理后的非结构化数据所要存储的数据节点，包括：基于异或运算方法计算所述冷热分层处理后的非结构化数据对应的哈希值；基于所述哈希值确定非结构化数据所要存储的数据节点。

具体的，基于异或运算方法计算所述冷热分层处理后的非结构化数据对应的哈希值，对于哈希值的计算首先使用key.hashCode()函数返回散列值，定义数组的初始化长度，将散列值和数组的初始化长度取模得到键的哈希值，使用键的哈希值无符号右移16位，把键的哈希值的高位移动到低位，把初始的键的哈希值与右移之后的哈希值进行异或运算，把高位和低位的特征进行和组合，获得最终的哈希值。使用异或运算可以使哈希值的散列度更高，减少碰撞；通过哈希值可以映射数据存储的数据节点，从而确定非结构化数据所要存储的数据节点。

S14：所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片；

在本发明具体实施过程中，所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，包括：所述数据节点基于水平分片对所述冷热分层处理后的非结构化数据进行横向切分，其中横向切分的分区通过HASH算法计算哈希索引，基于所述哈希索引确定切分的分区，获得非结构化数据分片。

具体的，数据节点采用水平分片对冷热分层处理后的非结构化数据进行横向切分，水平分片首先确定横向切分的分区，其中横向切分的分区通过HASH算法计算哈希索引，其中使用哈希算法计算键值，对键值进行转换运算，把键值转换成新的哈希值，由InnoDB引擎进行自适应索引优化创建，获得哈希索引，使用哈希索引可以快速且精准的确定切分的分区，确定切分的分区后，使用mongos函数直接定位切分的分区并进行切分，切分完成后，获得非结构化数据分片，通过数据分片的方式，可以对数据引擎层的存储进行弹性水平扩展，从而实现高性能与无限水平弹性扩展能力。

S15：基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本；

在本发明具体实施过程中，所述基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本，包括：基于多副本机制对所述非结构化数据分片进行多副本复制备份处理，确定主副本与备副本；采用同步复制方式对所述主副本与备副本进行数据复制处理，获得所述非结构化数据分片对应的多个副本。

具体的，基于多副本机制对所述非结构化数据分片进行多副本复制备份处理，确定主副本与备副本，其中主副本可以提供读/写服务，但备副本只提供读服务；主备副本之间的数据复制，主要通过同步复制的方式实现，从而获得非结构化数据分片对应的多个副本，其中每个非结构化数据分片都有对应的多个副本，采用同步复制可以保证副本数据的一致性，对数据分片进行多副本处理可以保障数据库的高可用与容灾，对于硬件架构上可以选择采用低成本的x86架构服务器构建多副本可扩展存储，不再依赖特定硬件厂商，支持PB级存储容量。

具体的，所述采用同步复制方式对所述主副本与备副本进行数据复制处理，包括：将写请求发送给主副本，主副本接收写请求；主副本基于复制日志将所述写请求同步给备副本，备副本进行同步处理，并将同步处理信息反馈至主副本；主副本接收反馈信息，获得对应的备副本。

S16：将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

在本发明具体实施过程中，所述将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中，包括：将所述非结构化数据分片及所述对应的多个副本进行映射处理，获得分卷标识；基于所述分卷标识将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

具体的，将所述非结构化数据分片及所述对应的多个副本进行映射处理，映射处理首先创建空的哈希映射，使用insert(key)函数向哈希映射添加元素，将元素添加到哈希映射后，使用get(key)函数获取键的特定值，即获得分卷标识；采用分卷标识可以精准且快速的确定存储节点，基于所述分卷标识将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

实施例二

请参阅图2，图2是本发明实施例中的一种基于分布式数据库的非结构化数据存储装置的结构组成示意图。

如图2所示，一种基于分布式数据库的非结构化数据存储装置，所述装置包括：

获取模块21：获取非结构化数据；

冷热分层模块22：将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据；

数据节点模块23：确定所述冷热分层处理后的非结构化数据所要存储的数据节点；

水平分片模块24：所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片；

副本模块25：基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本；

具体的，基于多副本机制对所述非结构化数据分片进行多副本复制备份处理，确定主副本与备副本，其中主副本可以提供读/写服务，但备副本只提供读服务；主备副本之间的数据复制，主要通过同步复制的方式实现，从而获得非结构化数据分片对应的多个副本，其中每个非结构化数据分片都有对应的多个副本，采用同步复制可以保证副本数据的一致性；对数据分片进行多副本处理可以保障数据库的高可用与容灾，对于硬件架构上可以选择采用低成本的x86架构服务器构建多副本可扩展存储，不再依赖特定硬件厂商，支持PB级存储容量。

存储模块26：将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述方法包括：

获取非结构化数据；

将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，所述将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，包括：基于特定的时序规则对所述非结构化数据进行判断，获得冷热数据判断结果，基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，获得冷热分层处理后的非结构化数据；

所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，包括：所述数据节点基于水平分片对所述冷热分层处理后的非结构化数据进行横向切分，其中横向切分的分区通过HASH算法计算哈希索引，使用哈希算法计算键值，对键值进行转换运算，获得新的哈希值，由InnoDB引擎利用新的哈希值进行自适应索引优化创建，获得哈希索引，基于所述哈希索引使用mongos函数确定切分的分区，获得非结构化数据分片；

2.根据权利要求1所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述获取非结构化数据，包括：

基于数据引擎接口接收写入数据请求；

3.根据权利要求1所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，包括：

基于实时流式投递技术创建Tablestore数据源表；

4.根据权利要求1所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述确定所述冷热分层处理后的非结构化数据所要存储的数据节点，包括：

基于所述哈希值确定非结构化数据所要存储的数据节点。

5.根据权利要求1所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述基于多副本机制对所述非结构化数据分片进行多副本处理，获得所述非结构化数据分片对应的多个副本，包括：

6.根据权利要求5所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述采用同步复制方式对所述主副本与备副本进行数据复制处理，包括：

将写请求发送给主副本，主副本接收写请求；

主副本接收反馈信息，获得对应的备副本。

7.根据权利要求1所述的一种基于分布式数据库的非结构化数据存储方法，其特征在于，所述将所述非结构化数据分片及所述对应的多个副本分别存储于分布式数据库中对应的存储节点中，包括：

8.一种基于分布式数据库的非结构化数据存储装置，其特征在于，所述装置包括：

获取模块：获取非结构化数据；

冷热分层模块：将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，所述将所述非结构化数据进行冷热分层处理，获得冷热分层处理后的非结构化数据，包括：基于特定的时序规则对所述非结构化数据进行判断，获得冷热数据判断结果，基于所述冷热数据判断结果使用Apache Doris技术进行冷热分层处理，获得冷热分层处理后的非结构化数据；

水平分片模块：所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，所述数据节点基于水平分片的方式对所述冷热分层处理后的非结构化数据进行横向切分，获得非结构化数据分片，包括：所述数据节点基于水平分片对所述冷热分层处理后的非结构化数据进行横向切分，其中横向切分的分区通过HASH算法计算哈希索引，使用哈希算法计算键值，对键值进行转换运算，获得新的哈希值，由InnoDB引擎利用新的哈希值进行自适应索引优化创建，获得哈希索引，基于所述哈希索引使用mongos函数确定切分的分区，获得非结构化数据分片；