CN112988904A - 一种分布式数据管理系统及数据存储方法 - Google Patents
一种分布式数据管理系统及数据存储方法 Download PDFInfo
- Publication number
- CN112988904A CN112988904A CN202110441950.8A CN202110441950A CN112988904A CN 112988904 A CN112988904 A CN 112988904A CN 202110441950 A CN202110441950 A CN 202110441950A CN 112988904 A CN112988904 A CN 112988904A
- Authority
- CN
- China
- Prior art keywords
- data
- result set
- storage
- distributed
- set data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013523 data management Methods 0.000 title claims abstract description 42
- 238000013500 data storage Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000011084 recovery Methods 0.000 claims description 8
- 238000013178 mathematical model Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 2
- 239000002699 waste material Substances 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种分布式数据管理系统及数据存储方法,本申请通过对结果集数据进行动态抽样,得到结果集数据的索引列数据,再对索引列数据进行抽样处理,得到结果集数据的成本样例数据;数据量预估单元根据成本样例数据,结合数据量预估模型,以通过数据量预估模型的运算,获得结果集数据的数据量分值;数据入库处理单元根据数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照比较结果对应的数据存储方式,将结果集数据存入存储节点,基于数据量大小的不同,对应采取不同的存储方式,解决了现有的分布式数据管理系统对于结果集的处理存在的资源浪费、运算效率低的技术问题。
Description
技术领域
本申请涉及数据库技术领域,尤其涉及一种分布式数据管理系统及数据存储方法。
背景技术
随着大数据技术发展,通过数据之间的关联关系,寻找数据之间的内在联系,成为了实现业务增长的最有效手段之一,使得数据分析业务得到越来越多的企业和单位的青睐。
在数据分析的过程中,数据系统每时每刻都在有大量的数据录入工作,各种不同结构的数据在无法明确预知关联条件的情况下,不断进行着关联碰撞并生成出新的结果集,不同结果集之间再次进行着持续的关联碰撞,继续产生新的结果集。
目前主流的数据系统多为分布式数据管理系统,通过把任务尽可能的平均的摊分到所有处理节点中进行处理,以此来降低各个处理节点处理数据的资源开销。但现有的分布式数据管理系统对于结果集的处理仍存在资源浪费、运算效率低的技术问题。
发明内容
本申请提供了一种分布式数据管理系统及数据存储方法,用于解决现有的分布式数据管理系统对于结果集的处理仍存在资源浪费、运算效率低的技术问题。
本申请第一方面提供了一种分布式数据管理系统,包括:
结果集数据获取单元,用于获取结果集数据;
第一预处理单元,用于对所述结果集数据进行动态抽样,得到所述结果集数据的索引列数据,再对所述索引列数据进行抽样处理,得到所述结果集数据的成本样例数据;
数据量预估单元,用于根据所述成本样例数据,结合数据量预估模型,以通过所述数据量预估模型的运算,获得所述结果集数据的数据量分值,其中,所述数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
数据入库处理单元,用于根据所述数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照所述比较结果对应的数据存储方式,将所述结果集数据存入存储节点,其中,所述数据存储方式包括:分布式存储方式和单点存储方式。
优选地,还包括:
混合运算处理单元,用于发生基于第一结果集数据与第二结果集数据的混合运算时,将所述第二结果集数据按照所述分布式存储方式进行重分布处理或广播处理,其中,所述第一结果集数据为以所述分布式存储方式存储的结果集数据,所述第二结果集数据为以所述单点存储方式存储的结果集数据。
优选地,还包括:
第二预处理单元,用于将所述结果集数据输入到入库节点,以通过所述入库节点对所述结果集数据进行处理,再将处理后的结果集数据从所述入库节点分发到所述存储节点,其中,所述入库节点用于对所述结果集数据进行清洗、转义以及过滤。
优选地,所述结果集数据具体包括:一个或多个数据表,且一个所述数据表对应一个任务。
优选地,还包括:
资源请求调度处理单元,用于响应接收到的资源调度请求,确定所述资源调度请求执行所需的实例进程,根据所述实例进程调用若干个存储单元,以通过所述存储单元执行所述实例进程,完成所述资源调度请求对应的资源调度任务,其中,所述存储单元的数量不少于所述实例进程的数量,且每个所述存储单元仅执行一个所述实例进程。
优选地,所述实例进程与所述实例进程对应的用户数为1:2。
优选地,各个所述存储节点依次通信连接,并形成环状拓扑结构。
优选地,还包括:
副本数据管理单元,用于将源存储节点生成的副本数据存储到副本存储节点中,其中,所述副本存储节点为所述源存储节点沿预置方向排列的N个存储节点,且所述副本存储节点的数量与所述副本数据的数量对应。
优选地,还包括:
数据恢复单元,用于当所述存储节点发生数据丢失时,基于所述环状拓扑结构,确定故障存储节点的相邻存储节点,并根据所述相邻存储节点的数据对所述故障存储节点进行数据恢复。
本申请第二方面提供了一种数据存储方法,应用于如本申请第一方面提及的一种分布式数据管理系统,包括:
结果集数据获取单元获取结果集数据;
第一预处理单元对所述结果集数据进行动态抽样,得到所述结果集数据的索引列数据,再对所述索引列数据进行抽样处理,得到所述结果集数据的成本样例数据;
数据量预估单元根据所述成本样例数据,结合数据量预估模型,以通过所述数据量预估模型的运算,获得所述结果集数据的数据量分值,其中,所述数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
数据入库处理单元根据所述数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照所述比较结果对应的数据存储方式,将所述结果集数据存入存储节点,其中,所述数据存储方式包括:分布式存储方式和单点存储方式。
从以上技术方案可以看出,本申请具有以下优点:
本申请基于数据量大小的不同,对应采取不同的存储方式。对数据量小的数据采用单点存储,只会在某一个节点中保存,而对数据量大的数据则采用分布式存储的方式,将其被切片至多个节点中保存。避免了所有计算操作都需要分布式开销,在“独立计算的收益>分布式调度成本+分布式计算成本”情况下,独立运算能完全避免分布式的调度成本,避免系统资源的浪费,当“分布式计算时间效率>分布式计算成本>独立计算时间”的情况下,系统会实行分布式调度,极大提高了运算的效率,解决了现有的分布式数据管理系统对于结果集的处理存在的资源浪费、运算效率低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种分布式数据管理系统的一个实施例的结构示意图;
图2为本申请提供的一种数据存储方法的一个实施例的流程示意图;
图3为基于本申请的分布式数据管理系统及数据存储方法的数据存储效果示意图;
图4为本申请的分布式数据管理系统资源请求调度架构示意图;
图5为基于本申请的资源请求调度处理方式测得的socket连接数;
图6为基于现有的资源请求调度处理方式测得的socket连接数;
图7为本申请的分布式数据管理系统中的数据表结构示意图。
具体实施方式
任何分布式系统的精髓在于“把某个处理任务尽可能的平均的摊分到所有处理节点中”和“尽可能的减少节点之间的数据传输的网络开销”。但由于结果集的极度倾斜,对GB或TB数据量级别的结果集言,摊分到所有节点并行计算无疑是一种优化的方案,但MB或KB级别的数据量,数据分布式所带来的系统开销是远远大于处理数据的系统开销(分布式开销指的是系统完成这个分布式调度所使用的物理资源),这种现象是造成现有的分布式数据管理系统对于结果集的处理存在资源浪费、运算效率低的技术问题的主要原因。
本申请实施例提供了一种分布式数据管理系统及数据存储方法,用于解决现有的分布式数据管理系统对于结果集的处理仍存在资源浪费、运算效率低的技术问题。
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,本申请第一个实施例提供了一种分布式数据管理系统,包括:
结果集数据获取单元101,用于获取结果集数据;
第一预处理单元102,用于对结果集数据进行动态抽样,得到结果集数据的索引列数据,再对索引列数据进行抽样处理,得到结果集数据的成本样例数据;
数据量预估单元103,用于根据成本样例数据,结合数据量预估模型,以通过数据量预估模型的运算,获得结果集数据的数据量分值,其中,数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
数据入库处理单元104,用于根据数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照比较结果对应的数据存储方式,将结果集数据存入存储节点,其中,数据存储方式包括:分布式存储方式和单点存储方式。
在本申请提供的分布式数据管理系统,基于计算资源的数据量大小的不同,其存储的方式也不同,在数据进行录入时,程序会自动对生成的索引列进行抽样分析,并保存为成本样例的数据,程序会对数据量进行预估,超过某个阈值的范围,数据将被切片,并作分布式保存,低于某个阈值的范围,数据将不进行切片,作单节点保存,此时切片资源的运算为分布式运算,非切片资源的运算为单点运算。这样的设计是避免了所有计算操作都需要分布式开销,在“独立计算的收益>分布式调度成本+分布式计算成本”情况下,独立运算能完全避免分布式的调度成本,避免系统资源的浪费,当“分布式计算时间效率>分布式计算成本>独立计算时间”的情况下,系统会实行分布式调度,极大提高了运算的效率,其存储效果可参阅图3。
以上为本申请提供的一种分布式数据管理系统的第一个实施例的详细说明,下面为本申请提供的一种分布式数据管理系统的第二个实施例的详细说明。
请参阅图1,本申请第二个实施例在上述第一个实施例的基础上,提供了一种分布式数据管理系统,包括:
进一步地,还包括:
混合运算处理单元105,用于发生基于第一结果集数据与第二结果集数据的混合运算时,将第二结果集数据按照分布式存储方式进行重分布处理或广播处理,其中,第一结果集数据为以分布式存储方式存储的结果集数据,第二结果集数据为以单点存储方式存储的结果集数据。
需要说明的是,在上述第一个实施例提供的分类存储、分类运算基础上,当发生复杂的混合运算时,例如以分布式存储方式存储的第一结果集数据和以单点存储方式存储的第二结果集数据产生关联时,程序内部会对第二结果集数据进行广播操作或重分布操作,把独立运算分发为分布式运算,提高执行混合运算的效率。
进一步地,还包括:
第二预处理单元106,用于将结果集数据输入到入库节点,已通过入库节点对结果集数据进行处理,再将处理后的结果集数据从入库节点分发到存储节点,其中,入库节点用于对结果集数据进行清洗、转义以及过滤。
需要说明的是,本申请提供的分布式数据管理系统,可以还包括:第二预处理单元,用于在将结果集数据存入存储节点之前,对结果集数据输入到入库节点,由入库节点执行进一步的预处理后,再结果集数据从入库节点分发到存储节点,从而减少存储节点的处理性能开销,例如入库节点用于对结果集数据进行的预处理包括:(处理不满足入库要求的数据)、转义(进行数据的转义的处理)、过滤(过滤不满足条件的数据)。
而在逐条入库的场景下,也采用入库节点同一进行数据分发,通过不经过存储节点进行转发,达到减少存储节点的性能开销。
进一步地,结果集数据具体包括:一个或多个数据表,且一个数据表对应一个任务。
需要说明的是,如图7所示,每个数据资源都有独立的容器(数据库定义为:表)进行处理,每个任务的结果集数据都通过独立的表进行保存,无需索引结构,查询分析计算基于连续IO,能轻松实现迁移归档分级存储的功能,可解决由于创建的结果集其空间大小任意波动幅度大,结果集之间关联的规则任意和随机的,结果集数据极端倾斜、无法明确的谓词查询、无法预设的关联优化,这些都让任何数据库中的“索引”设计优化机制完全失效的问题。
进一步地,还包括:
资源请求调度处理单元107,用于响应接收到的资源调度请求,确定资源调度请求执行所需的实例进程,根据实例进程调用若干个存储单元,以通过存储单元执行实例进程,完成资源调度请求对应的资源调度任务,其中,存储单元的数量不少于实例进程的数量,且每个存储单元仅执行一个实例进程。
进一步地,实例进程与实例进程对应的用户数为1:2。
需要说明的是,如图4所示,本申请实施例采用单物理节点单实例的并发处理设计,一个请求会调度“物理节点数*2”的连接请求资源,一个存储节点只运行一项实例进程,每个实例进程连接多个用户,与传统数据库在一个存储节点运行多项实例进程的方式相比,本申请的资源请求并发处理机制,能够节省更多的数据库socket连接,提高系统资源利用率,具体测试结果可参阅图5和图6。
其中,本申请实施例中每个实例进程优选连接两个用户,可以将用户连接需求较多的实例进程分散给多个存储节点执行,进一步提高系统资源利用率。
进一步地,各个存储节点依次通信连接,并形成环状拓扑结构。
进一步地,还包括:
副本数据管理单元108,用于将源存储节点生成的副本数据存储到副本存储节点中,其中,副本存储节点为源存储节点沿预置方向排列的N个存储节点,且副本存储节点的数量与副本数据的数量对应。
进一步地,还包括:
数据恢复单元109,用于当存储节点发生数据丢失时,基于环状拓扑结构,确定故障存储节点的相邻存储节点,并根据相邻存储节点的数据对故障存储节点进行数据恢复。
需要说明的是,本申请实施例提供的系统还设置了副本数据管理机制,其临近的两个物理节点会形成部分副本的关系,整个系统的副本构成,形成一个环状,如A-B-C-A,例如:T1数据在A服务器中,其副本T1’在B服务器中;T2数据在B服务器中,其副本数据T2’在C服务器中;T3数据在C服务器中,其副本T3’在A服务器中。副本数为N的情况下,只有临近的N台服务器都发生故障,才会发生数据丢失的情况,当单节点故障时,系统并不会产生数据重分布的后台操作,以此避免重分布带来的系统性能降级问题。当故障节点重新上线时,恢复动作只在故障节点及其相邻节点之间进行,可降低节点故障对其他节点的波动且恢复动作执行效率更高。
以上为本申请提供的一种分布式数据管理系统的第一个实施例的详细说明,下面为本申请提供的一种应用在上述分布式数据管理系统的数据存储方法的一个实施例的详细说明。
请参阅图2,本申请第三个实施例提供了一种数据存储方法,应用于如本申请第一个实施例或第二个实施例提及的一种分布式数据管理系统,包括:
步骤201、结果集数据获取单元获取结果集数据;
步骤202、第一预处理单元对结果集数据进行动态抽样,得到结果集数据的索引列数据,再对索引列数据进行抽样处理,得到结果集数据的成本样例数据;
步骤203、数据量预估单元根据成本样例数据,结合数据量预估模型,以通过数据量预估模型的运算,获得结果集数据的数据量分值,其中,数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
步骤204、数据入库处理单元根据数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照比较结果对应的数据存储方式,将结果集数据存入存储节点,其中,数据存储方式包括:分布式存储方式和单点存储方式。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种分布式数据管理系统,其特征在于,包括:
结果集数据获取单元,用于获取结果集数据;
第一预处理单元,用于对所述结果集数据进行动态抽样,得到所述结果集数据的索引列数据,再对所述索引列数据进行抽样处理,得到所述结果集数据的成本样例数据;
数据量预估单元,用于根据所述成本样例数据,结合数据量预估模型,以通过所述数据量预估模型的运算,获得所述结果集数据的数据量分值,其中,所述数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
数据入库处理单元,用于根据所述数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照所述比较结果对应的数据存储方式,将所述结果集数据存入存储节点,其中,所述数据存储方式包括:分布式存储方式和单点存储方式。
2.根据权利要求1所述的一种分布式数据管理系统,其特征在于,还包括:
混合运算处理单元,用于发生基于第一结果集数据与第二结果集数据的混合运算时,将所述第二结果集数据按照所述分布式存储方式进行重分布处理或广播处理,其中,所述第一结果集数据为以所述分布式存储方式存储的结果集数据,所述第二结果集数据为以所述单点存储方式存储的结果集数据。
3.根据权利要求1所述的一种分布式数据管理系统,其特征在于,还包括:
第二预处理单元,用于将所述结果集数据输入到入库节点,以通过所述入库节点对所述结果集数据进行处理,再将处理后的结果集数据从所述入库节点分发到所述存储节点,其中,所述入库节点用于对所述结果集数据进行清洗、转义以及过滤。
4.根据权利要求1所述的一种分布式数据管理系统,其特征在于,所述结果集数据具体包括:一个或多个数据表,且一个所述数据表对应一个任务。
5.根据权利要求1所述的一种分布式数据管理系统,其特征在于,还包括:
资源请求调度处理单元,用于响应接收到的资源调度请求,确定所述资源调度请求执行所需的实例进程,根据所述实例进程调用若干个存储单元,以通过所述存储单元执行所述实例进程,完成所述资源调度请求对应的资源调度任务,其中,所述存储单元的数量不少于所述实例进程的数量,且每个所述存储单元仅执行一个所述实例进程。
6.根据权利要求5所述的一种分布式数据管理系统,其特征在于,所述实例进程与所述实例进程对应的用户数为1:2。
7.根据权利要求1所述的一种分布式数据管理系统,其特征在于,各个所述存储节点依次通信连接,并形成环状拓扑结构。
8.根据权利要求7所述的一种分布式数据管理系统,其特征在于,还包括:
副本数据管理单元,用于将源存储节点生成的副本数据存储到副本存储节点中,其中,所述副本存储节点为所述源存储节点沿预置方向排列的N个存储节点,且所述副本存储节点的数量与所述副本数据的数量对应。
9.根据权利要求8所述的一种分布式数据管理系统,其特征在于,还包括:
数据恢复单元,用于当所述存储节点发生数据丢失时,基于所述环状拓扑结构,确定故障存储节点的相邻存储节点,并根据所述相邻存储节点的数据对所述故障存储节点进行数据恢复。
10.一种数据存储方法,应用于如权利要求1至9任意一项所述的一种分布式数据管理系统,其特征在于,包括:
结果集数据获取单元获取结果集数据;
第一预处理单元对所述结果集数据进行动态抽样,得到所述结果集数据的索引列数据,再对所述索引列数据进行抽样处理,得到所述结果集数据的成本样例数据;
数据量预估单元根据所述成本样例数据,结合数据量预估模型,以通过所述数据量预估模型的运算,获得所述结果集数据的数据量分值,其中,所述数据量预估模型为根据历史成本样例数据样本训练得到的数学模型;
数据入库处理单元根据所述数据量分值与预置的数据量阈值的比较结果,结合比较结果与数据存储方式的对应关系,以按照所述比较结果对应的数据存储方式,将所述结果集数据存入存储节点,其中,所述数据存储方式包括:分布式存储方式和单点存储方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441950.8A CN112988904A (zh) | 2021-04-23 | 2021-04-23 | 一种分布式数据管理系统及数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441950.8A CN112988904A (zh) | 2021-04-23 | 2021-04-23 | 一种分布式数据管理系统及数据存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988904A true CN112988904A (zh) | 2021-06-18 |
Family
ID=76340017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110441950.8A Pending CN112988904A (zh) | 2021-04-23 | 2021-04-23 | 一种分布式数据管理系统及数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988904A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569200A (zh) * | 2021-08-03 | 2021-10-29 | 北京金山云网络技术有限公司 | 数据统计的方法、装置及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589752A (zh) * | 2016-02-24 | 2016-05-18 | 哈尔滨工业大学深圳研究生院 | 基于键值分布的跨数据中心大数据处理 |
CN107888633A (zh) * | 2016-09-29 | 2018-04-06 | 上海帝联信息科技股份有限公司 | 文件分发方法及装置 |
CN109477140A (zh) * | 2016-09-22 | 2019-03-15 | 华为技术有限公司 | 一种数据处理方法、装置及计算节点 |
CN111258506A (zh) * | 2020-02-07 | 2020-06-09 | 汉海信息技术(上海)有限公司 | 一种数据存储的方法及装置 |
CN112463904A (zh) * | 2020-11-30 | 2021-03-09 | 湖北金拓维信息技术有限公司 | 一种分布式空间矢量数据与单点空间数据混合分析方法 |
-
2021
- 2021-04-23 CN CN202110441950.8A patent/CN112988904A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589752A (zh) * | 2016-02-24 | 2016-05-18 | 哈尔滨工业大学深圳研究生院 | 基于键值分布的跨数据中心大数据处理 |
CN109477140A (zh) * | 2016-09-22 | 2019-03-15 | 华为技术有限公司 | 一种数据处理方法、装置及计算节点 |
CN107888633A (zh) * | 2016-09-29 | 2018-04-06 | 上海帝联信息科技股份有限公司 | 文件分发方法及装置 |
CN111258506A (zh) * | 2020-02-07 | 2020-06-09 | 汉海信息技术(上海)有限公司 | 一种数据存储的方法及装置 |
CN112463904A (zh) * | 2020-11-30 | 2021-03-09 | 湖北金拓维信息技术有限公司 | 一种分布式空间矢量数据与单点空间数据混合分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569200A (zh) * | 2021-08-03 | 2021-10-29 | 北京金山云网络技术有限公司 | 数据统计的方法、装置及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11888702B2 (en) | Intelligent analytic cloud provisioning | |
KR101925696B1 (ko) | 대규모 데이터 스트림들의 획득, 저장, 및 소비를 위한 관리 서비스 | |
Li et al. | A platform for scalable one-pass analytics using mapreduce | |
US9424274B2 (en) | Management of intermediate data spills during the shuffle phase of a map-reduce job | |
CN102831120B (zh) | 一种数据处理方法及系统 | |
Aouad et al. | Performance study of distributed apriori-like frequent itemsets mining | |
CN104424287B (zh) | 数据查询方法和装置 | |
CN110727508A (zh) | 一种任务调度系统和调度方法 | |
Li et al. | A task allocation method for stream processing with recovery latency constraint | |
Sewal et al. | A critical analysis of apache hadoop and spark for big data processing | |
Raouf et al. | A predictive multi-tenant database migration and replication in the cloud environment | |
CN112988904A (zh) | 一种分布式数据管理系统及数据存储方法 | |
CN114077492B (zh) | 云计算基础设施资源的预测模型训练、预测方法和系统 | |
CN106815318B (zh) | 一种时序数据库的集群化方法及系统 | |
CN107273413B (zh) | 中间表的创建方法、查询方法及相关装置 | |
CN108664322A (zh) | 数据处理方法及系统 | |
Subbiah et al. | Energy efficient big data infrastructure management in geo-federated cloud data centers | |
Dai et al. | GraphTrek: asynchronous graph traversal for property graph-based metadata management | |
US20070124343A1 (en) | Method or apparatus for processing data in a system management application program | |
Dai et al. | An asynchronous traversal engine for graph-based rich metadata management | |
Xian et al. | Parallel discovery of trajectory companions from heterogeneous streaming data | |
CN112100495B (zh) | 一种基于分布式的一站式采集方法及采集系统 | |
Raza et al. | Self-prediction of performance metrics for the database management system workload | |
CN115550458A (zh) | 一种日志处理方法和相关装置 | |
Ramane et al. | An experimental evaluation of performance of a hadoop cluster on replica management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |