CN112181309A

CN112181309A - 一种海量对象存储的在线扩容方法

Info

Publication number: CN112181309A
Application number: CN202011093410.7A
Authority: CN
Inventors: 南坤; 谢赟; 韩欣; 孙卓峰
Original assignee: Shanghai Datatom Information Technology Co ltd
Current assignee: Shanghai Datatom Information Technology Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-05

Abstract

本发明公开了一种海量对象存储的在线扩容方法，所述用于保存该存储桶下的对象列表包括以下步骤：S1、用户通过restfulAPI创建(bucket)存储桶，后端会同步创建一个或多个索引(index)对象，用于保存该存储桶下的对象列表，S11、用户通过restfulAPI查询(bucket)存储桶对象列表时，后端会使用归并排序输出存储桶内对象，排序算法随着对象规模增大，会增加计算量和内存，数据IO性能受到严重影响。该海量对象存储的在线扩容方法，扩容后本方法保持原有用户S3接口不变，用户无感知的实现存储池的弹性伸缩，扩容后原有S3接口查询存储桶对象的方式从遍历查找变为hash计算，极大的减少了路由条数和寻址效率，灵活调整多个集群的负载。

Description

一种海量对象存储的在线扩容方法

技术领域

本发明涉及存储技术领域，具体为一种海量对象存储的在线扩容方法。

背景技术

随着云原生、大数据、云计算、物联网以及5G等新技术的发展，电信、互联网、政企、医疗等行业应用的日新月异，带来的海量数据爆炸性增长对传统的存储系统造成诸多挑战，当前主要的使用场景有海量数据归档备份、内容分发与数据共享、云原生应用和多云应用场景。

相对于传统的文件系统存储，对象存储摒弃了文件系统复杂的语义和目录设计，通过扁平化的Key-Value方式进行数据存储，大大简化了元数据管理的复杂度，几乎不存在存储容量上的技术限制，从而更加适用于当今各行各业的海量数据存储，特别是大数据行业的应用场景。

在多媒体应用场景，对象存储也越来越多的得到广泛的应用，用户往往存在着在线的多媒体处理需求，包括视频转码、水印、截图、切片以及鉴黄等，而面对十亿级、百亿数量级的数据需要存储系统提供急速视频，图片的在线处理，通常都面临着在突发时间点快速调度存储资源以及后续弹性均衡资源的强烈诉求，而通常的元数据扩容和数据扩容都会对业务读写产生较大的影响，在单集群下元数据的本身也会受到KV数据库由于实例过大，发生压缩后会对存储的性能和稳定性造成很大影响。

在大数据应用场景，日志数据、数据库备份，物联网行业采集数据，监控行业音视频文件，医疗行业影像，企业组织政府档案资料等场景中，传统的存储方案不仅维护困难，成本也相对高昂，扩容时不会出现原有扩容方法中由于对象达到亿级以上，存储桶为了限制单桶对象个数，使用的reshard方法，会由于reshard时间过长导致可能出现的元数据丢失的风险，单集群扩容场景下，元数据保存在kv数据库中，由于数据库实例过大，导致在触发compaction时对底层性能很稳定性产生的巨大波动，当前跨集群扩容方法基于存储桶的虚拟主机访问去进行路由，业务需要根据根据容量使用情况不断的新增bucket去扩容，需要维护多个bucket，增加了开发维护成本，后端依赖的一致性hash均衡算法，在扩容，缩容时会重新计算容错域对象分布，集群出现迁移重平衡，而当数据规模达到亿级以上时，迁移成本非常高，且业务数据性能影响不可控，所以我们提出了一种海量对象存储的在线扩容方法，以便于解决上述中提出的问题。

发明内容

本发明的目的在于提供一种海量对象存储的在线扩容方法，以解决上述背景技术提出的在大数据应用场景，日志数据、数据库备份，物联网行业采集数据，监控行业音视频文件，医疗行业影像，企业组织政府档案资料等场景中，传统的存储方案不仅维护困难，成本也相对高昂的问题。

为实现上述目的，本发明提供如下技术方案：一种海量对象存储的在线扩容方法，包括以下步骤：

S1、用户通过restfulAPI创建(bucket)存储桶，后端会同步创建一个或多个索引(index)对象，用于保存该存储桶下的对象列表；

S11、用户通过restfulAPI查询(bucket)存储桶对象列表时，后端会使用归并排序输出存储桶内对象，排序算法随着对象规模增大，会增加计算量和内存，数据IO性能受到严重影响；

S2、单集群下对zone(使用zone来管理用户数据的存储位置，zone由一组存储池组成)添加OSD的方式扩容实现扩容存储池(pools)；

S21、用户通过restfulAPI配置副本级别容错域，即让同一个replica的数据，放在不同的磁盘/机器/Rack/机房；

S22、后端会按照hash均衡算法重新计算容错域对象分布，集群出现迁移重平衡，数据IO开始大面积波动；

S23、待集群重新平衡后用户通过restfulAPI访问数据正常；

S24、当数据量持续增加，用户继续按照2-1持续扩容，此时就需要增加容错域对象组数量，集群出现迁移重平衡，数据访问开始大面积波动；

S3、多集群扩容方式扩bucket(多bucket)；

S31、用户创建新集群，通过restfulAPI创建新的(bucket)存储桶；

S32、用户将后续的数据放置到新的bucket存储桶，用户业务模型适配多个bucket以正常访问业务；

S33、用户通过restfulAPI发起数据访问时，通过遍历各个bucket查找数据或者用户自己保存数据分片元数据，查找目标数据对应的bucket；

S34、用户通过zone与zone之间的同步机制，实现不同步数据达到扩容目的，但该方法必须同步元数据，元数据同步流程随着对象规模增大，会增加计算量和内存，数据IO性能受到严重影响。

优选的，所述给用户侧提供了单个存储桶支持亿级以上非结构化数据的存储访问，且用户侧RESTful接口兼容原有标准接口。

优选的，所述基于一致性hash算法的RingSet及UnionBucket可扩展性强。

与现有技术相比，本发明的有益效果是：该海量对象存储的在线扩容方法优点有：

(1)扩容过程中，数据不会随着节点扩容/缩容而导致数据重新平衡，该过程不会触发数据迁移，业务数据访问不受影响；

(2)扩容过程中，能自动的调配多集群资源，提高资源利用率，整体业务系统抗干扰能力增强；

(3)解决了亿级以上数据场景下由于单集群元数据保存在kv数据库中导致的数据库实例过大，当在触发compaction时对底层性能和稳定性产生的巨大波动难题；

(4)扩容后原有S3接口查询存储桶对象的方式从遍历查找变为hash计算，极大的减少了路由条数和寻址效率；

(5)扩容后能够根据后端资源的使用率，灵活调整多个集群的负载，提高整体资源利用率；

附图说明

图1为本发明一种海量对象存储的在线扩容方法整体架构示意图；

图2为本发明一种海量对象存储的在线扩容方法业务处理流程示意图；

图3为本发明一种海量对象存储的在线扩容方法核心算法工作流程示意图；

图4为本发明一种海量对象存储的在线扩容方法弹性伸缩流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种海量对象存储的在线扩容方法，以下对上述方法进行详细介绍：

S23、待集群重新平衡后用户通过restfulAPI访问数据正常；

S3、多集群扩容方式扩bucket(多bucket)；

S31、用户创建新集群，通过restfulAPI创建新的(bucket)存储桶；

给用户侧提供了单个存储桶支持亿级以上非结构化数据的存储访问，且用户侧RESTful接口兼容原有标准接口。

基于一致性hash算法的RingSet及UnionBucket可扩展性强。

本发明实施例提供一种海量对象存储的在线扩容方法，请参阅图1-4，包括以下工作原理及操作步骤：

步骤1：对象存储客户端调用RESTfulAPI接口，发起数据访问，UnionBucket根据请求参数进行用户认证和资源鉴权；

步骤2：UnionBucket根据请求参数中携带的RingSetToken按照指定好的hash算法进行路由计算，在算出zone对应的bucket的位置后，将请求转发到对应的集群bucket，按后端的认证要求，需要对request内容进行重新签名；

步骤3：后端处理完对应的数据请求，回复UnionBucket后端完成数据请求服务；

步骤4：UnionBucket收到响应消息后修改后端的Response信息，返回最终结果给客户端，完成IO操作；

步骤5：后端是将多个bucket聚合成一个RingSet，作为最小的RingSet资源组提供服务，弹性伸缩也是按照RingSet来配置资源的；

步骤6：第一次创建集群时，由默认配置个数的buckets组成RingSet0，UnionBucket按照设定的扩容周期，检测当前用户存储桶配额使用，如果之前的RingSet0对应的bucket1～4配额未达到使用率的设定额度，则UnionBucket会新建一个RingSet1,同时将RingSet1指向bucket1～4，从而实现底层资源的复用，该过程不触发数据迁移，业务数据访问不受影响；

步骤7：UnionBucket按照设定的扩容周期，检测当前用户存储桶配额使用，如果之前的RingSet0对应的bucket1～4配额超过使用率的设定额度，则UnionBucket会新建一个RingSet2,RingSet23同时指向bucket5～6，从而实现底层资源的在线扩容，该过程不触发数据迁移，业务数据访问不受影响；

步骤8：用户每次发起数据访问时，会从UnionBucket查询最新的RingSetToken,获取RingSetToken后只需要缓存在本地，定期向UnionBucket更新查询。

基于分布式对象存储的一种海量非结构化数据存储的在线扩容方法，其目的是为了解决在后端扩容时，不产生数据迁移，同时能够根据后端资源，弹性伸缩多个集群的、均衡负载，提高资源整体利用率，另外从根本上解决了，在亿级以上数据场景下，存储桶与对象的寻址无需遍历查找，只需通过计算即可准确获取存储地址，提高了数据访问效率；

在大数据应用场景，日志数据、数据库备份，物联网行业采集数据，监控行业音视频文件，医疗行业影像，企业组织政府档案资料等场景中，传统的存储方案不仅维护困难，成本也相对高昂，用户通过将这些数据归档至对象存储，可有效降低存储的维护成本，而在这种多样化的业务场景下，需要对象存储满足为大数据分析、AI训练推断等场景提供海量的数据集支持，所以后端存储资源的频繁扩容资源池，弹性调度，高效利用将显得日趋重要。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量对象存储的在线扩容方法，其特征在于，包括以下步骤：

S23、待集群重新平衡后用户通过restfulAPI访问数据正常；

S3、多集群扩容方式扩bucket(多bucket)；

S31、用户创建新集群，通过restfulAPI创建新的(bucket)存储桶；

2.一种海量对象存储的在线扩容方法，其特征在于，包括以下步骤：所述给用户侧提供了单个存储桶支持亿级以上非结构化数据的存储访问，且用户侧RESTful接口兼容原有标准接口。

3.一种海量对象存储的在线扩容方法，其特征在于，包括以下步骤：所述基于一致性hash算法的RingSet及UnionBucket可扩展性强。