CN109669916A - 一种基于cmsp和kudu的分布式对象存储架构和平台 - Google Patents

一种基于cmsp和kudu的分布式对象存储架构和平台 Download PDF

Info

Publication number
CN109669916A
CN109669916A CN201811569819.4A CN201811569819A CN109669916A CN 109669916 A CN109669916 A CN 109669916A CN 201811569819 A CN201811569819 A CN 201811569819A CN 109669916 A CN109669916 A CN 109669916A
Authority
CN
China
Prior art keywords
object storage
storage
metadata
cmsp
kudu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811569819.4A
Other languages
English (en)
Other versions
CN109669916B (zh
Inventor
李朝铭
邓光超
崔洪志
王建华
林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201811569819.4A priority Critical patent/CN109669916B/zh
Publication of CN109669916A publication Critical patent/CN109669916A/zh
Application granted granted Critical
Publication of CN109669916B publication Critical patent/CN109669916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于CMSP和KUDU的分布式对象存储架构和平台,涉及存储架构技术领域,包括对象存储服务端和对象存储客户端。对象存储服务端包括对象存储节点、对象存储管理节点、对象存储元数据节点、对象存储元数据管理节点四部分,若干个对象存储元数据节点组成对象存储元数据集群。对象存储客户端包括一组对象存储API。对象存储节点、对象存储管理节点、对象存储元数据管理节点三部分分别基于CMSP实现,对象存储元数据节点基于KUDU实现。对象存储应用通过对象存储API与对象存储管理节点、对象存储元数据集群相连,并最终连接到某个具体的对象存储节点,通过该具体的对象存储节点进行对象的存储、获取、更新、命名或删除操作,实现对象存储大容量平滑扩展。

Description

一种基于CMSP和KUDU的分布式对象存储架构和平台
技术领域
本发明涉及存储架构技术领域,具体的说是一种基于CMSP和KUDU的分布式对象存储架构和平台。
背景技术
大数据分为结构化数据、半结构化数据和非结构化数据,而半结构化数据最终存储时要么转换为结构化数据,要么以非结构化数据存在,非结构化数据在存储量(空间占用)方面远远大于结构化数据,因此非结构化数据的存储技术对存储利用大数据非常关键。
现有的非结构化数据有的分散存储于不同主机上文件系统中,分散存储不利于管理和利用;有的存储于分布式文件系统中,如HDFS,逻辑上统一管理,但HDFS架构上扩展性有缺陷,不能处理太大规模的非结构化数据,另外不适合于对于迟延要求较低的场景。
现有的非结构化数据也可以存储于对象存储中,目标数据从对象中进行读写,然后通过键值获取对应的对象,整个存储的形式为key-object的存储方式,较典型的例子:开源的Ceph、亚马逊的S3存储和阿里云的OSS存储,对象存储可以管理更多的非结构化数据,不同的对象存储因技术不同也各有优缺,如一些不能够平滑扩展、成本问题、较高迟延等。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于CMSP和KUDU的分布式对象存储架构和平台,在普通硬件条件下以较低成本实现对象存储高可靠、高性能和大容量平滑扩展。
本发明的一种基于CMSP和KUDU的分布式对象存储架构和平台,解决上述技术问题采用的技术方案如下:
一种基于CMSP和KUDU的分布式对象存储架构和平台,包括对象存储服务端和对象存储客户端。
对象存储服务端包括对象存储节点、对象存储管理节点、对象存储元数据节点、对象存储元数据管理节点四部分,若干个对象存储元数据节点组成对象存储元数据集群。
对象存储客户端包括一组对象存储API。
对象存储节点、对象存储管理节点、对象存储元数据管理节点三部分分别基于CMSP实现,对象存储元数据节点基于KUDU实现。
对象存储应用通过对象存储API与对象存储管理节点、对象存储元数据集群相连,并最终连接到某个具体的对象存储节点,通过该具体的对象存储节点进行对象的存储、获取、更新、命名或删除操作。
可选的,所涉及对象存储节点是实际的对象存储服务器,每个对象存储节点包括至少一个Topic、至少一个容器和一组对象存储服务。
至少一个Topic用于缓存对象存储客户端发过来待存的对象数据,还可根据需求配置若干Topic用于复制缓存的对象数据,复制功能利用CMSP的复制功能实现,复制的缓存对象数据可发送到其它对象存储节点进行备份,其中,一个对象可以有多个副本,并可异地存储,以保证对象存储的高可用,发送功能利用CMSP的发送功能实现。
至少一个容器用于实际存储对象数据,容器可为一个文件系统文件、一个逻辑卷、一块裸盘、一个LUN、一块内存等不同的介质,对象数据可靠地写入容器中,即使服务器发生掉电故障,已写入的对象数据也不会丢失(不包括易失的内存容器);对象写入容器时,可以不依赖操作系统的文件系统,采用非缓冲方式直接写入容器中,性能更高且可靠,对内存的需求也很少。
一组对象存储服务包括容器的创建、增加、删除、监控,包括对象的存储、获取、更新、更名、删除、判断对象是否存在、元数据生成各项服务。
可选的,所涉及对象存储节点基于CMSP实现;每个对象存储节点可支持PB级存储,对象存储节点在逻辑上独立,对象存储平台由若干个对象存储节点组成,对象存储节点数目可线性动态扩展到上万个,也可以根据需要动态减少。
可选的,所涉及对象存储管理节点基于CMSP实现;对象存储管理节点提供对象存储节点的注册功能,给对象存储客户端提供对象路由功能,通过对象存储管理节点对象存储客户端不需要关心对象具体存储在哪个对象存储节点上,少部分对象存储节点失效不会影响对象存储客户端操作。
可选的,所涉及对象存储元数据节点包含所有对象存储节点所有对象的元数据,具体是通过kudu分布式数据库实现的,对象存储元数据存储于kudu中。kudu可以存储上万亿条对象存储元数据信息,且具备高可靠性、高可用性和高性能。利用kudu管理元数据克服了Hadoop管理元数据的不足,利用普通的硬件和不需要太多的内存就可高性能地支持EB级甚至ZB级的对象存储的元数据管理。
可选的,所涉及对象存储元数据管理节点基于CMSP实现;对象存储元数据管理节点是将来自各个对象存储节点的元数据实时写入对象存储元数据节点集群中。对象存储元数据管理节点具备极高的性能,每个节点每秒钟可处理新增上百万条元数据,且可以动态扩展到多个对象存储元数据管理节点。
可选的,所涉及对象存储API供对象存储应用调用;对象存储API包括对象的上传、下载、更新、更名、查询功能,对象存储API还包括连接池功能,使对象存储应用调用API时简单高效。
可选的,所涉及对象存储客户端可以有很多个,对象存储服务端支持成千上万的对象存储客户端并发访问。
可选的,所涉及对象存储元数据节点包含所有对象存储节点所有对象的元数据,存储架构和平台还支持利用其它分布式数据库进行对象存储元数据存取。
本发明的一种基于CMSP和KUDU的分布式对象存储架构和平台,与现有技术相比具有的有益效果是:
本发明提供了一种基于CMSP和KUDU的分布式对象存储架构和平台,在成熟的CMSP中间件和分布式数据库KUDU基础上,增加对象存储服务,可以以较低成本在保持高可靠的情况下支持对象存储从PB到EB甚至ZB级的平滑扩展,并实现更高的性能。
附图说明
附图1是本发明的结构原理流程框图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清查、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。
实施例一:
参考附图1,本实施例提出一种基于CMSP和KUDU的分布式对象存储架构和平台,包括对象存储服务端和对象存储客户端。
对象存储服务端包括对象存储节点、对象存储管理节点、对象存储元数据节点、对象存储元数据管理节点四部分,若干个对象存储元数据节点组成对象存储元数据集群。
对象存储客户端包括一组对象存储API。
对象存储节点、对象存储管理节点、对象存储元数据管理节点三部分分别基于CMSP实现,对象存储元数据节点基于KUDU实现。
对象存储应用通过对象存储API与对象存储管理节点、对象存储元数据集群相连,并最终连接到某个具体的对象存储节点,通过该具体的对象存储节点进行对象的存储、获取、更新、命名或删除操作。
结合附图1,本实施例以三个对象存储节点、一组对象存储API包含四个对象存储API为例。
在本实施例中,所涉及对象存储节点是实际的对象存储服务器,每个对象存储节点包括至少一个Topic、至少一个容器和一组对象存储服务。
至少一个Topic用于缓存对象存储客户端发过来待存的对象数据,还可根据需求配置若干Topic用于复制缓存的对象数据,复制功能利用CMSP的复制功能实现,复制的缓存对象数据可发送到其它对象存储节点进行备份,其中,一个对象可以有多个副本,并可异地存储,以保证对象存储的高可用,发送功能利用CMSP的发送功能实现。
至少一个容器用于实际存储对象数据,容器可为一个文件系统文件、一个逻辑卷、一块裸盘、一个LUN、一块内存等不同的介质,对象数据可靠地写入容器中,即使服务器发生掉电故障,已写入的对象数据也不会丢失(不包括易失的内存容器);对象写入容器时,可以不依赖操作系统的文件系统,采用非缓冲方式直接写入容器中,性能更高且可靠,对内存的需求也很少。
一组对象存储服务包括容器的创建、增加、删除、监控,包括对象的存储、获取、更新、更名、删除、判断对象是否存在、元数据生成各项服务。
在本实施例中,所涉及对象存储节点基于CMSP实现;每个对象存储节点可支持PB级存储,对象存储节点在逻辑上独立,对象存储平台由若干个对象存储节点组成,对象存储节点数目可线性动态扩展到上万个,也可以根据需要动态减少。
在本实施例中,所涉及对象存储管理节点基于CMSP实现;对象存储管理节点提供对象存储节点的注册功能,给对象存储客户端提供对象路由功能,通过对象存储管理节点对象存储客户端不需要关心对象具体存储在哪个对象存储节点上,少部分对象存储节点失效不会影响对象存储客户端操作。
在本实施例中,所涉及对象存储元数据节点包含所有对象存储节点所有对象的元数据,具体是通过kudu分布式数据库实现的,对象存储元数据存储于kudu中。kudu可以存储上万亿条对象存储元数据信息,且具备高可靠性、高可用性和高性能。利用kudu管理元数据克服了Hadoop管理元数据的不足,利用普通的硬件和不需要太多的内存就可高性能地支持EB级甚至ZB级的对象存储的元数据管理。
在本实施例中,所涉及对象存储元数据管理节点基于CMSP实现;对象存储元数据管理节点是将来自各个对象存储节点的元数据实时写入对象存储元数据节点集群中。对象存储元数据管理节点具备极高的性能,每个节点每秒钟可处理新增上百万条元数据,且可以动态扩展到多个对象存储元数据管理节点。
在本实施例中,所涉及对象存储API供对象存储应用调用;对象存储API包括对象的上传、下载、更新、更名、查询功能,对象存储API还包括连接池功能,使对象存储应用调用API时简单高效。
在本实施例中,所涉及对象存储客户端可以有很多个,对象存储服务端支持成千上万的对象存储客户端并发访问。
在本实施例中,所涉及对象存储元数据节点包含所有对象存储节点所有对象的元数据,存储架构和平台还支持利用其它分布式数据库进行对象存储元数据存取。
本发明提供了一种基于CMSP和KUDU的分布式对象存储架构和平台,在成熟的CMSP中间件和分布式数据库KUDU基础上,增加对象存储服务,可以以较低成本在保持高可靠的情况下支持对象存储从PB到EB甚至ZB级的平滑扩展,并实现更高的性能。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围,本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (9)

1.一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,包括对象存储服务端和对象存储客户端;
所述对象存储服务端包括对象存储节点、对象存储管理节点、对象存储元数据节点、对象存储元数据管理节点四部分,若干个对象存储元数据节点组成对象存储元数据集群;
所述对象存储客户端包括一组对象存储API;
所述对象存储节点、对象存储管理节点、对象存储元数据管理节点三部分分别基于CMSP实现,所述对象存储元数据节点基于KUDU实现;
对象存储应用通过对象存储API与对象存储管理节点、对象存储元数据集群相连,并最终连接到某个具体的对象存储节点,通过该具体的对象存储节点进行对象的存储、获取、更新、命名或删除操作。
2.根据权利要求1所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储节点是实际的对象存储服务器,每个对象存储节点包括至少一个Topic、至少一个容器和一组对象存储服务;
至少一个Topic用于缓存对象存储客户端发过来待存的对象数据,还可根据需求配置若干Topic用于复制缓存的对象数据,复制功能利用CMSP的复制功能实现,复制的缓存对象数据可发送到其它对象存储节点进行备份,其中,一个对象可以有多个副本,并可异地存储,以保证对象存储的高可用,发送功能利用CMSP的发送功能实现;
至少一个容器用于实际存储对象数据,容器可为一个文件系统文件、一个逻辑卷、一块裸盘、一个LUN、一块内存等不同的介质,对象写入容器时,可以不依赖操作系统的文件系统,采用非缓冲方式直接写入容器中;
一组对象存储服务包括容器的创建、增加、删除、监控,包括对象的存储、获取、更新、更名、删除、判断对象是否存在、元数据生成各项服务。
3.根据权利要求2所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储节点基于CMSP实现;每个对象存储节点可支持PB级存储,对象存储节点在逻辑上独立,对象存储平台由若干个对象存储节点组成,对象存储节点数目可线性动态扩展到上万个,也可以根据需要动态减少。
4.根据权利要求1所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储管理节点基于CMSP实现;对象存储管理节点提供对象存储节点的注册功能,给对象存储客户端提供对象路由功能,通过对象存储管理节点对象存储客户端不需要关心对象具体存储在哪个对象存储节点上,少部分对象存储节点失效不会影响对象存储客户端操作。
5.根据权利要求1所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储元数据节点包含所有对象存储节点所有对象的元数据,具体是通过kudu分布式数据库实现的,对象存储元数据存储于kudu中。
6.根据权利要求5所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储元数据管理节点基于CMSP实现;对象存储元数据管理节点是将来自各个对象存储节点的元数据实时写入对象存储元数据节点集群中。
7.根据权利要求1所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储API供对象存储应用调用;对象存储API包括对象的上传、下载、更新、更名、查询功能,对象存储API还包括连接池功能,使对象存储应用调用API时简单高效。
8.根据权利要求1或7所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储客户端可以有很多个,对象存储服务端支持成千上万的对象存储客户端并发访问。
9.根据权利要求1所述的一种基于CMSP和KUDU的分布式对象存储架构和平台,其特征在于,对象存储元数据节点包含所有对象存储节点所有对象的元数据,存储架构和平台还支持利用其它分布式数据库进行对象存储元数据存取。
CN201811569819.4A 2018-12-21 2018-12-21 一种基于cmsp和kudu的分布式对象存储架构和平台 Active CN109669916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811569819.4A CN109669916B (zh) 2018-12-21 2018-12-21 一种基于cmsp和kudu的分布式对象存储架构和平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811569819.4A CN109669916B (zh) 2018-12-21 2018-12-21 一种基于cmsp和kudu的分布式对象存储架构和平台

Publications (2)

Publication Number Publication Date
CN109669916A true CN109669916A (zh) 2019-04-23
CN109669916B CN109669916B (zh) 2023-06-06

Family

ID=66145796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811569819.4A Active CN109669916B (zh) 2018-12-21 2018-12-21 一种基于cmsp和kudu的分布式对象存储架构和平台

Country Status (1)

Country Link
CN (1) CN109669916B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516031A (zh) * 2019-08-28 2019-11-29 上海欣能信息科技发展有限公司 一种电力非结构化数据的存储管理系统及存储管理方法
CN111191094A (zh) * 2019-12-31 2020-05-22 深圳创新科技术有限公司 一种ceph存储对象搜索方法、装置及存储设备
CN111460436A (zh) * 2020-04-02 2020-07-28 广州市品高软件股份有限公司 一种基于区块链的非结构化数据操作方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100075626A1 (en) * 2008-09-25 2010-03-25 Mark Titus Geo-redundant and high reliability commercial mobile alert system (CMAS)
CN106777265A (zh) * 2016-12-28 2017-05-31 新奥科技发展有限公司 一种业务数据的处理方法及装置
CN107547654A (zh) * 2017-09-12 2018-01-05 郑州云海信息技术有限公司 一种分布式对象存储集群、部署、服务方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100075626A1 (en) * 2008-09-25 2010-03-25 Mark Titus Geo-redundant and high reliability commercial mobile alert system (CMAS)
CN106777265A (zh) * 2016-12-28 2017-05-31 新奥科技发展有限公司 一种业务数据的处理方法及装置
CN107547654A (zh) * 2017-09-12 2018-01-05 郑州云海信息技术有限公司 一种分布式对象存储集群、部署、服务方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
耿超等: "基于EAV模型和Solr架构的云制造资源发现方法", 《系统仿真学报》 *
魏中贺等: "基于云制造的数据挖掘研究", 《贵州大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516031A (zh) * 2019-08-28 2019-11-29 上海欣能信息科技发展有限公司 一种电力非结构化数据的存储管理系统及存储管理方法
CN111191094A (zh) * 2019-12-31 2020-05-22 深圳创新科技术有限公司 一种ceph存储对象搜索方法、装置及存储设备
CN111460436A (zh) * 2020-04-02 2020-07-28 广州市品高软件股份有限公司 一种基于区块链的非结构化数据操作方法和系统

Also Published As

Publication number Publication date
CN109669916B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Padhy et al. RDBMS to NoSQL: reviewing some next-generation non-relational database’s
US10740287B2 (en) System and method of managing service oriented data
JP6009097B2 (ja) 分散オブジェクトストレージエコシステムにおけるコンテンツとメタデータの分離
US10657154B1 (en) Providing access to data within a migrating data partition
CN103793534B (zh) 分布式文件系统及均衡元数据存储和访问负载的实现方法
Zhao et al. Distributed data provenance for large-scale data-intensive computing
CN104462185B (zh) 一种基于混合结构的数字图书馆云存储系统
CN109669916A (zh) 一种基于cmsp和kudu的分布式对象存储架构和平台
KR20180055952A (ko) 데이터베이스 관리 시스템에서의 데이터 복제 기법
CN103020315A (zh) 一种基于主从分布式文件系统的海量小文件存储方法
CN108604164A (zh) 用于存储区域网络协议存储的同步复制
CN103888499A (zh) 一种分布式对象处理的方法及系统
CN106066896A (zh) 一种应用感知的大数据重复删除存储系统及方法
CN104408111A (zh) 一种删除重复数据的方法及装置
CN107800808A (zh) 一种基于Hadoop架构的数据存储系统
US11907261B2 (en) Timestamp consistency for synchronous replication
CN106254466A (zh) 基于局域网的hdfs分布式文件共享方法
CN105843879A (zh) 基于光盘的异构类型数据库存储系统及利用该系统的方法
CN105138275B (zh) 一种Lustre存储系统数据共享方法
CN103501319A (zh) 一种低延迟的面向小文件的分布式存储系统
CN107026876A (zh) 一种文件数据访问系统及方法
Rupprecht et al. SwiftAnalytics: Optimizing object storage for big data analytics
Wu et al. Big data storage and data models
CN108509507A (zh) 统一入口的账户管理系统及其实现方法
Wan et al. A simple mass storage system for the SRB data grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant