CN106993064A

CN106993064A - 一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用

Info

Publication number: CN106993064A
Application number: CN201710410439.5A
Authority: CN
Inventors: 张卫品; 戴鸿君; 孙宇清
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-06-03
Filing date: 2017-06-03
Publication date: 2017-07-28

Abstract

本发明涉及一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用。本发明基于Openstack云平台，结合CouchDB技术和Openstack的可扩展的存储方案。以Openstack云平台作为基础设施，在该平台上构建CouchDB数据库集群。一方面，充分利用Openstack云平台组件和虚拟化技术构建良好的数据存储平台，满足可扩展性的需求；另一方面，利用CouchDB数据库的存储优势，构建数据库集群，通过复制机制同步数据，满足一致性需求。

Description

一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用

技术领域

本发明涉及一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用，属于云环境下存储优化的技术领域。

背景技术

云存储是在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念，也是云计算应用在存储领域的产物。云存储通过集群应用、网格技术或分布式系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协调工作，共同对外提供数据存储和业务访问功能，从而保证了数据的安全性，并节约存储空间。云存储系统的结果模型由4层组成：

(1)存储层：是云存储最基础的部分。存储设备可以是FC光纤通道，可以是NAS和ISCSI等IP存储设备，也可以是SAS等DAS存储设备。云存储中的存储设备往往数量庞大且分布在不同地域，彼此通过广域网、互联网连接在一起。

(2)基础管理层：这是云存储最核心的部分，也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术，实现云存储中多个存储设备之间的协同工作，使多个存储设备可以对外提供同一种服务，并提供更大更强更好的数据访问性能。

(3)应用接口层：这是云存储中最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型，开发不同的应用服务接口，提供不同的应用服务。比如视频监控应用平台、网络硬盘应用平台、远程数据备份应用平台等。

(4)访问层：任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统，享受云存储服务。云存储运营单位不同，云存储提供的访问类型和访问手段也不同。

Openstack是一种开源的基础设施及服务的云计算平台。2010年7月以Apache2.0许可授权开源，源代码来自于NASA的Nebula云平台和Rackspace的分布式云存储(Swift)项目。从最早的Essex版本，Openstack社区已经推出了14个版本，其对应的组件也不断完善。目前，Openstack的最新的版本Newton由Nova、Glance、Cinder、Keystone、Horizon、Netron等六个核心模块组成。一方面，这些模块分别独立地提供各自不同的基础服务功能。

另一个方面，各个组件之间又互相联系，共同合作，旨在为所有类型的云提供简单可实现、大规模可扩展的云主机管理方案。

CouchDB(Cluster Of Unreliable Commodity Hardware)，是一个开源的面向文档的数据库管理系统，可以通过RESETful JavaScript Object Notation(JSON)API访问。具有高度可伸缩性，提供了高可用性和高可靠性，即使运行在容易出现故障的硬件上也是如此。CouchDB是基于JSON和REST的面向文档的分布式数据库，其最大的意义在于它是一个面向web应用的新一代存储系统。具有如下特点：

(1)CouchDB是分布式的数据库，它可以把存储系统分布到n台物理节点上，并且很好的协调和同步节点之间的数据读写一致性。对于基于web的大规模应用文档应用，分布式可以让它不必像传统的关系数据库那样分库拆表，在应用代码层进行大量的改动。

(2)CouchDB是面向文档的数据库，存储半结构化的数据，比较类似lucene的index结构，特别适合存储文档，因此很适合CMS、电话本、地址等应用，在这些应用场合，文档数据库比关系数据库要更加方便。

(3)CouchDB支持REST API，可以让用户通过javaScript来操作CouchDB数据库，也可以使用javaScript编写查询语句，这样开发的系统操作会很简单和方便。

CouchDB文档数据以JSON格式的文档存储在数据库中，每个文档通过唯一ID和版本号标识。因此，CouchDB可以在同一数据库中存储任意格式的数据文档，满足不同格式的数据存储需求。

随着互联网的发展与数据量的增加，越来越多的企业和用户利用云存储解决数据存储问题，网络中的数据呈指数级增长，这些数据来自不同的领域，有着各种不同格式。对于这样的格式多样的海量数据而言，传统的集中式存储方案已经无法满足现有的存储需求。采用分布式存储技术，通过添加节点的方式动态伸缩以保证可扩展性，已经成为必然的选择。NoSQL做为云存储的解决方法之一，没有表结构和数据类型的约束，提供数据实时存储、检索和维护，满足海量数据存储的并发性、高可用性和可扩展性，成为重点考虑的对象。作为NoSQL的典型代表，CouchDB既可以扩展移植到移动设备上，同时也支持分布式节点的精确同步复制，确保了大量数据的存储和查询性能。然而，CouchDB结构简单，不支持自主扩展，可伸缩性差，应用过程中可能由于资源不足导致节点失效。所以，寻找一种既能够充分利用CouchDB数据库的优越性，同时也可以克服其缺点的云存储方案，十分必要。

发明内容

针对现有技术的不足，本发明提供一种基于Openstack云平台实现海量数据可伸缩性存储的系统。

本发明还提供一种上述存储系统的构建方法。

本发明还提供一种利用上述系统进行数据检索的方法。

发明概述：

针对传统的集中式存储方案已经无法满足现有的存储需求，本发明提出了一种基于Openstack云平台，结合CouchDB技术和Openstack的可扩展的存储方案。其核心是以Openstack云平台作为基础设施，在该平台上构建CouchDB数据库集群。一方面，充分利用Openstack云平台组件和虚拟化技术构建良好的数据存储平台，满足可扩展性的需求；另一方面，利用CouchDB数据库的存储优势，构建数据库集群，通过复制机制同步数据，满足一致性需求。

本发明的技术方案为：

一种基于Openstack云平台实现海量数据可伸缩性存储的系统，包括基础设施模块、数据存储模块和数据检索模块；基础设施模块对计算资源、存储资源和网络资源进行管理并对用户身份进行认证；数据存储模块实现数据弹性存储和维护；数据弹性存储通过构建CouchDB数据库集群实现，所述CouchDB数据库集群利用openstack云平台提供的云主机构建，采用扁平化结构部署；每台云主机构建一个CouchDB数据库，提供数据存储与检索功能；所述openstack云平台上的云主机通过CouchDB的复制机制实现对等。所述复制机制，是涉及到两个数据库之间的一种增量处理方法，旨在将源数据库中所有活跃的文档复制到目标数据库中，从而实现各CouchDB实例之间互相同步。

根据本发明优选的，CouchDB的复制机制对于实现分布式数据复制包括一次性复制和持久性复制；一次性复制发送POST请求到指定数据库的_replicate URL；其中，请求题为JSON文档，包含以下内容：

POST/_replicate HTTP/1.1

{“source”:“example-database”,“target”:“http://example.org/example-database”}；

source与target分别表示复制的源数据库和目的数据库。其中，可以只使用数据库名字表示一个本地数据库，而使用一个完整的URL地址来表示一个远程数据库。

根据本发明优选的，基础设施模块包括主控制节点和计算节点；主控制节点管理和监控整个Openstack云平台，提供用户界面功能、RESTful API功能、网络资源管理功能和安全认证功能；计算节点为用户提供云主机资源和存储资源，提供云主机管理功能、虚拟网络管理功能和数据存储功能。利用Openstack各组件间的松耦合的特点，基础设施模块结构的设计包括两类节点。主控制节点不参与云主机、存储设备及计算的实际操作。用户界面功能使得用户能够更方便、更简单地使用和操作。

进一步优选的，计算节点包括KVM模块、neutron模块和nova模块；通过配置计算节点的nova模块，在nova.conf配置文件中添加主控制节点的IP及主控制节点中keystone的认证令牌tenant，实现主控制节点对计算节点的控制操作。

进一步优选的，所述安全认证功能包括openstack权限管理、用户身份认证、组件服务的注册和访问端点的注册。

根据本发明优选的，数据检索模块通过CouchDB视图实现文档检索，CouchDB视图通过JavaScript函数定义，并保存于design documents文档中；数据检索模块通过MapReduce运行。CouchDB视图的功能与关系型数据库中的视图功能类似，用于动态地聚合和呈现同一个数据库中的数据，CouchDB中对数据的查询和索引在查询视图的过程中同时完成，即对数据的查询过程也是一个索引过程。

进一步优选的，CouchDB视图要完成的文档过滤和索引描述，在design documents中的map和reduce函数中定义；其中，Map函数实现对数据的过滤或者查询，reduce函数实现对Map函数返回结果的聚合。CouchDB中的视图均是通过JavaScript进行保存，并且对design documents的写法有严格的要求。design documents文档与普通的JSON文档一样，可以存储在数据库中并被复制。

一种上述存储系统的构建方法，包括步骤如下：

A、控制节点构建：

A1、添加keystone；keystone用于组件注册；组件注册的具体方法是，通过#keystone-create命令在keystone上创建相应的user、service、endpoint，并获取tenant令牌；keystone是Openstack中用于身份认证的组件，其他所有的组件要发挥其应有的作用，均需要在安装成功后向keystone进行注册；

A2、Nova的安装与配置；Nova负责管理Openstack云平台的计算资源；Nova提供自动创建和管理云主机的功能；Nova安装完成后，配置Nova的配置文件nova.conf，添加keystone的认证标识；Nova是Openstack Compute的代号，是Openstack的重要组成部分，也是IaaS的重要组成部分，用于管理平台所有资源。

A3、安装glance镜像；glance镜像提供虚拟机镜像的查询与存储服务；glance镜像包括组件glance-api和组件glance-registry；组件glance-api接受和反馈用户的镜像请求；组件glance-registry存储上传的虚拟机镜像；组件glance-registry提供Nova创建并启动云主机时用到的虚拟机镜像；glance镜像完成相应的配置文件glance-api.conf和glance-registry.conf，得到keystone的认证；openstack平台上启动是实例均是虚拟机，而虚拟机需要得到启动，必须有相应的系统镜像。

A4、添加Neutron网络管理模块，完成虚拟网络服务；虚拟网络服务也需要在keystone上进行注册；

B、CouchDB数据库集群搭建：

B1、CouchDB数据库集群在分布式环境下，通过CouchDB Lounge实现；Lounge包括组件Dumbproxy和组件Smartproxy；组件Dumbproxy处理文档GET和文档PUT请求，组件Smartproxy负责视图的处理；Lounge为每个数据库节点分配一个keyspace，Lounge通过用户发来的HTTP请求中的URL获得相应的文档ID，同时映射到每个数据库节点上；CouchDBLounge是一个基于代理的分区和集群框架；Lounge为每个数据库节点分配一个keyspace，用户可以向集群中尽可能多地添加主机；Lounge通过用户发来的HTTP请求中的URL获得相应的文档ID，同时映射到每个数据库节点上，从而保证了分配的一致性；

B2、CouchDB数据库集群使用冗余存储的方法实现负载均衡；利用CouchDB数据库集群的复制机制实现负载均衡，对数据进行2～3个备份，将数据的冗余性进行封装；将数据的冗余性进行封装使得在集群的上层可以将备份的数据作为一个整体的单元来对待，而让逻辑分区自己管理数据冗余和数据恢复。这样的操作，将一个逻辑上单一的数据库分成了多个部分，而这些部分可以分布在不同的云主机上。

根据本发明优选的，所述存储系统的构建方法还包括步骤A5，添加Horizon，Horizon给用户和管理员提供可视化的界面。这样可以通过界面完成虚拟机、网络的查看和创建。

一种利用上述系统进行数据检索的方法，包括步骤如下：

1)用户端通过用户界面发送HTTP请求的URL，请求检索某数据库、文档或视图；

2)CouchDB Lounge架构的组件Dumbproxy接受到相应的用户请求POST；

3)Map步骤：对用户请求执行map操作，即运行Map函数，产生包含文档ID及key/value对，用于reduce函数的输入；

4)Reduce步骤：对Map函数产生的结果执行reduce函数，产生一个单独的，对所有value的化简结果；其中，CouchDB本身包含三个内嵌的reduce函数：_count，_sum和_stats，分别返回Map结果集中值的个数、求和结果及统计结果；

5)将查询结果通过Smartproxy合并后,发送给客户端，完成数据检索。

根据本发明优选的，所述Map函数由java实现。

本发明的有益效果为：

1、本发所述基于Openstack云平台实现海量数据可伸缩性存储的系统，基于Openstack平台，结合CouchDB数据库集群实现一种弹性存储的方案，实现了对海量的、不同格式的数据的灵活存储和并行处理；其中，底层基础设施模块包括控制节点，负责管理和监控整个Openstack云平台，以及若干个计算节点执行具体的操作；如果对平台物理资源进行扩展，仅增加计算节点，并进行相应的配置即可，实现根据需求对资源进行分配和调度，满足可扩展性需求是一种可靠灵活、可扩展的数据存储方案；

2、本发所述基于Openstack云平台实现海量数据可伸缩性存储的系统，将CouchDB数据库构建在强大的B-树存储引擎之上，B-树存储引擎对CouchDB中的数据进行排序，并提供一种能够在对数均摊时间内执行搜索、插入和删除操作的机制；同时，CouchDB中的MapReduce特性生成键/值对，CouchDB将它们插入到B-树引擎中，并根据它们的键进行排序，实现通过键进行高效查找，并提高B-树中的操作性能；

3、本发所述基于Openstack云平台实现海量数据可伸缩性存储的系统，具有高可靠性和可用性；在实际应用中，传统存储系统可能发生硬件故障、系统崩溃、网络断开等异常并导致数据丢失；而构建的CouchDB数据库集群采用的复制机制，不仅实现多主机间的数据同步，还可在计算节点出现故障后，快速启动新的节点，将旧节点上的数据备份直接复制到新节点上，实现快速启动节点，保障系统稳定性。

附图说明

图1是本发明所述基于Openstack云平台实现海量数据可伸缩性存储的系统的结构示意图；

图2是本发明所述基础设施模块的结构示意图；

图3是利用本发明所述基于Openstack云平台实现海量数据可伸缩性存储的系统进行数据检索的方法工作流程图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

如图1-3所示。

实施例2

如实施例1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，CouchDB的复制机制对于实现分布式数据复制包括一次性复制和持久性复制；一次性复制发送POST请求到指定数据库的_replicate URL；其中，请求题为JSON文档，包含以下内容：

POST/_replicate HTTP/1.1

source与target分别表示复制的源数据库和目的数据库。其中，只使用数据库名字表示一个本地数据库，而使用一个完整的URL地址来表示一个远程数据库。

实施例3

如实施例1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，基础设施模块包括主控制节点和计算节点；主控制节点管理和监控整个Openstack云平台，提供用户界面功能、RESTful API功能、网络资源管理功能和安全认证功能；计算节点为用户提供云主机资源和存储资源，提供云主机管理功能、虚拟网络管理功能和数据存储功能。利用Openstack各组件间的松耦合的特点，基础设施模块结构的设计包括两类节点。主控制节点不参与云主机、存储设备及计算的实际操作。用户界面功能使得用户能够更方便、更简单地使用和操作，这里使用Web页面作为用户界面。

实施例4

如实施例3所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，计算节点包括KVM模块、neutron模块和nova模块；通过配置计算节点的nova模块，在nova.conf配置文件中添加主控制节点的IP及主控制节点中keystone的认证令牌tenant，实现主控制节点对计算节点的控制操作。

实施例5

如实施例3所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，所述安全认证功能包括openstack权限管理、用户身份认证、组件服务的注册和访问端点的注册。

实施例6

如实施例1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，数据检索模块通过CouchDB视图实现文档检索，CouchDB视图通过JavaScript函数定义，并保存于design documents文档中；数据检索模块通过MapReduce运行。CouchDB视图的功能与关系型数据库中的视图功能类似，用于动态地聚合和呈现同一个数据库中的数据，CouchDB中对数据的查询和索引在查询视图的过程中同时完成，即对数据的查询过程也是一个索引过程。

实施例7

如实施例6所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，所不同的是，CouchDB视图要完成的文档过滤和索引描述，在design documents中的map和reduce函数中定义；其中，Map函数实现对数据的过滤或者查询，reduce函数实现对Map函数返回结果的聚合。CouchDB中的视图均是通过JavaScript进行保存，并且对designdocuments的写法有严格的要求。design documents文档与普通的JSON文档一样，可以存储在数据库中并被复制。

实施例8

一种如实施例1-7所述存储系统的构建方法，包括步骤如下：

A、控制节点构建：

B、CouchDB数据库集群搭建：

B2、CouchDB数据库集群使用冗余存储的方法实现负载均衡；利用CouchDB数据库集群的复制机制实现负载均衡，对数据进行3个备份，将数据的冗余性进行封装；将数据的冗余性进行封装使得在集群的上层可以将备份的数据作为一个整体的单元来对待，而让逻辑分区自己管理数据冗余和数据恢复。这样的操作，将一个逻辑上单一的数据库分成了多个部分，而这些部分可以分布在不同的云主机上。

实施例9

如实施例8所述的存储系统的构建方法，所不同的是，所述存储系统的构建方法还包括步骤A5，添加Horizon，Horizon给用户和管理员提供可视化的界面。这样可以通过界面完成虚拟机、网络的查看和创建。

实施例10

一种利用实施例1-7所述系统进行数据检索的方法，包括步骤如下：

2)CouchDB Lounge架构的组件Dumbproxy接受到相应的用户请求POST；

实施例11

如实施例10所述数据检索的方法，所不同的是，所述Map函数由java实现。

Claims

1.一种基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，包括基础设施模块、数据存储模块和数据检索模块；基础设施模块对计算资源、存储资源和网络资源进行管理并对用户身份进行认证；数据存储模块实现数据弹性存储和维护；数据弹性存储通过构建CouchDB数据库集群实现，所述CouchDB数据库集群利用openstack云平台提供的云主机构建，采用扁平化结构部署；每台云主机构建一个CouchDB数据库，提供数据存储与检索功能；所述openstack云平台上的云主机通过CouchDB的复制机制实现对等。

2.根据权利要求1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，CouchDB的复制机制对于实现分布式数据复制包括一次性复制和持久性复制；一次性复制发送POST请求到指定数据库的_replicate URL；其中，请求题为JSON文档，包含以下内容：

POST/_replicate HTTP/1.1

source与target分别表示复制的源数据库和目的数据库。

3.根据权利要求1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，基础设施模块包括主控制节点和计算节点；主控制节点管理和监控整个Openstack云平台，提供用户界面功能、RESTful API功能、网络资源管理功能和安全认证功能；计算节点为用户提供云主机资源和存储资源，提供云主机管理功能、虚拟网络管理功能和数据存储功能。

4.根据权利要求3所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，计算节点包括KVM模块、neutron模块和nova模块；通过配置计算节点的nova模块，在nova.conf配置文件中添加主控制节点的IP及主控制节点中keystone的认证令牌tenant，实现主控制节点对计算节点的控制操作。

5.根据权利要求3所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，所述安全认证功能包括openstack权限管理、用户身份认证、组件服务的注册和访问端点的注册。

6.根据权利要求1所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，数据检索模块通过CouchDB视图实现文档检索，CouchDB视图通过JavaScript函数定义，并保存于design documents文档中；数据检索模块通过MapReduce运行。

7.根据权利要求6所述的基于Openstack云平台实现海量数据可伸缩性存储的系统，其特征在于，CouchDB视图要完成的文档过滤和索引描述，在design documents中的map和reduce函数中定义；其中，Map函数实现对数据的过滤或者查询，reduce函数实现对Map函数返回结果的聚合。

8.一种如权利要求1-7任意一项所述存储系统的构建方法，其特征在于，包括步骤如下：

A、控制节点构建：

A1、添加keystone；keystone用于组件注册；组件注册的具体方法是，通过#keystone-create命令在keystone上创建相应的user、service、endpoint，并获取tenant令牌；

A2、Nova的安装与配置；Nova负责管理Openstack云平台的计算资源；Nova提供自动创建和管理云主机的功能；Nova安装完成后，配置Nova的配置文件nova.conf，添加keystone的认证标识；

A3、安装glance镜像；glance镜像提供虚拟机镜像的查询与存储服务；glance镜像包括组件glance-api和组件glance-registry；组件glance-api接受和反馈用户的镜像请求；组件glance-registry存储上传的虚拟机镜像；组件glance-registry提供Nova创建并启动云主机时用到的虚拟机镜像；glance镜像完成相应的配置文件glance-api.conf和glance-registry.conf，得到keystone的认证；

A4、添加Neutron网络管理模块，完成虚拟网络服务；

B、CouchDB数据库集群搭建：

B1、CouchDB数据库集群在分布式环境下，通过CouchDB Lounge实现；Lounge包括组件Dumbproxy和组件Smartproxy；组件Dumbproxy处理文档GET和文档PUT请求，组件Smartproxy负责视图的处理；Lounge为每个数据库节点分配一个keyspace，Lounge通过用户发来的HTTP请求中的URL获得相应的文档ID，同时映射到每个数据库节点上；CouchDBLounge是一个基于代理的分区和集群框架；

B2、CouchDB数据库集群使用冗余存储的方法实现负载均衡；利用CouchDB数据库集群的复制机制实现负载均衡，对数据进行2～3个备份，将数据的冗余性进行封装。

9.根据权利要求8所述的存储系统的构建方法，其特征在于，所述存储系统的构建方法还包括步骤A5，添加Horizon，Horizon给用户和管理员提供可视化的界面。

10.一种利用权利要求1-7任意一项所述的系统进行数据检索的方法，其特征在于，包括步骤如下：

2)CouchDB Lounge架构的组件Dumbproxy接受到相应的用户请求POST；