CN102857577B - 一种集群存储自动负载均衡的系统及方法 - Google Patents

一种集群存储自动负载均衡的系统及方法 Download PDF

Info

Publication number
CN102857577B
CN102857577B CN201210359628.1A CN201210359628A CN102857577B CN 102857577 B CN102857577 B CN 102857577B CN 201210359628 A CN201210359628 A CN 201210359628A CN 102857577 B CN102857577 B CN 102857577B
Authority
CN
China
Prior art keywords
load
module
volume
load balancing
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210359628.1A
Other languages
English (en)
Other versions
CN102857577A (zh
Inventor
刘爱贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lianchuang Xinan Technology Co., Ltd.
Original Assignee
BEIJING LIANCHUANG XINAN TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LIANCHUANG XINAN TECHNOLOGY CO LTD filed Critical BEIJING LIANCHUANG XINAN TECHNOLOGY CO LTD
Priority to CN201210359628.1A priority Critical patent/CN102857577B/zh
Publication of CN102857577A publication Critical patent/CN102857577A/zh
Application granted granted Critical
Publication of CN102857577B publication Critical patent/CN102857577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种集群存储自动负载均衡的系统及方法,该方法基于事件驱动机制实现集群存储数据分布和容量负载均衡,具有完全自动化、智能化、在线执行和并发执行的特点,负载均衡自动化极大减少人工干预并降低系统管理复杂性,满足集群存储系统动态扩展的弹性需求;在线执行使得集群存储系统能够保持业务连续性;智能化充分考虑系统当前工作负载,并据此对负载均衡执行过程进行调度,最大减少负载均衡操作对前端正常业务造成的影响;并发性能够最大化利用集群的系统资源,实现高性能的负载均衡,有效缩短执行时间。该方法使得集群存储的负载均衡更加简单、高效、透明,保证了集群存储系统的高性能、高的Qos服务质量和弹性扩展。

Description

一种集群存储自动负载均衡的系统及方法
技术领域
本发明涉及集群存储管理技术领域,尤其涉及一种集群存储自动负载均衡的系统及方法。
背景技术
随着计算规模的扩大和新兴应用模式(如云计算、物联网)的出现,大数据应用与日俱增。集群存储是一种横向扩展(Scale-out)的存储架构,具有容量和性能线性扩展的优势。负载均衡是集群存储提供高性能的关键技术之一,能够保证集群高性能的稳定性和高的QoS服务质量,并使得集群系统具备良好的弹性以适应集群的动态扩展。
集群存储是一种开放式的存储架构,采用分布式的文件系统,将多台物理存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池(也叫统一命名空间),通过该访问接口非常容易地管理存储池后端物理存储设备上所有的磁盘,充分发挥存储设备的性能和磁盘利用率。数据将按照一定的负载均衡策略从多台存储设备上存储和读取,以获得更高的存储性能。集群存储通过分布式文件系统的作用,会在前端访问和后端存储都实现负载均衡。前端访问集群存储的操作,通过负载均衡策略将访问分散到集群存储的各个存储节点上,大大减轻了每个节点的负载;后端存储的负载均衡,通过开放式的架构和后端网络,数据会分布在所有节点上进行存放和读取。本文中负载均衡专指后端存储的负载均衡,每个读写操作都由更多的节点参与,大大提高读写操作的性能。
分布式存储可以通过软件技术整合利用众多低廉的存储设备来支撑海量的存储。由于服务器之间的资源利用率经常不同、以及集群中经常动态的增删服务器,导致服务器的数据分布不均衡。而数据的均衡分布是提供高效服务的关键之一,分布式文件系统作为分布式存储的核心,其数据的再均衡处理(Data-Rebalance)显得至关重要。
高端商业集群存储都有自己Data-Rebalance功能,这已然成为了商业集群存储系统不可或缺的标准功能之一,诸如Isilon、Infortrend等。其中Isilon的核心文件系统OneFS的AutoBalance功能模块,实现了自动数据负载均衡。系统后台根据忙闲程度,自动的发起Data Rebalance操作,占用很少系统资源,不影响上层客户端的访问应用,不需要任何人工干预,也不要需要客户端多任何操作。
开源分布式文件系统中也大多有简易的Data-Rebalance功能,例如Glusterfs、MooseFS、Lustre、Hadoop/HDFS等。GlusterFS是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间设计,可为各种不同的数据负载提供优异的性能。
ESVA是一个块级的集群存储系统,通过Scale-out架构来实现集群存储容量与性能线性增长,并实现负载均衡。ESVA充分使用容量,同时可以确保用户最好地利用存储处理能力。在ESVA的scale-out架构中,无需任何手动操作就可以轻松实现性能优化。当主机端向存储池发出一个写请求,其组成数据块将以一种平衡的方式分派给各成员存储系统。图1为现有技术中集群存储负载均衡的示意图。如图1所示,一个写请求由6个数据块组成,数据块均匀分布在2个成员存储系统中,每个成员系统有3个数据块;当一个新成员存储系统被加入,数据块将被迁移确保所有成员平均负载,每个成员负载2个数据块。用户添加或删除磁盘阵列系统使配置发生了变化,现有的数据将被迁移以确保负载平衡,优化的状态仍将保持,自动的、连续的负载平衡能够充分利用性能,提高生产力。
上述主流的集群存储系统基本都支持负载均衡功能,以保持集群各节点的数据分布和容量基本均衡,但现有的负载均衡技术在某些方面也存在不足:1)手动执行,需要由管理员择机进行操作,无法实现自动执行;2)离线执行,进行负载均衡时需要集群系统暂停服务,造成业务中断;3)影响前端性能,执行时未考虑各节点工作负载,容易导致系统过载,影响正常业务访问;4)单节点执行,由某个节点负责执行负载均衡,无法做到并发执行,性能低下并且耗时较长。
由于集群存储系统设计复杂性和需求的不同,商业和开源解决方案在负载均衡功能实现上均有所取舍,亟需一种能够实现自动化、智能化、在线和并发执行的集群存储负载均衡处理策略。
发明内容
本发明所要解决的技术问题在于提供一种集群存储自动负载均衡的系统及方法,以实现完全自动化、智能化、在线和并发性的集群存储负载均衡处理策略。
为达到上述目的,本发明是通过以下技术方案来实现的:
一种集群存储自动负载均衡的系统,所述系统包括监控模块、触发动作模块、信息同步模块、事件触发模块、负载信息计算模块、调度模块、数据布局修复模块和数据迁移模块,所述监控模块与负载信息计算模块连接,所述事件触发模块分别与触发动作模块和信息同步模块连接,所述负载信息计算模块分别与事件触发模块和调度模块连接,所述事件触发模块与调度模块连接,所述调度模块分别与数据布局修复模块和数据迁移模块连接,其中,
所述监控模块用于监控各存储节点的负载状态;
所述触发动作模块用于改变逻辑卷的状态,以触发自动负载均衡动作;
所述信息同步模块用于同步集群系统中负载均衡信息;
所述负载信息计算模块用于根据监控模块获取的各存储节点的负载状态计算系统负载;
所述事件触发模块用于根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件;
所述调度模块用于根据触发的负载不均衡事件在线执行负载均衡调度;
所述数据布局修复模块用于根据调度模块的调度指令实现各存储节点数据的重新布局;
所述数据迁移模块用于根据调度模块的调度指令并行迁移数据。
进一步地,所述事件触发模块根据逻辑卷的状态变化判断是否启动特定卷的负载均衡操作包括,当监控模块监控到集群存储系统增加或者删除存储节点,或者逻辑卷负载不均衡超过预设的阈值时,事件触发模块启动指定卷的负载均衡操作,并自动触发逻辑卷负载不均衡事件。
进一步地,在指定卷启动负载均衡操作时,所述调度模块还根据所述逻辑卷的系统负载情况控制负载均衡调度的启动停止及负载均衡快慢状态间的切换。
进一步地,所述逻辑卷的系统负载信息情况根据监控模块采集的CPU、内存、磁盘吞吐量和网络带宽占用量计算得到。
进一步地,所述数据迁移模块根据调度模块的调度指令并行迁移数据包括,同时在多台服务器上并行迁移数据,及每个服务器上同时迁移多个文件并根据迁移服务器的负载情况调整并行迁移文件的个数。
相应地,本发明还公开一种集群存储自动负载均衡的方法,包括,
监控各存储节点的负载状态,并根据获取的负载状态计算系统负载信息;
根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件;
根据触发的负载不均衡事件在线执行负载均衡调度。
进一步地,所述根据逻辑卷的状态变化判断是否启动特定卷的负载均衡操作包括,当监控到集群存储系统增加或者删除存储节点,或者逻辑卷负载不均衡超过预设的阈值时,启动指定卷的负载均衡操作,并自动触发逻辑卷负载不均衡事件。
进一步地,在指定卷启动负载均衡操作时,将该卷加入到负载不均衡的卷队列中,根据触发的负载不均衡事件在线执行负载均衡调度,包括,
步骤1:判断负载不均衡卷队列是否为空,如是,则执行步骤2;如否,则执行步骤3;
步骤2:等待触发事件,若事件到达,则执行步骤3;若事件未到达,则阻塞等待;
步骤3:获取负载不均衡卷队列的队首卷,执行该卷的负载均衡;
步骤4:判断该卷负载均衡是否成功,如是,则执行步骤5;如否,则执行步骤6;
步骤5:将该卷从负载不均衡卷队列中删除,执行步骤2;
步骤6:将该卷移到负载不均衡卷队列的尾部,执行步骤2。
进一步地,所述根据触发的负载不均衡事件在线执行负载均衡调度的步骤包括,根据调度指令实现各存储节点数据的重新布局及同时在多台服务器上并行迁移数据。
进一步地,所述根据触发的负载不均衡事件在线执行负载均衡调度还包括,根据指定卷的系统负载情况控制负载均衡调度的启动停止及负载均衡快慢状态间的切换,所述逻辑卷的系统负载信息情况根据监控模块采集的CPU、内存、磁盘吞吐量和网络带宽占用量计算得到。
本发明的技术方案,基于事件驱动机制实现集群存储数据分布和容量负载均衡,具有完全自动化、智能化、在线执行和并发执行的特点。自动化使得集群存储系统及时地执行负载均衡,保证系统更多时间内处于相对均衡状态,从而使得前端数据访问负载可以均衡地分散到后端各个节点上,极大减少人工干预并降低系统管理复杂性,提高集群存储系统的性能、吞吐量和QoS服务质量,满足集群存储系统动态扩展的弹性需求;智能化使得前端业务频繁访问集群存储逻辑卷数据时,系统能自动调慢或者暂停该卷上的负载均衡操作,从而不影响前端业务的数据访问;而在前端业务访问较轻时,又能重新启动并加快逻辑卷上的数据迁移工作使之能尽快达到平衡状态;在线执行使得集群存储系统不需要暂停服务进行负载均衡,保持业务连续性;并行执行,最大化利用集群的系统资源,实现高性能的负载均衡,有效缩短执行时间。该方法使得集群存储的负载均衡更加简单、高效、透明,保证了集群存储系统的高性能、高的Qos服务质量和弹性扩展。
附图说明
图1为现有技术中集群存储负载均衡系统示意图;
图2为本发明实施例的集群存储自动负载均衡的系统结构框图;
图3为本发明实施例的事件触发模块执行过程的流程图;
图4为本发明实施例的调度模块执行过程的流程图;
图5为本发明实施例的数据迁移模块执行过程的流程图;
图6为本发明实施例的集群存储自动负载均衡的方法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
图2为本发明实施例的集群存储自动负载均衡的系统结构框图。如图2所示,整个系统包括监控模块201、触发动作模块202、信息同步模块203、事件触发模块204、负载信息计算模块205、调度模块206、数据布局修复模块207和数据迁移模块208,所述事件触发模块204、负载信息计算模块205、调度模块206、数据布局修复模块207和数据迁移模块208构成整个系统的核心。所述监控模块201与负载信息计算模块205连接,所述事件触发模块204分别与触发动作模块202和信息同步模块203连接,所述负载信息计算模块205分别与事件触发模块204和调度模块206连接,所述事件触发模块204与调度模块206连接,所述调度模块206分别与数据布局修复模块207和数据迁移模块208连接。其中,监控模块201用于监控各存储节点的负载状态,如整个系统中所有逻辑卷的使用情况,所有服务器的CPU、内存、磁盘吞吐量和网络带宽占用量等系统负载,为负载信息计算模块计算系统负载提供原始数据;触发动作模块202是触发自动负载均衡操作的入口之一,通过改变逻辑卷的状态触发自动负载均衡动作,如向集群存储系统中增加/删除节点等;信息同步模块203用于实现整个集群系统中自动负载均衡相关信息的通信与同步,包括整个系统中服务器的状态、负载等信息同步,使事件触发模块204根据不同的信息状况触发相应的负载均衡操作;事件触发模块204用于根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件,包括根据系统中卷状态,服务器状态以及负载文件变化触发相应的负载不均衡事务件;负载信息计算模块205用于根据监控模块获取的各存储节点的负载状态计算系统负载信息,判断逻辑卷的负载状况;调度模块206用于根据触发的负载不均衡事件在线执行负载均衡调度,调度模块是实现数据再均衡(卷的状态变化引起)以及负载均衡执行的调度器,依据卷的状态和系统负载判定该卷负载均衡操作的启动停止以及负载均衡快慢状态间的相互切换;数据布局修复模块207用于根据调度模块的调度指令对集群存储中各节点数据重新布局,为后期的数据迁移模块的数据迁移做好准备;数据迁移模块208根据调度模块的调度指令并行迁移数据。
其中,系统根据逻辑卷的状态变化自动判断是否启动特定卷的负载均衡操作。自动负载均衡主要是指在集群存储系统逻辑卷增加/删除存储节点(bricks)成功后,或者卷内存储节点(bricks)容量超过预设的不均衡阈值时,系统能自动地启动数据负载均衡操作。
本发明实施例中,系统的监控模块能监控到使用中的逻辑卷中各个存储节点(brick)的磁盘剩余量变化。当磁盘剩余量不平衡时,系统自动启动数据负载均衡Data-Rebalance操作,经过数据重新布局修复及数据迁移,使得逻辑卷中各个存储节点(brick)的磁盘剩余量变得均衡。当在使用中的逻辑卷增加存储节点(bricks)时,新增加的存储节点(bricks)没有任何数据,即没有任何负载导致资源浪费,而原有的存储节点(bricks)则因为数据太多而负载过重,集群存储系统能监控到系统增加了存储节点后bricks,能自动启动Data-Rebalance操作进行数据迁移,使得整个逻辑卷中所有存储节点bricks上的数据分布均衡。同理,当逻辑卷删除存储节点时,被删除存储节点上的负载通过自动负载均衡操作进行数据迁移,使整个逻辑卷中所有存储节点上的数据分布均衡。其中,逻辑卷负载不均衡阈值可根据实际情况进行设置,如设超过卷容量的75%,即自动触发负载均衡操作。
该系统负载均衡能够实现智能化,集群存储系统收集每个节点的状态,计算CPU、内存、磁盘吞吐量和网络带宽占用量等系统负载,并根据服务器状态和负载智能的选择合适的服务器,动态的调整Data-Rebalance操作的快慢和启停。其中,监控模块能够监控到整个系统中所有逻辑卷的使用情况,包括每个逻辑卷是否增加/删除了存储节点bricks,以及卷中bricks磁盘剩余量的均衡,从而判断是否需要启动该卷的Data-Rebalance操作。在逻辑卷启动了Data-Rebalance操作后,系统能根据监控到的所有服务器的CPU、内存、磁盘吞吐量和网络带宽占用量等系统负载,判断出逻辑卷的负载状况,并根据逻辑卷的负载调整该卷数据迁移的启停和快慢。比如在上层频繁访问该逻辑卷中数据时,系统能自动调慢或者暂停该卷上的Data-Rebalance操作,从而不影响上层的数据访问;而在上层访问较轻时,又能重新启动并加快该卷上的数据迁移工作使之能尽快达到平衡状态。
本实施例能够实现在线负载均衡功能,即集群存储系统可以在对外提供正常数据访问服务的同时,进行节点之间的数据迁移使得容量达到均衡状态。在线执行使得集群存储系统不需要暂停服务进行负载均衡,保持业务连续性。在线执行要求在进行数据迁移时监控文件的访问情况,如果文件已经打开进行读写操作,则需要推迟该文件的迁移,等到下次负载均衡时并且处于未打开状态时执行。
并发执行功能,集群存储系统能同时在多台服务器上并行的进行数据的迁移工作。本集群存储系统上所有逻辑卷上的数据迁移工作都是由整个逻辑卷中所有服务器同时进行的,每个服务器负责一部分数据的迁移工作,较其他文件系统中仅单机进行数据迁移迅速。此外,每个服务器上可以同时迁移多个文件而不冲突,且在迁移过程中会自动根据系统中迁移服务器的负载而调整并行迁移的文件个数,从而能充分应用系统资源又不影响上层的数据访问。
本发明采用的集群存储自动负载均衡的系统是一种适用于非结构化数据应用环境的高性能海量集群NAS系统。通过分布式的Scale-out的集群体系架构,能够实现32PB的系统规模、高达100GB/S带宽,1000K并发OPS,并能够实现动态的容量及性能扩展、卓越的系统高可用性。该系统借助虚拟化和并行化的卷组、文件系统资源管理,构建大规模、高性能、动态可扩展的共享存储架构;同时支持丰富的高级数据管理功能,可扩展实现存储、备份、归档及容灾的复合数据管理需求。作为面向云存储和大数据的高性能集群存储系统,该系统能够满足云计算/云存储系统必备的弹性扩展特征,能够实现自动负载均衡功能。
图3为本发明实施例的事件触发模块执行过程的流程图。事件触发模块是整个负载均衡过程的总调度者,负责负载均衡的事件触发和自动执行调度。它是一个常驻守护进程(Daemon),基于事件驱动机制实现,集群存储系统所有节点启动时自动启动该守护进程。事件触发模块维护一个负载处于不均衡的卷队列(rbqueue),当使用集群存储管理工具增加或删除节点,或者探测到卷容量超过预先设置的不均衡阈值时,则把该卷加入到该负载不均衡卷队列rbqueue中,并触发调度事件。负载不均衡事件触发后,事件触发模块将启动调度(scheduler)模块,从负载不均衡卷队列rbqueue中取得队首卷执行自动负载均衡。如图3所示,事件触发模块执行过程如下:
步骤301:事件触发模块启动,判断负载不均衡卷队列是否为空,如是,则执行步骤302;如否,则执行步骤303;
步骤302:等待触发事件,若事件到达,则执行步骤303;若事件未到达,则阻塞等待;
步骤303:获取不均衡卷队列队首卷,启动调度模块,执行该卷的负载均衡;
步骤304:判断负载均衡是否成功,如是,则执行步骤305;如否,则执行步骤306;
步骤305:将该卷从不均衡卷队列中删除,执行步骤302;
步骤306:将该卷移到不均衡卷队列的尾部,执行步骤302。
图4为本发明实施例的调度模块执行过程的流程图。调度模块是指定卷执行自动负载均衡的调度器,负责负载均衡过程中的数据重新布局和数据迁移任务的调度工作,并根据各个集群节点的活动状态和负载状态不断调整负载均衡的启停和快慢,保证整个集群存储系统中所有卷负载均衡的自动化和公平性,并尽量减少对前端业务正常访问的影响。如图4所示,当系统中某个逻辑卷需要执行Data-Rebalance操作时,调度模块执行过程如下:
步骤401:逻辑卷中所有存储节点(bricks)涉及到的服务器的调度程序(scheduler)依据竞争机制,共同选举出该逻辑卷的Master服务器,其余服务器则作为Slave服务器;
步骤402:Master服务器的scheduler依据整个系统的负载状况判断数据负载均衡Data-Rebalance操作是否能执行,如是,则执行步骤403,;如否,则执行步骤409;
其中,Master服务器的scheduler将该逻辑卷的迁移任务划分为数据布局修复Fix-layout和数据迁移Migrate-data两个步骤进行。
步骤403:该逻辑卷执行数据负载均衡,在系统负载处于预先设定的阈值范围内的情况下,Master服务器的scheduler根据各个服务器的负载情况分配数据重布局任务(Fix-layout)t1到所有Slave节点;
步骤404:Slave服务器的scheduler根据分配到的数据重布局任务t1,进行并发执行;
步骤405:判断数据重布局任务t1是否完成,如是,则执行步骤406,如否,则执行步骤409;
步骤406:Master服务器的scheduler根据各个服务器的负载情况分配分配数据迁移任务t2到所有Slave节点;
步骤407:Slave服务器的scheduler根据分配到的数据迁移任务t2,进行并发执行;
步骤408:判断数据迁移任务t2是否完成,如是,则执行步骤409,如否,则执行步骤409;
步骤409:Master服务器的scheduler与事件触发模块通信,通过事件机制触发下一个逻辑卷的Data-Rebalance操作。
其中,数据重布局(Fix-Layout)的任务相对简单快速,在数据重新布局修复的操作中,scheduler不进行任何控制。数据迁移的任务涉及到大量数据的读写操作,为避免对上层访问产生影响,scheduler将依据负载信息计算模块(calculator)计算的服务器的负载信息来判断本机并行数据迁移量。
集群存储系统负载信息计算模块收集每个节点的状态,计算CPU、内存、磁盘吞吐量和网络带宽占用量等系统负载,并根据服务器状态和负载智能的选择合适的服务器,智能动态的调整负载均衡的快慢和启停。
图5为本发明实施例的数据迁移模块执行过程的流程图。如图5所示,数据迁移模块的执行流程如下:
步骤501:根据各个服务器的负载情况判断是否分配数据迁移任务,如是,执行步骤502;如否,则结束该进程;
步骤502:监控文件的访问情况,判断是否进行负载均衡操作,如是,则执行步骤503;如否,则执行步骤506;
步骤503:判断待迁移数据是否正在被前端业务打开访问,如是,则执行步骤504;如否,则执行步骤505;
步骤504:推迟当前文件的迁移,等到下次负载均衡时并且文件处于未打开状态时执行数据迁移;
步骤505:并行迁移数据;
步骤506:调整并发量,等待下一个数据迁移任务,执行步骤501。
图6为本发明实施例的集群存储自动负载均衡的方法流程图。如图6所示,该方法包括:
监控各存储节点的负载状态,并根据获取的负载状态计算系统负载信息;
根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件;
根据触发的负载不均衡事件在线执行负载均衡调度。
所述根据逻辑卷的状态变化判断是否启动特定卷的负载均衡操作包括,当监控到集群存储系统增加或者删除存储节点,或者逻辑卷负载不均衡超过预设的阈值时,启动指定卷的负载均衡操作,并自动触发逻辑卷负载不均衡事件。
所述根据触发的负载不均衡事件在线执行负载均衡调度的步骤包括,根据调度指令实现各存储节点数据的重新布局及同时在多台服务器上并行迁移数据。
所述根据触发的负载不均衡事件在线执行负载均衡调度还包括,根据指定卷的系统负载情况控制负载均衡调度的启动停止及负载均衡快慢状态间的切换,所述逻辑卷的系统负载信息情况根据监控模块采集的CPU、内存、磁盘吞吐量和网络带宽占用量计算得到。
本发明的技术方案,基于事件驱动机制实现集群存储负载均衡,具有完全自动化、智能化、在线执行和并发执行的特点。自动化使得集群存储系统及时地执行负载均衡,保证系统更多时间内处于相对均衡状态,从而使得前端数据访问负载可以均衡地分散到后端各个节点上,提高集群存储系统的性能、吞吐量和QoS服务质量。负载均衡自动化,可以极大减少人工干预并降低系统管理复杂性,满足集群存储系统动态扩展的弹性需求。智能化使得前端业务频繁访问集群存储逻辑卷数据时,系统能自动调慢或者暂停该卷上的负载均衡操作,从而不影响前端业务的数据访问;而在前端业务访问较轻时,又能重新启动并加快逻辑卷上的数据迁移工作使之能尽快达到平衡状态。在线执行使得集群存储系统不需要暂停服务进行负载均衡,保持业务连续性。并行执行,最大化利用集群的系统资源,实现高性能的负载均衡,有效缩短执行时间。
以上实施例提供的技术方案中的全部或部分内容可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:(上述方法的步骤),所述的存储介质,如:ROM/RAM、磁碟、光盘等。
上述仅为本发明的较佳实施例及所运用技术原理,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (9)

1.一种集群存储自动负载均衡的系统,其特征在于,所述系统包括监控模块、触发动作模块、信息同步模块、事件触发模块、负载信息计算模块、调度模块、数据布局修复模块和数据迁移模块,所述监控模块与负载信息计算模块连接,所述事件触发模块分别与触发动作模块和信息同步模块连接,所述负载信息计算模块分别与事件触发模块和调度模块连接,所述事件触发模块与调度模块连接,所述调度模块分别与数据布局修复模块和数据迁移模块连接,其中,
所述监控模块用于监控各存储节点的负载状态;
所述触发动作模块用于改变逻辑卷的状态,以触发自动负载均衡动作;
所述信息同步模块用于同步集群系统中负载均衡信息;
所述负载信息计算模块用于根据监控模块获取的各存储节点的负载状态计算系统负载;
所述事件触发模块用于根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件;
所述调度模块用于根据触发的负载不均衡事件在线执行负载均衡调度;
所述数据布局修复模块用于根据调度模块的调度指令实现各存储节点数据的重新布局;
所述数据迁移模块用于根据调度模块的调度指令并行迁移数据。
2.根据权利要求1所述的集群存储自动负载均衡的系统,其特征在于,所述事件触发模块根据逻辑卷的状态变化自动判断是否启动特定卷的负载均衡操作包括,当监控模块监控到集群存储系统增加或者删除存储节点,或者逻辑卷负载不均衡超过预设的阈值时,事件触发模块启动指定卷的负载均衡操作,并自动触发逻辑卷负载不均衡事件。
3.根据权利要求1所述的集群存储自动负载均衡的系统,其特征在于,在指定卷启动负载均衡操作时,所述调度模块还根据所述逻辑卷的系统负载情况控制负载均衡调度的启动停止及负载均衡快慢状态间的切换。
4.根据权利要求3所述的集群存储自动负载均衡的系统,其特征在于,所述逻辑卷的系统负载情况根据监控模块采集的CPU、内存、磁盘吞吐量和网络带宽占用量计算得到。
5.根据权利要求1所述的集群存储自动负载均衡的系统,其特征在于,所述数据迁移模块根据调度模块的调度指令并行迁移数据包括,同时在多台服务器上并行迁移数据,及每个服务器上同时迁移多个文件并根据迁移服务器的负载情况调整并行迁移文件的个数。
6.一种集群存储自动负载均衡的方法,其特征在于,包括,
监控各存储节点的负载状态,并根据获取的负载状态计算系统负载信息;
根据逻辑卷的状态变化判断是否启动指定卷的负载均衡操作,并在启动指定卷的负载均衡操作时自动触发相应的负载不均衡事件;
根据触发的负载不均衡事件在线执行负载均衡调度;
所述根据触发的负载不均衡事件在线执行负载均衡调度的步骤包括,根据调度指令实现各存储节点数据的重新布局及同时在多台服务器上并行迁移数据。
7.根据权利要求6所述的集群存储自动负载均衡的方法,其特征在于,所述根据逻辑卷的状态变化判断是否启动特定卷的负载均衡操作包括,当监控到集群存储系统增加或者删除存储节点,或者逻辑卷负载不均衡超过预设的阈值时,启动指定卷的负载均衡操作,并自动触发逻辑卷负载不均衡事件。
8.根据权利要求6所述的集群存储自动负载均衡的方法,其特征在于,在指定卷启动负载均衡操作时,将该卷加入到负载不均衡的卷队列中,根据触发的负载不均衡事件在线执行负载均衡调度,包括,
步骤1:判断负载不均衡卷队列是否为空,如是,则执行步骤2;如否,则执行步骤3;
步骤2:等待触发事件,若事件到达,则执行步骤3;若事件未到达,则阻塞等待;
步骤3:获取负载不均衡卷队列的队首卷,执行该卷的负载均衡;
步骤4:判断该卷负载均衡是否成功,如是,则执行步骤5;如否,则执行步骤6;
步骤5:将该卷从负载不均衡卷队列中删除,执行步骤2;
步骤6:将该卷移到负载不均衡卷队列的尾部,执行步骤2。
9.根据权利要求6所述的集群存储自动负载均衡的方法,其特征在于,所述根据触发的负载不均衡事件在线执行负载均衡调度还包括,根据指定卷的系统负载情况控制负载均衡调度的启动停止及负载均衡快慢状态间的切换,所述逻辑卷的系统负载信息情况根据监控模块采集的CPU、内存、磁盘吞吐量和网络带宽占用量计算得到。
CN201210359628.1A 2012-09-24 2012-09-24 一种集群存储自动负载均衡的系统及方法 Active CN102857577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210359628.1A CN102857577B (zh) 2012-09-24 2012-09-24 一种集群存储自动负载均衡的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210359628.1A CN102857577B (zh) 2012-09-24 2012-09-24 一种集群存储自动负载均衡的系统及方法

Publications (2)

Publication Number Publication Date
CN102857577A CN102857577A (zh) 2013-01-02
CN102857577B true CN102857577B (zh) 2015-10-28

Family

ID=47403765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210359628.1A Active CN102857577B (zh) 2012-09-24 2012-09-24 一种集群存储自动负载均衡的系统及方法

Country Status (1)

Country Link
CN (1) CN102857577B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795801A (zh) * 2014-02-12 2014-05-14 浪潮电子信息产业股份有限公司 一种基于实时应用集群的元数据集群设计方法
CN103973811A (zh) * 2014-05-23 2014-08-06 浪潮电子信息产业股份有限公司 一种可动态迁移的高可用集群管理方法
WO2015196369A1 (zh) * 2014-06-24 2015-12-30 华为技术有限公司 分布式缓存控制方法及装置
CN104967638B (zh) * 2014-07-28 2016-08-24 浙江大华技术股份有限公司 一种数据节点的分配方法及系统
CN104317658B (zh) * 2014-10-17 2018-06-12 华中科技大学 一种基于MapReduce的负载自适应任务调度方法
CN107025136A (zh) * 2016-01-29 2017-08-08 中兴通讯股份有限公司 一种去中心化资源调度方法及系统
CN106201722A (zh) * 2016-07-12 2016-12-07 乐视控股(北京)有限公司 服务器的负载调整方法及系统
CN108228672B (zh) * 2016-12-22 2022-05-03 阿里巴巴集团控股有限公司 一种元数据迁移方法、装置、系统及设备
CN108243228B (zh) * 2016-12-27 2020-09-29 中国电信股份有限公司 用于数据调度的方法和智能伺服集群
CN106815063B (zh) * 2017-01-11 2020-05-12 福建升腾资讯有限公司 一种多交互通道的自动化设备的控制平台
CN107085539B (zh) * 2017-04-27 2019-12-10 北京邮电大学 一种云数据库系统以及云数据库资源动态调整方法
CN109218341B (zh) * 2017-06-29 2022-02-25 北京京东尚科信息技术有限公司 用于监控服务器和用于服务器的负载均衡方法和装置
CN107562535A (zh) * 2017-08-02 2018-01-09 广东睿江云计算股份有限公司 一种基于任务调度的负载均衡方法、系统
CN109408280A (zh) * 2017-08-17 2019-03-01 北京金山云网络技术有限公司 数据备份方法、装置及系统
CN107704490A (zh) * 2017-08-22 2018-02-16 贵州白山云科技有限公司 一种基于对等存储的数据处理方法及装置
CN107547641A (zh) * 2017-08-28 2018-01-05 郑州云海信息技术有限公司 一种基于带宽负载的后端存储选择方法及装置
CN108376104B (zh) * 2018-02-12 2020-10-27 上海帝联网络科技有限公司 节点调度方法及装置、计算机可读存储介质
CN109587062B (zh) * 2018-12-07 2021-05-25 北京金山云网络技术有限公司 负载均衡信息同步的方法、装置和处理设备
CN109726191B (zh) * 2018-12-12 2021-02-02 中国联合网络通信集团有限公司 一种跨集群数据的处理方法和系统、存储介质
CN109857528B (zh) * 2019-01-10 2021-08-27 北京三快在线科技有限公司 数据迁移的速度调整方法、装置、存储介质和移动终端
US10963378B2 (en) 2019-03-19 2021-03-30 International Business Machines Corporation Dynamic capacity allocation of stripes in cluster based storage systems
CN109933420A (zh) * 2019-04-02 2019-06-25 深圳市网心科技有限公司 节点任务调度方法、电子设备及系统
CN110300035B (zh) * 2019-05-23 2021-07-13 厦门网宿有限公司 判断存储系统负载状态的方法、系统、装置及服务器
CN110427270B (zh) * 2019-08-09 2022-11-01 华东师范大学 一种面向rdma网络下分布式连接算子的动态负载均衡方法
CN112860425A (zh) * 2019-11-28 2021-05-28 阿里巴巴集团控股有限公司 负载调度方法、装置、电子设备及计算机可读存储介质
CN112328176B (zh) * 2020-11-04 2024-01-30 北京计算机技术及应用研究所 基于多控磁盘阵列nfs共享的智能调度方法
CN112383628B (zh) * 2020-11-16 2021-06-18 北京中电兴发科技有限公司 一种基于流式存储的存储网关资源分配方法
CN113553179A (zh) * 2021-07-16 2021-10-26 北京东方国信科技股份有限公司 分布式键值存储负载均衡方法及系统
CN114615277B (zh) * 2022-03-04 2024-01-16 杭州觅恒科技有限公司 一种基于emq x的多集群动态扩展方法及系统
CN114615275B (zh) * 2022-03-04 2024-05-10 国家工业信息安全发展研究中心 一种面向云储存分布式负载均衡控制方法及装置
CN116541178B (zh) * 2023-07-06 2023-10-20 通号通信信息集团有限公司 一种Docker云平台动态负载均衡方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244685A (zh) * 2011-08-11 2011-11-16 中国科学院软件研究所 一种支持负载均衡的分布式缓存动态伸缩方法及系统
CN102594861A (zh) * 2011-12-15 2012-07-18 杭州电子科技大学 一种多服务器负载均衡的云存储系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2248003A1 (en) * 2007-12-31 2010-11-10 Netapp, Inc. System and method for automatic storage load balancing in virtual server environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244685A (zh) * 2011-08-11 2011-11-16 中国科学院软件研究所 一种支持负载均衡的分布式缓存动态伸缩方法及系统
CN102594861A (zh) * 2011-12-15 2012-07-18 杭州电子科技大学 一种多服务器负载均衡的云存储系统

Also Published As

Publication number Publication date
CN102857577A (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
CN102857577B (zh) 一种集群存储自动负载均衡的系统及方法
CN110134495B (zh) 一种容器跨主机在线迁移方法、存储介质及终端设备
CN102594861A (zh) 一种多服务器负载均衡的云存储系统
CN110221920B (zh) 部署方法、装置、存储介质及系统
CN104219318A (zh) 一种分布式文件存储系统及方法
CN103455577A (zh) 云主机镜像文件的多备份就近存储和读取方法及系统
TW201702908A (zh) 資料庫彈性調度方法以及裝置
Patni et al. Load balancing strategies for grid computing
CN102339233A (zh) 云计算集中管理平台
Singh et al. Survey on various load balancing techniques in cloud computing
CN105975345A (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN112463395A (zh) 一种资源分配方法、装置、设备及可读存储介质
CN112559122A (zh) 一种基于电力专用安防设备的虚拟化实例管控方法及系统
US10033620B1 (en) Partitioned performance adaptive policies and leases
EP3084603B1 (en) System and method for supporting adaptive busy wait in a computing environment
CN110196752A (zh) 数据处理方法、装置及存储介质
US9934268B2 (en) Providing consistent tenant experiences for multi-tenant databases
Shu et al. Dynamic load balancing and channel strategy for apache flume collecting real-time data stream
CN101853185A (zh) 刀片服务器的业务调度方法和刀片服务器
Lin et al. A workload-driven approach to dynamic data balancing in MongoDB
Suresh et al. Delay scheduling based replication scheme for hadoop distributed file system
Liu et al. Towards deadline guaranteed cloud storage services
Hanif et al. Jargon of Hadoop MapReduce scheduling techniques: a scientific categorization
Seibold et al. Efficient deployment of main-memory DBMS in virtualized data centers
KR20100011000A (ko) 그리드 데이터 베이스의 데이터 버전 관리 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 100085 No. 1, building 3, building ten, No. 8, 813 street, Beijing, Haidian District

Patentee after: Beijing Lianchuang Xinan Technology Co., Ltd.

Address before: 100085, room 712, room 7, block D, Jinyu Ka Wah building, No. 9, 3rd Street, Haidian District, Beijing

Patentee before: Beijing Lianchuang Xinan Technology Co.,Ltd.