CN102394936B - 集群系统无损业务维护方法 - Google Patents

集群系统无损业务维护方法 Download PDF

Info

Publication number
CN102394936B
CN102394936B CN2011103582443A CN201110358244A CN102394936B CN 102394936 B CN102394936 B CN 102394936B CN 2011103582443 A CN2011103582443 A CN 2011103582443A CN 201110358244 A CN201110358244 A CN 201110358244A CN 102394936 B CN102394936 B CN 102394936B
Authority
CN
China
Prior art keywords
node
file
cluster
business
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011103582443A
Other languages
English (en)
Other versions
CN102394936A (zh
Inventor
撖美霞
夏章抓
张光旭
于正刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Qingdao Hisense Media Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hisense Media Network Technology Co Ltd filed Critical Qingdao Hisense Media Network Technology Co Ltd
Priority to CN2011103582443A priority Critical patent/CN102394936B/zh
Publication of CN102394936A publication Critical patent/CN102394936A/zh
Priority to PCT/CN2012/083763 priority patent/WO2013067893A1/zh
Application granted granted Critical
Publication of CN102394936B publication Critical patent/CN102394936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及计算机集群技术领域,提供了一种集群系统无损业务维护方法。本发明的方法中,主要通过对集群系统中某一节点闲置状态和空闲状态的设置来标记该节点的可操作性,保证了在暂时无法访问某一个节点之前,该节点可以顺利完成当前的业务,无需退出集群;在节点完成维护操作之后,可直接执行暂停的删除业务并接收新业务,也无需再次加入集群。因而本发明可以做到无损业务,保证了集群业务的连续性,减少了节点退出加入造成的损失,并保证了从节点存储文件的完整性,避免从节点端产生垃圾文件。此外,本发明的方法还通过对热点文件的备份管理,有效地提高了集群性能和可靠性,消除了节点短期失效造成的各种负面影响。

Description

集群系统无损业务维护方法
技术领域
本发明涉及计算机集群技术领域,特别涉及一种集群系统无损业务维护方法。
背景技术
分布式文件系统(Distributed File System,DFS)是由一个主节点(Master)和至少一个从节点(Slave)组成的集群(Cluster)系统,用于存储和共享在物理上跨网络分布的文件。分布式文件系统中,主节点负责信令处理,从节点负责数据(即文件)处理。共享文件存储于从节点的服务器中,由主节点控制存储、删除;一个共享文件可以在不同的从节点中存储多份。
主节点通过设置集群成员的加减来管辖集群内的从节点。从节点加入集群时,主节点将从节点当作是全新的,加入集群之前存储的内容,主节点完全不信任也不维护;随后,主节点主动向从节点发起心跳信号,从节点回复该心跳信号,之后定期进行心跳信号的发送和应答,从节点回复的心跳信息中包括从节点存储的文件信息和当前业务进度。此后,从节点存储、删除文件完全由主节点控制。从节点退出时,主节点从集群成员中减掉的从节点,主节点不再管理,此后该从节点的数据主节点会当作垃圾数据处理。主节点通过保存在本地的文件维护从节点的存储和业务信息,实现数据持久化,保证主节点重启后,数据不会丢失。
用户应用访问DFS进行各种文件处理业务,如上载共享文件、删除文件或读取文件等,都要通过主节点来驱动从节点,因此,主节点掌握从节点一切对外行为,包括当前处理的任何对外业务,这些都通过主节点在本地存储的文件来维护。
现有技术中,从节点一旦加入主节点的集群,便一直处于工作状态,而一旦退出集群,便处于不受管辖的无用状态。在系统运行的过程中,经常会碰上需要暂时停止使用从节点的情况,如进行日常维护通常需要重启从节点进程或者重启从节点服务器。为避免从节点处于工作状态而又无法访问的状况造成主节点对从节点的管理处于失控状态,现有技术在此时的处理一般都是直接停止业务,使从节点退出集群,在重启后再加入集群重新执行相关业务(或是直接放弃相关业务)。可以看出,现有技术的处理方式可能会导致正在处理的业务执行失败,造成不必要的损失,并且从节点退出再重新加入的过程会在从节点处产生垃圾文件。
发明内容
(一)要解决的技术问题
针对现有技术的缺点,本发明为了解决现有技术中集群系统维护时导致的业务处理失败的问题,提出了一种集群系统无损业务维护方法,通过对从节点的状态管理保证了系统维护时的无损业务处理。
(二)技术方案
为了实现上述目的,本发明采用如下技术方案:
一种集群系统无损业务维护方法,所述方法包括步骤:在需要进行系统维护时,主节点将维护涉及的从节点的状态信息标记为闲置状态,并暂停为该从节点分配新的业务;从节点继续完成当前的业务,若主节点接收到针对该从节点的删除文件命令,只做记录,不向该从节点发起所述删除文件命令;从节点完成当前业务后,主节点将该从节点的状态信息标记为空闲状态,随后该从节点接受相关维护操作;完成维护操作后,主节点将该从节点的状态信息标记为工作状态,并向该从节点发送已记录的所述删除文件命令,从节点根据所述删除文件命令删除文件,主节点更新集群配置文件,随后主节点正常给该从节点分配新业务。
优选地,主从节点之间通过周期性的心跳信息应答来更新从节点的状态信息。
优选地,在从节点处于空闲状态时,主节点仍然保持继续发送心跳信息,并忽略收不到回复的情况,直到收到从节点完成维护操作后回复的心跳信息;在从节点处于工作状态或闲置状态时,当心跳信息有异常时,主节点处理异常。
优选地,主节点以从节点的IP地址作为输入,依据IP地址查找在本地存储的集群配置文件对从节点和集群信息进行设置。
优选地,所述维护操作包括关闭从节点和/或系统、修改从节点和/或系统的配置参数、对从节点和/或系统程序升级、重启从节点和/或系统。
优选地,在某从节点进入闲置状态后,主节点通过计算文件的热点排行产生该从节点中并发访问需求大的文件的备份。
优选地,主节点根据删除文件命令删除对应的备份文件。
优选地,根据所述删除文件命令删除文件时,若文件正在被读取,则延时删除。
优选地,在集群系统中,主节点随时依据文件的访问量做热点统计,将访问量大的文件自动复制到负载较轻的从节点上;在文件访问量变小后,自动删除复制的文件。
优选地,集群配置文件中记录的信息包括:从节点系统信息、从节点状态信息、从节点的存储文件信息、从节点当前业务信息、网络负载、负载均衡参数和异常标记。
(三)有益效果
本发明的方法中,通过对集群系统中某一节点的状态设置来标记该节点的可操作性,保证了在暂时无法访问某一个节点之前,该节点可以顺利完成当前的业务,因而可以做到无损业务,保证了集群业务的连续性,减少了节点退出加入造成的损失,并保证了从节点存储文件的完整性,避免从节点端产生垃圾文件。此外,本发明的方法还通过对热点文件的备份管理,有效地提高了集群性能和可靠性,消除了节点短期失效造成的各种负面影响。
附图说明
图1为本发明中集群系统无损业务维护方法的处理流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,通过主节点对从节点的状态控制,使从节点在重启前能够顺利完成当前业务的处理,而在重启后又能及时处理累积的相关业务并正常接收和处理新业务。本发明的方法可以保证集群系统不因维护操作造成业务损失,保证了从节点的持续有效,因而可实现无损业务处理并避免了维护时在从节点产生的大量垃圾文件。
具体地,本发明的集群系统无损业务维护方法的处理流程如图1所示,包括步骤:
在需要进行系统维护时,主节点接收维护涉及的从节点的IP地址作为输入,依据IP地址查找在本地存储的集群配置文件,将该从节点状态信息标记为闲置状态,并暂停为该从节点分配新的业务;
从节点继续完成当前的工作,同时主节点保持该从节点的存储文件信息不变,若主节点接收到针对该从节点的删除文件命令,只做记录,不向该从节点发起删除命令;
从节点完成当前业务后,主节点依据该从节点的IP地址查找在本地存储的集群配置文件,将该从节点状态信息标记为空闲状态,随后该从节点接受相关维护操作;
完成维护操作后,主节点依据该从节点的IP地址查找在本地存储的集群配置文件,将该从节点状态信息标记为工作状态,并且向该从节点发送记录的删除文件命令,从节点根据删除文件命令删除文件,主节点更新集群配置文件,随后主节点正常给该从节点分配新业务。
在本发明中,主从节点之间通过周期性的心跳信息应答来维护从节点状态信息。在从节点处于空闲状态时,主节点仍然保持继续发送心跳信息,并忽略收不到回复的情况,直到收到从节点完成维护操作后回复的心跳信息。在从节点处于工作状态或闲置状态时,当心跳信息有异常时,主节点处理异常。
主节点在本地存储的集群配置文件中记录的信息包括从节点系统信息(IP地址、端口、配置参数、系统能力等)、从节点状态信息、从节点的存储文件信息、从节点当前业务信息(业务类型、业务文件名称、文件存储地址、处理进度等)、网络负载、负载均衡参数、异常标记等。在从节点进入闲置状态后,主节点通过缓存或集群配置文件记录针对该从节点的删除文件命令。
对从节点或系统的维护操作具体包括关闭从节点或系统、修改从节点或系统的配置参数、对从节点或系统程序升级、重启从节点或系统等。
主节点分配给从节点的文件处理业务包括文件上载、文件删除或文件读取等。当用户应用将共享文件上载到DFS中时,先与主节点通信,传递文件大小等信息,主节点依据负载均衡和网络负载等参数,选择最优的从节点,返回从节点的IP地址和端口给用户应用,同时通知从节点有文件上载并将文件名、文件大小等信息通知从节点。用户应用与从节点交互,传递文件,从节点接收到文件后,通知主节点,在用户应用传递文件结束,发送消息给主节点通知业务处理完成。
在主节点端,为了提供更高的读取性能和可靠性,还可以设置上载文件的备份。即上载完成后,主节点通知下一个从节点,从前一个从节点拷贝文件;从节点之间拷贝文件完毕后,分别通知主节点拷贝完毕。主节点更新本地集群配置文件信息。
在某从节点进入闲置状态后,由于该从节点不对外提供业务,导致此从节点上存储的所有文件在整个DFS中缺少了一份,如果针对于这些共享文件有大的并发访问需求时,会造成DFS中存储有这些文件的其他从节点成为性能瓶颈。在此情况下,主节点通过计算文件的热点排行再产生一份文件的应急备份(拷贝到负载情况较优的从节点上),当从节点在维护期间无法访问时,通过访问该应急备份可以解决上述问题。
删除文件时,用户应用通知主节点要删除文件的文件名,主节点选择存储此文件的从节点,通知从节点删除文件。若文件正在被读取,则延时删除。
此外,系统正常工作时,若用户应用要读取文件,先与主节点通信,传递文件名信息,主节点依据负载均衡参数选择存储有该文件并且负载最小的从节点,通知给用户应用,用户应用获取到从节点的IP地址和端口后,与从节点通信,获取文件,完毕,各自向主节点汇报。当针对于某个共享文件出现较大的并发访问时,可能会对存储这个文件的从节点造成性能问题,主节点依据访问量做热点文件统计,过热的文件会自动复制到其他负载较轻的从节点上,由热变冷的文件(通过设置访问量阈值来判定文件的冷热度),会自动删除复制的文件,这个过程由主节点自动维护。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘等。更进一步地,在集群系统中,主节点可以通过设计几个应用程序接口来执行上述实施例中的方法:如通过调用第一接口,主节点查找并维护从节点的相关信息,设置从节点的相应状态(闲置状态或空闲状态)、记录删除文件命令等;通过调用第二接口,获取从节点正在处理的业务情况以及业务处理进度等;在从节点完成维护操作后,通过调用第三接口,将该从节点设置为工作状态,保持相关从节点的存储文件信息,做心跳交互确认,随后向从节点发送累积的删除文件命令,结束删除后继续给从节点分配业务,正常交互。
本发明的方法中,主要通过对集群系统中某一节点的状态设置(闲置状态和空闲状态)来标记该节点的可操作性,保证了在暂时无法访问某一个节点(类似于节点放假的情况)之前,该节点可以顺利完成当前的业务,无需退出集群;在节点完成维护操作之后(即结束放假后),可直接执行暂停的删除业务并接收新业务,也无需再次加入集群。因而本发明在程序升级、修改参数需要重启该集群节点时,可以做到无损业务,保证了集群业务的连续性,减少了节点退出加入造成的损失,并保证了从节点存储文件的完整性,避免从节点端产生垃圾文件。此外,本发明的方法还通过对热点文件的备份管理,有效地提高了集群性能和可靠性,消除了节点短期失效造成的各种负面影响。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的发明保护范围应由权利要求限定。

Claims (10)

1.一种集群系统无损业务维护方法,其特征在于,所述方法包括步骤:
在需要进行系统维护时,主节点将维护涉及的从节点的状态信息标记为闲置状态,并暂停为该从节点分配新的业务;
从节点继续完成当前的业务,若主节点接收到针对该从节点的删除文件命令,只做记录,不向该从节点发起所述删除文件命令;
从节点完成当前业务后,主节点将该从节点的状态信息标记为空闲状态,随后该从节点接受相关维护操作;
完成维护操作后,主节点将该从节点的状态信息标记为工作状态,并向该从节点发送已记录的所述删除文件命令,从节点根据所述删除文件命令删除文件,主节点更新集群配置文件,随后主节点正常给该从节点分配新业务。
2.根据权利要求1所述的方法,其特征在于,主从节点之间通过周期性的心跳信息应答来更新从节点的状态信息。
3.根据权利要求2所述的方法,其特征在于,在从节点处于空闲状态时,主节点仍然保持继续发送心跳信息,并忽略收不到回复的情况,直到收到从节点完成维护操作后回复的心跳信息;在从节点处于工作状态或闲置状态时,当心跳信息有异常时,主节点处理异常。
4.根据权利要求1所述的方法,其特征在于,主节点以从节点的IP地址作为输入,依据IP地址查找在本地存储的集群配置文件对从节点和集群信息进行设置。
5.根据权利要求1所述的方法,其特征在于,所述维护操作包括关闭从节点和/或系统、修改从节点和/或系统的配置参数、对从节点和/或系统程序升级、重启从节点和/或系统。
6.根据权利要求1所述的方法,其特征在于,在某从节点进入闲置状态后,主节点通过计算文件的热点排行产生该从节点中并发访问需求大的文件的备份。
7.根据权利要求6所述的方法,其特征在于,主节点根据删除文件命令删除对应的备份文件。
8.根据权利要求1或7所述的方法,其特征在于,根据所述删除文件命令删除文件时,若文件正在被读取,则延时删除。
9.根据权利要求1所述的方法,其特征在于,在集群系统中,主节点随时依据文件的访问量做热点统计,将访问量大的文件自动复制到负载较轻的从节点上;在文件访问量变小后,自动删除复制的文件。
10.根据权利要求1所述的方法,其特征在于,集群配置文件中记录的信息包括:从节点系统信息、从节点状态信息、从节点的存储文件信息、从节点当前业务信息、网络负载、负载均衡参数和异常标记。
CN2011103582443A 2011-11-11 2011-11-11 集群系统无损业务维护方法 Active CN102394936B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011103582443A CN102394936B (zh) 2011-11-11 2011-11-11 集群系统无损业务维护方法
PCT/CN2012/083763 WO2013067893A1 (zh) 2011-11-11 2012-10-30 集群系统的从节点维护方法和业务处理方法以及主节点

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103582443A CN102394936B (zh) 2011-11-11 2011-11-11 集群系统无损业务维护方法

Publications (2)

Publication Number Publication Date
CN102394936A CN102394936A (zh) 2012-03-28
CN102394936B true CN102394936B (zh) 2013-11-20

Family

ID=45862140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103582443A Active CN102394936B (zh) 2011-11-11 2011-11-11 集群系统无损业务维护方法

Country Status (2)

Country Link
CN (1) CN102394936B (zh)
WO (1) WO2013067893A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394936B (zh) * 2011-11-11 2013-11-20 青岛海信传媒网络技术有限公司 集群系统无损业务维护方法
CN105009513B (zh) * 2013-12-03 2018-09-28 华为技术有限公司 分布式系统的节点设备更新的方法、节点设备及分布式系统
CN103888545A (zh) * 2014-04-14 2014-06-25 北京搜狐新媒体信息技术有限公司 一种分布式系统中全局型数据的处理方法和装置
CN107589951B (zh) * 2016-07-05 2021-01-22 北京金山云网络技术有限公司 一种集群升级方法及装置
CN106897128B (zh) * 2017-01-19 2021-06-22 网宿科技股份有限公司 一种分布式应用退出方法、系统以及服务器
CN108924195A (zh) * 2018-06-20 2018-11-30 郑州云海信息技术有限公司 一种单向心跳机制实现方法、装置、设备及系统
CN113596195B (zh) * 2021-08-23 2022-11-22 重庆紫光华山智安科技有限公司 公共ip地址管理方法、装置、主节点及存储介质
CN113807924A (zh) * 2021-09-24 2021-12-17 华院分析技术(上海)有限公司 基于批量处理算法的业务处理分配方法、系统、存储介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725702A (zh) * 2004-07-20 2006-01-25 联想网御科技(北京)有限公司 一种网络安全设备及其组成的实现高可用性的系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055735B2 (en) * 2007-10-30 2011-11-08 Hewlett-Packard Development Company, L.P. Method and system for forming a cluster of networked nodes
CN102117402A (zh) * 2010-12-31 2011-07-06 胡利锋 一种智能统计的系统
CN102394936B (zh) * 2011-11-11 2013-11-20 青岛海信传媒网络技术有限公司 集群系统无损业务维护方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725702A (zh) * 2004-07-20 2006-01-25 联想网御科技(北京)有限公司 一种网络安全设备及其组成的实现高可用性的系统及方法

Also Published As

Publication number Publication date
CN102394936A (zh) 2012-03-28
WO2013067893A1 (zh) 2013-05-16

Similar Documents

Publication Publication Date Title
CN102394936B (zh) 集群系统无损业务维护方法
AU2019236685B2 (en) Distributed file system using consensus nodes
CN102523279B (zh) 一种分布式文件系统及其热点文件存取方法
US7631151B2 (en) Systems and methods for classifying and transferring information in a storage network
JP6044539B2 (ja) 分散ストレージシステムおよび方法
US9251235B1 (en) Log-based synchronization
US20180101558A1 (en) Log-shipping data replication with early log record fetching
US20130304694A1 (en) Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform
CN104391930A (zh) 分布式文件存储装置和方法
US20130325804A1 (en) Replica identification and collision avoidance in file system replication
US20070079088A1 (en) Information processing system, control method for information processing system, and storage system
JP2004334574A (ja) ストレージの運用管理プログラム、運用管理方法及び管理計算機
JP2005258847A (ja) フェイルオーバクラスタシステム及びフェイルオーバ方法
CN105324757A (zh) 具有分布式清单的去复制的数据存储系统
US20100023532A1 (en) Remote file system, terminal device, and server device
JP2008117342A (ja) ストレージシステムおよびリモートコピーを制御するためのコントローラ
CN105324765A (zh) 选择用于去重复数据的存储区
KR102064696B1 (ko) 공유 콘텐츠 항목의 저장소 제약된 동기화
US20140214766A1 (en) Storage system and control device
JP5521595B2 (ja) ストレージシステム及びストレージ制御方法
US20180203612A1 (en) Adaptive storage reclamation
CN105049258A (zh) 网络容灾系统的数据传输方法
US9513996B2 (en) Information processing apparatus, computer-readable recording medium having stored program for controlling information processing apparatus, and method for controlling information processing apparatus
US11223528B2 (en) Management of cloud-based shared content using predictive cost modeling
CN115729749A (zh) 一种数据备份方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170124

Address after: 266100 Shandong Province, Qingdao city Laoshan District Songling Road No. 399

Patentee after: Poly Polytron Technologies Inc

Address before: 266071 Laoshan, Qingdao province Hongkong District No. East Road, room 248, room 131

Patentee before: Qingdao Hisense Media Networks Co., Ltd.