CN107480030A - 一种对节点进行统一管理的集群部署方法及系统 - Google Patents

一种对节点进行统一管理的集群部署方法及系统 Download PDF

Info

Publication number
CN107480030A
CN107480030A CN201710656297.0A CN201710656297A CN107480030A CN 107480030 A CN107480030 A CN 107480030A CN 201710656297 A CN201710656297 A CN 201710656297A CN 107480030 A CN107480030 A CN 107480030A
Authority
CN
China
Prior art keywords
node
calculate
calculate node
ment
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710656297.0A
Other languages
English (en)
Inventor
王承龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710656297.0A priority Critical patent/CN107480030A/zh
Publication of CN107480030A publication Critical patent/CN107480030A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种对节点进行统一管理的集群部署方法及系统,方法包括的步骤为:搭建部署环境;编辑配置文件,增加计算节点;在管理节点部署监控工具并配置相关文件。系统包括管理节点和多个计算节点,所述管理节点通过网络连接计算节点,管理节点上设有监控工具,管理节点通过网络向计算节点发送命令,远程进入计算节点,利用监控工具查看计算节点的命令执行情况;所述计算节点用于接收管理节点的命令并执行该命令。与现有技术相比,本发明方便用户按照自己的意愿实现对计算节点的灵活控制,HPC集群部署在使用过程中出现问题时,可通过修改相应的配置文件或命令进行修复,使用方便,提高工作效率。

Description

一种对节点进行统一管理的集群部署方法及系统
技术领域
本发明涉及计算机技术领域,具体地说是一种对节点进行统一管理的集群部署方法及系统。
背景技术
随着并行计算科技的发展,往往一个任务需要成百上千台机器进行计算或者承载并且这些机器系统完全相同,为满足上述需求,HPC集群系统应用而生。
HPC(High Performance Computing,高性能计算机群)集群系统可以承载或者驱动硬件进行科研机构的计算任务、各种管理任务或者提供大量可用的数据信息等。此时大家往往最担心的就是系统的管理和软件的部署,而如果一台台的去部署软件或者系统,往往会耗费很大的时光和精力。
现有技术中关于HPC集群的部署多采用Windows HPC PACK(一种集群部署软件),但Windows HPC PACK是未开源的技术和方法,在使用过程中一旦出现问题,无法在现有部署的基础上修复,只能重新部署,浪费时间和人力。
发明内容
本发明的目的在于提供一种对节点进行统一管理的集群部署方法及系统,用于解决集群部署软件在使用过程中出现故障时,无法修复的问题。
本发明解决其技术问题所采用的技术方案是:一种对节点进行统一管理的集群部署方法,包括以下步骤:
搭建部署环境;
编辑配置文件,增加计算节点;
在管理节点部署监控工具并配置相关文件。
进一步地,所述搭建部署环境的具体步骤为:
在管理节点部署操作系统;
通过网络连接计算节点;
在计算节点部署无密码访问权限。
进一步地,所述无密码访问权限为SSH或RSH的无密码访问权限。
进一步地,所述编辑配置文件,增加计算节点具体为通过在配置文件中添加计算节点的名称来增加集群内计算节点的数目。
进一步地,所述监控工具为PDSH软件。
进一步地,所述配置相关文件包括系统的host文件。
进一步地,所述在管理节点部署监控工具并配置相关文件的步骤之后还包括步骤:通过在管理节点运行测试命令检测计算节点的执行情况来判断部署过程是否符合要求。
进一步地,所述通过在管理节点运行测试命令检测计算节点的执行情况来判断部署过程是否符合要求的具体步骤为:
在管理节点运行测试命令;
查看计算节点的输出情况;
若计算节点同时输出测试命令对应的结果,则部署过程符合要求;否则部署过程不符合要求。
一种对节点进行统一管理的集群部署系统,包括管理节点和多个计算节点,所述管理节点通过网络连接计算节点,管理节点上设有监控工具,管理节点通过网络向计算节点发送命令,远程进入计算节点,利用监控工具查看计算节点的命令执行情况;所述计算节点用于接收管理节点的命令并执行该命令。
进一步地,所述管理节点通过SSH或RSH的无密码访问模式远程进入计算节点。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、通过在管理节点部署监控工具,通过监控工具配置相关文件以及向计算节点发送控制命令,方便用户按照自己的意愿实现对计算节点的灵活控制;当HPC集群部署在使用过程中出现问题时,无需重新进行配置工作,可通过修改相应的配置文件或命令进行修复,使用方便,提高工作效率。
2、所有计算节点接收的命令均通过管理节点发送,计算节点之间无数据传递、交互,避免某个计算节点故障造成对其他计算节点的影响,保证系统输出结果的可靠性。
3、管理节点通过PDSH监控工具实现对计算节点的控制,在HPC集群系统部署完毕之后首先通过测试命令验证部署的系统是否符合要求,为系统的安全性和可靠性提供了进一步地保障。
4、管理节点远程进入计算节点查看计算节点的命令执行情况,可通过SSH或RSH多种管理模式远程查看,系统兼容性强。
附图说明
图1是本发明的方法流程图;
图2是本发明的系统结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明提供的一种对节点进行统一管理的集群部署方法,包括以下步骤:
S1,搭建部署环境;
S2,编辑配置文件,增加计算节点;
S3,在管理节点部署监控工具并配置相关文件。
步骤S1中搭建部署环境的具体步骤为:
S11,在管理节点部署操作系统;
S12,通过网络连接计算节点;
S13,在计算节点部署无密码访问权限。
步骤S13中无密码访问权限包括SSH(Secure Shell,可加密的Shell,其中shell是一种编程语言)或RSH(Remote shell,远程Shell)的无密码访问权限。
步骤S2中编辑配置文件,增加计算节点具体为:通过在配置文件中添加计算节点的名称来增加集群内计算节点的数目。
步骤S3中,在管理节点部署的监控工具为PDSH软件,其中PDSH是ParallelDistributed Shell的缩写,含义为“平行分布的shell”。管理节点可通过该监控工具配置相关文件以及向计算节点发送控制命令,方便用户按照自己的意愿实现对计算节点的灵活控制;当HPC集群部署在使用过程中出现问题时,无需重新进行配置工作,可通过修改相应的配置文件或命令进行修复,使用方便,提高工作效率。
为系统的安全性和可靠性提供了进一步地保障,在步骤S3之后还包括步骤:通过在管理节点运行测试命令检测计算节点的执行情况来判断部署过程是否符合要求。具体过程为:
在管理节点运行测试命令;
查看计算节点的输出情况;
若计算节点同时输出测试命令对应的结果,则部署过程符合要求;否则部署过程不符合要求。若部署过程不符合要求时,不需要重新进行部署工作,可通过步骤S3配置相关文件来修复,其中配置相关文件包括系统文件,如host文件。
如图2所示,本发明公开的一种对节点进行统一管理的集群部署系统,包括管理节点1和计算节点2,其中计算节点2有多个,分别命名为computer1,computer2。Computer3,computer……,管理节点1通过以太网连接计算节点2,管理节点1上设有监控工具,管理节点1通过网络向计算节点2发送命令,远程进入计算节点2,利用监控工具查看计算节点2的命令执行情况;所述计算节点2用于接收管理节点1的命令并执行该命令。
管理节点1通过SSH或RSH的无密码访问模式远程进入计算节点2,本系统的兼容性强。
管理节点1为MGMT(Management,管理)服务器,MGMT服务器通过以太网网络进行消息的传输,如PDSH及ssh_no_password(无密码访问脚本)的消息,命令为Pdsh–R sshcomputer[1-3]‘date’,计算节点2的computer1-3接收到“date”命令,在系统部署符合要求的情况下,computer1-3会同时输出“May12 14:08:12CST 2017”的字样,在管理节点1上输出“Command excute successful”字样,若computer执行有误,管理节点1上会输出“Someerror happened”字样。实现管理节点1对计算节点2的准确管理。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.一种对节点进行统一管理的集群部署方法,其特征是:包括以下步骤:
搭建部署环境;
编辑配置文件,增加计算节点;
在管理节点部署监控工具并配置相关文件。
2.根据权利要求1所述的一种对节点进行统一管理的集群部署方法,其特征是:所述搭建部署环境的具体步骤为:
在管理节点部署操作系统;
通过网络连接计算节点;
在计算节点部署无密码访问权限。
3.根据权利要求2所述的一种对节点进行统一管理的集群部署方法,其特征是:所述无密码访问权限为SSH或RSH的无密码访问权限。
4.根据权利要求1所述的一种对节点进行统一管理的集群部署方法,其特征是:所述编辑配置文件,增加计算节点具体为通过在配置文件中添加计算节点的名称来增加集群内计算节点的数目。
5.根据权利要求1所述的一种对节点进行统一管理的集群部署方法,其特征是:所述监控工具为PDSH软件。
6.根据权利要求1所述的一种对节点进行统一管理的集群部署方法,其特征是:所述配置相关文件包括系统的host文件。
7.根据权利要求1-6任一项所述的一种对节点进行统一管理的集群部署方法,其特征是:所述在管理节点部署监控工具并配置相关文件的步骤之后还包括步骤:通过在管理节点运行测试命令检测计算节点的执行情况来判断部署过程是否符合要求。
8.根据权利要求7所述的一种对节点进行统一管理的集群部署方法,其特征是:所述通过在管理节点运行测试命令检测计算节点的执行情况来判断部署过程是否符合要求的具体步骤为:
在管理节点运行测试命令;
查看计算节点的输出情况;
若计算节点同时输出测试命令对应的结果,则部署过程符合要求;否则部署过程不符合要求。
9.一种对节点进行统一管理的集群部署系统,其特征是:包括管理节点和多个计算节点,所述管理节点通过网络连接计算节点,管理节点上设有监控工具,管理节点通过网络向计算节点发送命令,远程进入计算节点,利用监控工具查看计算节点的命令执行情况;所述计算节点用于接收管理节点的命令并执行该命令。
10.根据权利要求9所述的一种对节点进行统一管理的集群部署系统,其特征是:所述管理节点通过SSH或RSH的无密码访问模式远程进入计算节点。
CN201710656297.0A 2017-08-03 2017-08-03 一种对节点进行统一管理的集群部署方法及系统 Pending CN107480030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710656297.0A CN107480030A (zh) 2017-08-03 2017-08-03 一种对节点进行统一管理的集群部署方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710656297.0A CN107480030A (zh) 2017-08-03 2017-08-03 一种对节点进行统一管理的集群部署方法及系统

Publications (1)

Publication Number Publication Date
CN107480030A true CN107480030A (zh) 2017-12-15

Family

ID=60597446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710656297.0A Pending CN107480030A (zh) 2017-08-03 2017-08-03 一种对节点进行统一管理的集群部署方法及系统

Country Status (1)

Country Link
CN (1) CN107480030A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、系统、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050013255A1 (en) * 2003-07-18 2005-01-20 International Business Machines Corporation Automatic configuration of network for monitoring
CN102169448A (zh) * 2011-03-18 2011-08-31 浪潮电子信息产业股份有限公司 一种集群并行运算环境的部署方法
CN102567458A (zh) * 2011-11-18 2012-07-11 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050013255A1 (en) * 2003-07-18 2005-01-20 International Business Machines Corporation Automatic configuration of network for monitoring
CN102169448A (zh) * 2011-03-18 2011-08-31 浪潮电子信息产业股份有限公司 一种集群并行运算环境的部署方法
CN102567458A (zh) * 2011-11-18 2012-07-11 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、系统、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11176030B2 (en) Conducting automated software testing using centralized controller and distributed test host servers
CN102437938B (zh) 面向大规模网络监测的虚拟化部署系统和方法
CN105205003A (zh) 一种基于集群化系统的自动化测试方法和装置
US10223248B2 (en) Conducting automated software testing using centralized controller and distributed test host servers
CN111147322A (zh) 5g核心网微服务架构的测试系统及方法
CN103138988B (zh) 网络故障的定位处理方法及装置
US20140372989A1 (en) Identification of a failed code change
CN102541729A (zh) 软件安全漏洞检测装置和方法
CN107506295B (zh) 虚拟机备份的测试方法、设备及计算机可读存储介质
CN110046073A (zh) 一种日志采集方法及装置、设备、存储介质
CN110752969A (zh) 一种性能检测方法、装置、设备及介质
CA2708999A1 (en) Method and system for generating electronic documentation for maintenance
CN116405412B (zh) 基于混沌工程故障模拟服务端集群有效性验证方法和系统
CN109905263A (zh) 一种自动化运维部署系统
CN107404389A (zh) 业务部署方法、装置和系统
CN111752741A (zh) 一种系统性能检测的方法及装置
CN103440460A (zh) 一种应用系统变更验证方法及验证系统
CN118227271A (zh) 基于容器云平台的终端一体机运维方法及装置
CN108600007B (zh) 一种云平台责任追溯方法和系统
CN107480030A (zh) 一种对节点进行统一管理的集群部署方法及系统
CN107544830A (zh) 一种自动安装数据库的方法及装置
WO2016188223A1 (zh) 故障信息采集的方法及装置
Du et al. High availability verification framework for OpenStack based on fault injection
CN107423107B (zh) 一种移动分布式数据中心的构建方法
CN115396231A (zh) 一种网络安全设备测试系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215