CN1851686A - 一种自主构造机群操作系统内核的方法及智能构造器 - Google Patents

一种自主构造机群操作系统内核的方法及智能构造器 Download PDF

Info

Publication number
CN1851686A
CN1851686A CN 200510066312 CN200510066312A CN1851686A CN 1851686 A CN1851686 A CN 1851686A CN 200510066312 CN200510066312 CN 200510066312 CN 200510066312 A CN200510066312 A CN 200510066312A CN 1851686 A CN1851686 A CN 1851686A
Authority
CN
China
Prior art keywords
node
module
service
role
collocation strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510066312
Other languages
English (en)
Other versions
CN100430917C (zh
Inventor
张志宏
詹剑锋
刘耕圃
孟丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
TIANJIN SUGON COMPUTER INDUSTRY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN SUGON COMPUTER INDUSTRY Co Ltd filed Critical TIANJIN SUGON COMPUTER INDUSTRY Co Ltd
Priority to CNB2005100663123A priority Critical patent/CN100430917C/zh
Publication of CN1851686A publication Critical patent/CN1851686A/zh
Application granted granted Critical
Publication of CN100430917C publication Critical patent/CN100430917C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Multi Processors (AREA)

Abstract

本发明公开了一种自主构造机群操作系统内核的智能构造器,包括:配置数据库模块、管理中心模块、配置策略控制器模块、服务程序存储模块和节点智能代理模块;其中,节点智能代理模块处于机群的各个节点上,每一个节点分布一个智能代理模块,配置策略控制器模块、管理中心模块和配置数据库模块位于一台计算机终端上,服务程序存储模块位于一个专门的存储服务器上。本发明的优点在于:通过自主的工作方式大大简化了机群操作系统的配置、部署、引导和维护的复杂度,减轻了系统管理员构造机群操作系统内核时的工作压力,降低了出错的可能;可对系统进行动态调整和重组,增加了机群的自适应性,增强了系统的故障容错能力,提高了系统的可靠性。

Description

一种自主构造机群操作系统内核的方法及智能构造器
技术领域
本发明涉及机群操作系统,特别涉及到机群操作系统内核的构造。
背景技术
机群是一组独立的计算机节点的集合体,节点间通过高性能的互联网络连接,各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。在机群中,各个节点有各自的角色,大致可以分为计算角色和服务角色。计算角色的作用是实现数据的计算;服务角色的作用是运行各种服务程序,如文件服务、监控服务等,以便于机群的管理和使用。机群自问世以来,以其良好的可扩展性和富有竞争力的性能价格比迅速成为高性能计算的主流体系结构,其应用也遍布因特网服务、数据库服务等商业领域。
机群操作系统建立在节点操作系统基础之上,为普通用户、软件开发者和系统管理员提供单一系统映像支撑,是机群中最基本的一个系统软件集。机群操作系统内核是覆盖了机群操作系统核心功能的最小子集,它由提供各种通用服务的软件服务模块或者说服务程序组成,如侦测服务程序、组服务程序、事件服务程序、高可用服务程序、配置服务程序等。机群操作系统内核提供统一、标准的接口给上层子系统使用。关于机群操作系统内核的详细信息可见申请号为200310118384.9的中国专利申请“机群操作系统高可用内核系统及其构造方法”。
机群操作系统内核的各个服务程序之间具有比较大的相互依赖关系,如何对这些服务程序乃至整个机群操作系统进行正确的配置、部署和引导是系统管理员的一个重要任务。机群操作系统内核的构造具体操作步骤通常如下文所述。
1)配置步骤:系统管理员在配置数据库中录入配置信息,配置信息包括节点的配置信息和服务配置信息。节点的配置信息通常包括节点的硬件信息,操作系统信息、网络设置和角色信息。服务配置信息指某一服务应该在哪些节点上运行,各个节点启动服务的先后顺序等信息。
2)部署步骤:按照配置步骤获得的配置信息安装服务程序。对于某些服务程序如组服务、事件服务等只需要在服务节点上安装,而对于侦测服务则需要在包括计算节点和服务节点的所有节点上安装。服务程序的安装主要包括文件拷贝和运行环境的设置。其中,文件拷贝是将库文件和应用程序的可执行文件拷贝到各节点上,运行环境的设置主要包括环境变量和网络路由的设置以及创建工作目录等。
3)引导步骤:按照各种服务的依赖关系依次引导各个服务程序,机群操作系统内核中各个服务程序的启动次序通常依次为:配置服务程序、组服务程序、侦测服务程序、事件服务程序、高可用服务程序。关于引导的具体操作可参见前述的专利200310118384.9。
从前述描述可知,配置、部署和引导是构造系统内核的必需的紧密相关的三个步骤,配置为部署和引导提供了指导,而部署又是引导的前提条件。在现有技术中,对机群操作系统的配置、部署和引导是由系统管理员通过命令行或图形界面的方式手工实现的。这种手工构造机群操作系统内核的方法存在以下缺点:
1、需要管理员手工完成配置、部署和引导的工作,使系统管理员承受巨大的工作压力,在这种压力下系统管理员的一个微小的错误很可能导致整个系统的瘫痪;
2、在构造操作系统的过程中,配置、部署和引导三个步骤相互分离,系统的构造过程只能静态完成,而很难进行动态调整和重构。例如在机群中,当发生新节点的加入、节点或网络的失效等情况时,为了使得机群系统服务正常工作或者说为了使得机群系统中各个节点得负载均衡,都需要机群操作系统进行重新调整,现有技术中,操作系统的重新调整也需要系统管理员手工实现,而不能实现自动的根据机群系统中节点的变化而进行动态调整和重构。例如,当某个服务节点死机后,若采用现有技术中的手工实现方法,管理员首先要侦测到节点死机的事件,然后选择一个负载较轻的服务节点,安装服务程序并启动。要完成上述工作,管理员需要一定的时间,且实际上管理员也不可能24小时监控系统,因此现有的手工实现方法不具备自适应性,也就意味着很难进行动态调整和重构。
发明内容
本发明的一个目的在于提供一种能够自主构造机群操作系统内核的智能构造器,以便能够自动构造机群操作系统内核,从而减少系统管理员的繁重的手工工作;而且,该智能构造器最好还能够根据机群系统的变化而对其操作系统进行动态的调整和重构。
本发明的另一个目的是提供一种自主构造机群操作系统内核的方法,实现机群操作系统内核的自主配置、自主部署和自主引导。
为了实现上述目的,本发明提供一种自主构造机群操作系统内核的智能构造器,实现对机群操作系统内核的自主配置、自主部署和自主引导,该智能构造器包括:配置数据库模块、管理中心模块、配置策略控制器模块、服务程序存储模块和节点智能代理模块;其中,节点智能代理模块处于机群的各个节点上,每一个节点分布一个智能代理模块,配置策略控制器模块、管理中心模块和配置数据库模块位于一台管理员可进行操作的计算机终端上,而服务程序存储模块位于一个专门的存储服务器上;配置数据库模块、配置策略控制器模块与管理中心模块连接,管理中心模块还与各个节点上安装的节点智能代理模块相连,服务程序存储模块也与机群中的各个节点相连;配置数据库模块用于存储各节点的配置信息;管理中心模块用于分配各个节点的角色以及启动各个节点上的服务程序;配置策略控制器模块用于存储由系统管理员设定的配置策略信息;服务程序存储模块用于保存机群操作系统内核服务模块的安装文件,供机群中各节点根据其角色需要进行下载;智能代理模块用于完成本地节点的配置报告以及服务程序的安装、启动与引导。
上述技术方案中,所述的配置信息包括节点的硬件信息、操作系统信息、网络设置和角色信息。
上述技术方案中,所述的配置策略控制器模块根据系统管理员的角色分配策略生成配置策略信息,所述的角色分配策略是按具体的角色进行分配,或是按角色分配原则或者是两者共同使用。
上述技术方案中,所述的配置策略控制器模块可以存储一设定好的配置策略,所述已存储的配置策略称为标准化配置策略,在不需要重新生成配置策略的情况下直接读取该标准化配置策略。
上述技术方案中,所述的管理中心模块按照功能进一步划分为:角色任命单元、服务启动单元和故障处理单元;角色任命单元用于根据配置数据库模块中存储的各节点的配置信息以及配置策略控制器模块生成的配置策略生成各节点的角色任命消息,并将该消息发送至相应节点,以便各节点的智能代理模块根据其接收到的角色任命消息对本地节点进行服务程序的部署和安装;服务启动单元用于在各节点完成服务程序的部署和安装后生成服务启动消息,并将该服务启动消息发送至相应节点,以便各节点按顺序启动其服务程序;故障处理单元用于实现对故障节点角色的判断和对故障的处理。
上述技术方案中,所述的节点智能代理模块按照功能进一步划分为配置报告单元、程序安装单元和节点服务启动单元;配置报告单元用于收集节点智能代理模块所在节点上的配置信息,并将配置信息报告给管理中心模块;程序安装单元和节点服务启动单元与管理中心模块实现消息交互,并通过消息交互完成本地节点的服务程序的安装与启动。
上述技术方案中,所述的智能构造器成功启动机群操作系统后,可对机群操作系统实现动态调整,机群操作系统的动态调整包括节点的添加、节点的删除和服务重构。
本发明提供了一种自主构造机群操作系统内核的方法,该方法的操作步骤包括:
1)系统管理员设定配置策略信息,并将该信息输入到配置策略控制器模块;
2)启动机群中的各个节点,节点启动时自动运行节点智能代理模块,节点智能代理模块报告本地节点的配置信息,并向管理中心模块报告启动消息;
3)管理中心模块根据配置信息和配置策略对各个节点的角色进行分配,并将各节点的角色信息自动发送到各个节点上的节点智能代理模块;
4)节点智能代理模块根据所分配的角色从服务程序存储模块上下载服务程序,并安装该程序;
5)所述节点在服务程序安装成功后,发送一安装成功信息到管理中心模块;
6)所述管理服务器在接收到各节点的安装成功信息后,依次引导启动各节点上的服务程序。
在所述的设定配置策略信息后,系统管理员还可以在配置策略控制器模块的基础上设定优化策略,所述的优化策略包括:
MTBF标准(选择平均无故障时间最长的节点为服务节点);
规定节点的CPU利用率(或内存利用率)不能超过某一阀值;
如果某个服务节点的指标长期超过所设定的优化标准,就需要对配置进行调整。
本发明的优点在于:
1、本发明的自主构造机群操作系统内核的智能构造器自动实现对机群操作系统内核的自主配置、自主部署和自主引导,通过自主的工作方式大大简化了机群操作系统的配置、部署、引导和维护的复杂度,减轻了系统管理员构造机群操作系统内核时的工作压力,降低了出错的可能。
2、机群操作系统内核构造完成后,本发明的自主构造机群操作系统内核的智能构造器可对系统进行动态调整和重组,增加了机群的自适应性,增强了系统的故障容错能力,提高了系统的可靠性。
3、本发明的自主构造机群操作系统内核的智能构造器为机群操作系统内核的配置、部署和引导提供了一个统一的用户界面,使系统内核的构造成为自动化、连续和完整的过程。
附图说明
图1为机群操作系统内核智能构造器的体系结构;
图2为节点智能代理模块与管理中心模块间的通信过程。
具体实施方式
下面参照附图和具体实施方式对本发明所述智能构造器及相关方法进行详细描述。
在图1中,一个示例性的机群系统包括n个节点,包括节点1、节点2、...、节点n。为了实现该机群操作系统内核的自主构造,如图1所示,本发明的智能构造器包括:配置策略控制器模块、管理中心模块、配置数据库模块、服务程序存储模块和节点智能代理模块。其中,节点智能代理模块处于机群的各个节点上,每一个节点分布一个智能代理模块。配置策略控制器模块、管理中心模块和配置数据库模块可以位于一台管理员可进行操作的计算机终端上,而服务程序存储模块可以位于一个专门的存储服务器上。
配置数据库模块可以由一个数据库程序来实现,用于存储机群中各个节点的各种配置信息。配置数据库模块中存储的节点配置信息主要包括节点的硬件信息,操作系统信息和网络设置,当机群操作系统内核开始运行后,配置数据库模块中还将存储节点的当前角色信息。
配置策略控制器模块可以由计算机上的程序来实现,用于生成配置策略。这里的配置策略主要是指机群中各节点的角色分配策略,所谓角色分配是指机群中的节点是作为计算节点还是作为服务节点以及作为服务节点的节点运行哪些服务程序。而角色分配策略既可以是具体的角色分配也可以是角色分配原则或者两者皆有,例如系统管理员可以直接设定哪些节点作为计算节点,哪些节点作为服务节点,也可以指定计算节点和服务节点的数量或者两者之间的比例关系;再例如,系统管理员可以直接设定服务节点运行哪些服务程序,也可以选择按照一些条件(如负载均衡原则和优先选择可靠性高的节点作为服务节点)由系统自动分配。
系统管理员可通过配置策略控制器模块生成配置策略,该配置策略控制器模块最好能提供一个图形化界面,使得系统管理员可通过该界面方便地定制(Customized)配置策略。此外,该配置策略控制器模块中最好还可以存储一设定好的配置策略,可称为标准化(Typical)配置策略,以便在不需要重新生成配置策略的情况下直接读取该标准化配置策略。
管理中心模块可以由计算机上的程序来实现,用于与位于各节点上的智能代理模块进行消息交互,并通过消息交互完成各节点的角色任命和服务启动,并在机群操作系统运行过程中,实现对节点故障的处理。为了实现其任务,该管理中心模块包括角色任命单元、服务启动单元和故障处理单元。角色任命单元用于根据配置数据库模块中存储的各节点的配置信息以及配置策略控制器模块生成的配置策略生成各节点的角色任命消息,并将该消息发送至相应节点,以便各节点的智能代理模块根据其接收到的角色任命消息对本地节点进行服务程序的部署和安装。服务启动单元用于在各节点完成服务程序的部署和安装后生成服务启动消息,并将该服务启动消息发送至相应节点,以便各节点按顺序启动其服务程序。故障处理单元用于实现对故障节点角色的判断和对故障的处理。
节点智能代理模块安装在每个节点上,可以由位于本地节点上的程序来实现,用于完成本地节点的配置报告以及服务程序的安装与启动及相应的维护工作。智能代理的维护工作主要体现在:在集群操作系统安装之后,每次节点代理启动后会自动对系统进行自检,自检的内容包括:硬件设置是否改变,系统需要的环境变量是否符合要求,需要在本节点运行群操作系统的相关服务程序是否完整等。此外,智能代理不仅负责节点操作系统的初始安装,而且负责服务程序的更新和维护工作。为了实现其任务,智能代理模块包括配置报告单元、程序安装单元和节点服务启动单元。配置报告单元用于收集节点智能代理模块所在节点上的配置信息,并将配置信息报告给管理中心模块。程序安装单元和节点服务启动单元与管理中心模块实现消息交互,并通过消息交互完成本地节点的服务程序的安装与启动。通过智能代理模块,可使机群中的每一个节点成为一个智能自治系统。
服务程序存储模块用于保存机群操作系统内核服务模块的安装文件,供机群中各节点根据其角色需要进行下载。该服务程序存储模块中保存有节点中各种角色的相应的安装文件,无论机群中有多少个节点,将这些节点连接在同一个软件部署服务器上都可以找到相应的安装文件。
机群操作系统内核智能构造器的工作流程为:
步骤10、智能构造器的安装与启动。系统管理员在机群系统中选择一节点安装智能构造器的功能模块,包括:配置数据库模块、管理中心模块、配置策略控制器模块,在该节点上还可以安装服务程序存储模块。为了减轻节点的网络通信压力,也可以在其他节点上安装服务程序存储模块。在机群的其他节点上安装节点智能代理模块,并将其设置为开机自动启动。
步骤20、启动节点,收集配置信息。启动机群中的各个节点,节点智能代理模块在节点启动后自动运行。节点智能代理模块运行后,模块中的配置报告单元在本地节点查找节点配置文件,该文件包含网络配置信息、节点的硬件配置、节点的软件配置三方面的信息。若节点智能代理模块在节点中是首次运行,则节点配置文件不存在,此时节点智能代理模块的配置报告单元创建该文件,并自动侦测节点的硬件配置、软件配置和网络配置信息,将配置信息写入节点配置文件中,同时将该信息报告给管理中心模块;若节点智能代理模块在节点中不是首次运行,则节点配置文件存在,此时节点智能代理模块中的配置报告单元对节点进行侦测,将侦测到的配置信息与配置文件中的信息做比较,若比较的结果不同,则本地节点的配置发生变化,配置报告单元用侦测到的配置信息重写节点配置文件,并将配置信息报告给管理中心模块,最后发送节点启动消息,若比较的结果相同,本地节点的配置没有变化,配置报告单元直接向管理中心模块发送节点启动消息。
步骤30、系统管理员设定配置策略,分配节点角色。节点启动后,如果机群中某些节点的配置信息有变化,管理中心模块更新配置数据库模块中相应节点的配置信息。同时,管理中心模块的角色任命单元将收集到的机群中各个节点的配置信息反映到配置策略控制器模块上,系统管理员根据这些配置信息通过配置策略控制器模块设定配置策略,实现节点角色的分配,并将节点角色的分配结果报告给各节点上的智能代理模块。系统管理员在设定配置策略时有两种选择,一种是标准化(Typicai)配置策略,另一种是定制(Customized)配置策略。标准化配置策略是指系统按照标准化的方式自动完成所有的配置工作,配置策略一般存储在配置策略控制器模块中,系统管理员只需要简单地指定服务节点和计算节点的数目或两者间的比例关系,管理中心模块中的角色任命单元根据所存储的配置策略和各个节点的配置信息自动实现对节点角色的分配,并在服务节点上分配具体的服务程序。采用标准化配置策略时,服务程序的分配会遵循一种简单、均衡的分配原则(如负载均衡原则和优先选择可靠性高的节点作为服务节点),系统管理员可根据标准化配置策略的分配结果再做修改。定制配置策略是指由系统管理员实现对配置策略具体内容的设定,这种配置策略主要适用于高级管理员,高级管理员可以根据需要配置系统,但配置工作较为复杂,需要高级管理员详细制定哪些节点作为计算节点,哪些节点作为服务节点,各个服务节点上具体运行何种服务程序。系统管理员通过配置策略控制器设置管理策略后,配置结果会在配置策略控制器模块的界面上反映出来,如果配置策略正确,配置成功,则配置策略控制器将该策略传送给管理中心模块,如果该策略有误,则给出出错信息,要求系统管理员重设管理策略或取消操作。
在设定配置策略的基础上,系统管理员还可以在配置策略控制器模块的基础上设定优化策略,比如MTBF标准(选择平均无故障时间最长的节点为服务节点),或者规定节点的CPU利用率(或内存利用率)不能超过某个比率(如90%),如果某个服务节点的指标长期超过策略制定的标准,就需要对配置进行调整。
步骤40、自动安装与部署节点程序。在每个节点上,节点智能代理模块中的程序安装单元接收到所任命的节点角色后,将节点角色信息写入本地配置文件中,并根据具体的角色对本地的安装程序进行自检,自检的内容包括:服务程序、目录文件和环境变量是否存在,服务程序的版本等。如果服务程序不存在或服务程序需要更新,程序安装单元自动从服务程序存储模块下载相应的服务程序,进行自动安装和部署。安装完毕后,程序安装单元向管理中心模块发送安装结束消息。与现有技术相比,在本发明中,节点中的服务程序的安装与部署是自动完成的,在一个具体实施例中,它的实现过程如下:服务程序存储模块上运行一个FTP服务器,程序安装单元根据本地配置文件的内容下载需要安装的程序和库,并根据配置文件的内容自动生成和执行脚本所必要的环境设置。简单的说,即智能代理在配置文件的指导下自动地完成了以前需要手工执行的安装命令。节点程序的安装与部署主要是针对服务节点,对于计算节点只需要安装侦测程序的客户端。
步骤50、启动机群操作系统内核。管理中心模块中的服务启动单元等待接收节点智能代理模块中的程序安装单元的安装成功消息,若所有部署服务的节点都已经安装完毕,则服务启动单元按顺序向各服务节点发启动服务的消息,节点智能代理模块中的节点服务启动单元收到启动服务的消息后有步骤地自动引导机群操作系统内核。操作系统内核的具体引导过程为:管理中心模块中的服务启动单元向相关节点上的智能代理模块发送启动某一服务(如组服务)的命令,智能代理模块接到命令后由模块中的节点服务启动单元在本节点上启动该服务程序,该服务程序启动成功后节点服务启动单元向管理中心模块发送启动成功信息,接到该信息后,管理中心模块中的服务启动单元继续启动其他服务。在机群操作系统内核中,各个服务模块的启动次序依次为:配置服务模块、组服务模块、侦测服务模块、事件管理服务模块、高可用服务模块。如果服务程序启动失败(通常是由网络故障造成的),管理中心模块向系统管理员报告出错信息,等待系统管理员排除故障后重新启动该服务模块。
机群操作系统内核的引导操作的完成标志着机群操作系统内核启动的完成,系统转入正常工作状态。机群操作系统启动成功后,机群操作系统可实现动态调整。机群操作系统的动态调整包括:节点的添加、节点的删除和服务重构。对不同类型的动态调整,机群操作系统内核智能构造器要完成不同的工作,下面分别对上述各种动态调整过程进行描述。
节点的添加:当一个已安装有节点智能代理模块的节点添加到系统中时,节点智能代理模块中的配置报告单元检查本地配置文件,并向管理中心模块报告配置信息,管理中心模块发现这是一个新的IP地址(或MAC地址),则认为该节点是新的节点,将该节点的配置信息加入配置数据库模块中,并分配角色。在动态调整的过程中,新添加的节点只能作为计算节点。节点收到角色信息后,节点智能代理中的程序安装单元下载、安装和启动应用程序,由于新增加的节点只能作为计算节点,故所添加的应用程序是侦测服务程序的客户端。机群操作系统内核中的配置服务程序为整个机群系统提供服务,当其他应用(比如作业管理系统)需要计算节点的时候,就会向配置服务程序申请计算节点,此时这些新添加的节点可以和其他节点一起分配给作业管理系统。
节点的删除。在机群系统中,节点的删除一般分两种情况,一种是节点故障性死机,另一种是节点永久性删除。机群操作系统运行时,侦测服务程序负责每个节点故障和资源利用率的侦测,当某个节点故障性死机后,侦测服务程序侦测到该故障,并发消息通知机群操作系统内核中的事件服务程序,事件服务程序会将该消息转发给其他感兴趣的对象,其中包含智能构造器中的管理中心模块,管理中心模块中的故障处理单元对故障节点的角色进行判断,若该节点为计算节点,将该节点的状态设置为死机,并停止向故障节点分配作业,如果故障节点是服务节点,且节点上运行着关键的服务程序,则故障处理单元在机群系统中选择一个新的服务节点,并由管理中心模块中的角色任命单元和服务启动单元以及节点智能代理模块中的程序安装单元、节点服务启动单元配合使用,实现对新节点上的服务程序的安装和引导。在机群系统中,当某些节点不再需要时,管理员可能要将这些节点永久性删除,管理员首先通过图形界面发出命令,管理中心模块在配置数据库模块中删除配置信息,同时向节点智能代理模块发送删除命令,节点智能代理模块关闭和卸载机群操作系统在本结点安装的所有程序。
服务重构:服务的重构是指改变服务程序在节点的分布。服务重构有两种情况,一种是前述的服务节点的故障性死机,另一种是某种策略条件的满足,例如当管理员设置了CPU利用率不得超过90%,一旦某一服务节点超过了这一阀值,也会出发服务的重构。服务重构的具体实现过程与对服务节点的故障性死机相类似,此处不再详细描述。

Claims (10)

1、一种自主构造机群操作系统内核的智能构造器,其特征在于,该智能构造器包括:配置数据库模块、管理中心模块、配置策略控制器模块、服务程序存储模块和节点智能代理模块;其中,节点智能代理模块处于机群的各个节点上,每一个节点分布一个智能代理模块,配置策略控制器模块、管理中心模块和配置数据库模块位于一台管理员可进行操作的计算机终端上,而服务程序存储模块位于一个专门的存储服务器上;配置数据库模块、配置策略控制器模块与管理中心模块连接,管理中心模块还与各个节点上安装的节点智能代理模块相连,服务程序存储模块也与机群中的各个节点相连;配置数据库模块用于存储各节点的配置信息;管理中心模块用于分配各个节点的角色以及启动各个节点上的服务程序;配置策略控制器模块用于存储由系统管理员设定的配置策略信息;服务程序存储模块用于保存机群操作系统内核服务模块的安装文件,供机群中各节点根据其角色需要进行下载;智能代理模块用于完成本地节点的配置报告以及服务程序的安装、启动与引导和维护工作。
2、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的配置信息包括节点的硬件信息、操作系统信息、网络设置和角色信息。
3、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的配置策略控制器模块根据系统管理员的角色分配策略生成配置策略信息,所述的角色分配策略是按具体的角色进行分配,或是按角色分配原则或者是两者共同使用。
4、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的配置策略控制器模块可以存储一设定好的配置策略,所述已存储的配置策略称为标准化配置策略,在不需要重新生成配置策略的情况下直接读取该标准化配置策略。
5、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的配置策略控制器模块提供一个图形化界面,使得系统管理员通过该界面定制配置策略。
6、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的管理中心模块按照功能进一步划分为:角色任命单元、服务启动单元和故障处理单元;角色任命单元用于根据配置数据库模块中存储的各节点的配置信息以及配置策略控制器模块生成的配置策略生成各节点的角色任命消息,并将该消息发送至相应节点,以便各节点的智能代理模块根据其接收到的角色任命消息对本地节点进行服务程序的部署和安装;服务启动单元用于在各节点完成服务程序的部署和安装后生成服务启动消息,并将该服务启动消息发送至相应节点,以便各节点按顺序启动其服务程序;故障处理单元用于实现对故障节点角色的判断和对故障的处理。
7、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的节点智能代理模块按照功能进一步划分为配置报告单元、程序安装单元和节点服务启动单元;配置报告单元用于收集节点智能代理模块所在节点上的配置信息,并将配置信息报告给管理中心模块;程序安装单元和节点服务启动单元与管理中心模块实现消息交互,并通过消息交互完成本地节点的服务程序的安装与启动。
8、根据权利要求1所述的自主构造机群操作系统内核的智能构造器,其特征在于,所述的智能构造器成功启动机群操作系统后,可对机群操作系统实现动态调整,机群操作系统的动态调整包括节点的添加、节点的删除和服务重构。
9、一种自主构造机群操作系统内核的方法,该方法的操作步骤包括:
1)系统管理员设定配置策略信息,并将该信息输入到配置策略控制器模块;
2)启动机群中的各个节点,节点启动时自动运行节点智能代理模块,节点智能代理模块报告本地节点的配置信息,并向管理中心模块报告启动消息;
3)管理中心模块根据配置信息和配置策略对各个节点的角色进行分配,并将各节点的角色信息自动发送到各个节点上的节点智能代理模块;
4)节点智能代理模块根据所分配的角色从服务程序存储模块上下载服务程序,并安装该程序;
5)所述节点在服务程序安装成功后,发送一安装成功信息到管理中心模块;
6)所述管理服务器在接收到各节点的安装成功信息后,依次引导启动各节点上的服务程序。
10、根据权利要求9所述的自主构造机群操作系统内核的方法,其特征在于,在所述的设定配置策略信息后,系统管理员还可以在配置策略控制器模块的基础上设定优化策略,所述的优化策略包括:
MTBF标准(选择平均无故障时间最长的节点为服务节点);
规定节点的CPU利用率(或内存利用率)不能超过某一阀值;
如果某个服务节点的指标长期超过所设定的优化标准,就需要对配置进行调整。
CNB2005100663123A 2005-04-22 2005-04-22 一种自主构造机群操作系统内核的方法及智能构造器 Expired - Fee Related CN100430917C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100663123A CN100430917C (zh) 2005-04-22 2005-04-22 一种自主构造机群操作系统内核的方法及智能构造器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100663123A CN100430917C (zh) 2005-04-22 2005-04-22 一种自主构造机群操作系统内核的方法及智能构造器

Publications (2)

Publication Number Publication Date
CN1851686A true CN1851686A (zh) 2006-10-25
CN100430917C CN100430917C (zh) 2008-11-05

Family

ID=37133165

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100663123A Expired - Fee Related CN100430917C (zh) 2005-04-22 2005-04-22 一种自主构造机群操作系统内核的方法及智能构造器

Country Status (1)

Country Link
CN (1) CN100430917C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315618B (zh) * 2008-05-30 2010-06-09 中国科学院计算技术研究所 一种效用计算的机群系统及其运行时环境管理方法
CN101552693B (zh) * 2009-05-13 2011-01-05 山东中创软件商用中间件股份有限公司 远程配置技术
CN103309746A (zh) * 2013-05-13 2013-09-18 百度在线网络技术(北京)有限公司 调研环境的搭建方法及装置
CN103810136A (zh) * 2012-11-13 2014-05-21 王明仁 计算机集群、用于计算机集群的管理方法及系统
CN104850416A (zh) * 2014-02-18 2015-08-19 中国移动通信集团公司 一种升级系统、方法、装置及云计算节点
CN105490849A (zh) * 2015-12-08 2016-04-13 中电科华云信息技术有限公司 应用系统的自动部署方法及系统
CN105871588A (zh) * 2015-12-11 2016-08-17 乐视云计算有限公司 负载均衡配置方法、设备及系统
CN107172208A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 服务器的部署方法及其系统
CN108989474A (zh) * 2018-09-29 2018-12-11 北京奇虎科技有限公司 分布式节点的服务角色分配方法及分布式数据传输系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617292B2 (en) * 2001-06-05 2009-11-10 Silicon Graphics International Multi-class heterogeneous clients in a clustered filesystem
CN100454267C (zh) * 2002-07-25 2009-01-21 联想(北京)有限公司 超级服务器的监控管理系统
CN1206600C (zh) * 2002-11-14 2005-06-15 华中科技大学 一种全分布式的集群网络服务器系统
CN1251086C (zh) * 2003-07-08 2006-04-12 联想(北京)有限公司 机群系统结点动态配置的方法和装置
CN1595870A (zh) * 2003-12-15 2005-03-16 浪潮电子信息产业股份有限公司 多类型操作系统网络远程并行自动安装方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315618B (zh) * 2008-05-30 2010-06-09 中国科学院计算技术研究所 一种效用计算的机群系统及其运行时环境管理方法
CN101552693B (zh) * 2009-05-13 2011-01-05 山东中创软件商用中间件股份有限公司 远程配置技术
CN103810136A (zh) * 2012-11-13 2014-05-21 王明仁 计算机集群、用于计算机集群的管理方法及系统
CN103309746A (zh) * 2013-05-13 2013-09-18 百度在线网络技术(北京)有限公司 调研环境的搭建方法及装置
CN104850416A (zh) * 2014-02-18 2015-08-19 中国移动通信集团公司 一种升级系统、方法、装置及云计算节点
CN104850416B (zh) * 2014-02-18 2019-01-08 中国移动通信集团公司 一种升级系统、方法、装置及云计算节点
CN105490849B (zh) * 2015-12-08 2018-11-23 中电科华云信息技术有限公司 应用系统的自动部署方法及系统
CN105490849A (zh) * 2015-12-08 2016-04-13 中电科华云信息技术有限公司 应用系统的自动部署方法及系统
CN105871588A (zh) * 2015-12-11 2016-08-17 乐视云计算有限公司 负载均衡配置方法、设备及系统
CN107172208A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 服务器的部署方法及其系统
CN107172208B (zh) * 2017-06-30 2021-09-14 联想(北京)有限公司 服务器的部署方法及其系统
CN108989474A (zh) * 2018-09-29 2018-12-11 北京奇虎科技有限公司 分布式节点的服务角色分配方法及分布式数据传输系统
CN108989474B (zh) * 2018-09-29 2023-07-28 三六零科技集团有限公司 分布式节点的服务角色分配方法及分布式数据传输系统

Also Published As

Publication number Publication date
CN100430917C (zh) 2008-11-05

Similar Documents

Publication Publication Date Title
CN1851686A (zh) 一种自主构造机群操作系统内核的方法及智能构造器
US7743142B2 (en) Verifying resource functionality before use by a grid job submitted to a grid environment
US6868539B1 (en) System and method providing single application image
US8230264B2 (en) System evaluation apparatus
JP5174006B2 (ja) 複数のコンピュータシステムによるプログラムの実行を管理する方法及びシステム
US7062516B2 (en) Methods, systems, and articles of manufacture for implementing a runtime logging service storage infrastructure
CN100570607C (zh) 用于多处理环境中的数据聚合的方法和系统
CN101707543B (zh) 一种支持多任务类型的企业媒体总线系统和方法
US8612553B2 (en) Method and system for dynamically purposing a computing device
CN110365762B (zh) 服务处理方法、装置、设备及存储介质
US7698391B2 (en) Performing a provisioning operation associated with a software application on a subset of the nodes on which the software application is to operate
WO2020253079A1 (zh) 基于Jmeter的分布式性能测试方法、装置、设备及存储介质
US20050060608A1 (en) Maximizing processor utilization and minimizing network bandwidth requirements in throughput compute clusters
US8214809B2 (en) Grid-enabled ANT compatible with both stand-alone and grid-based computing systems
WO2009023580A2 (en) Automated application modeling for application virtualization
CN1407441A (zh) 自动管理计算机服务和可编程器件的系统和方法
US20070044077A1 (en) Infrastructure for verifying configuration and health of a multi-node computer system
US20080016200A1 (en) Computer system, management computer, and computer selecting method
Maassen et al. Middleware adaptation with the delphoi service
JP5468921B2 (ja) シミュレーション支援システム及びシミュレーション支援方法
US20020174259A1 (en) Distributable multi-daemon configuration for multi-system management
KR100763781B1 (ko) 서버 관리 시스템 및 마이그레이션 방법
CN117389713B (zh) 存储系统应用业务数据迁移方法、装置、设备及介质
CN115334152B (zh) 提交结构化机器学习计算任务到计算集群的方法
Nastic Self-Provisioning Infrastructures for the Next Generation Serverless Computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SUGON INFORMATION INDUSTRY CO., LTD.

Free format text: FORMER NAME: TIANJIN SHUGUANG COMPUTER INDUSTRY CO., LTD.

CP03 Change of name, title or address

Address after: 300384 Tianjin Xiqing District Huayuan Industrial Zone (outer ring) Haitai Huake Street No. 15 1-3

Patentee after: Sugon Information Industry Co., Ltd.

Address before: The 300384 Tianjin City Huayuan Industrial Zone Development Road six No. 6 Haitai green industry base building L building 1-3

Patentee before: Tianjin Sugon Computer Industry Co., Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081105

Termination date: 20120422