CN102096655B - 一种移动hpc系统及其实现方法 - Google Patents

一种移动hpc系统及其实现方法 Download PDF

Info

Publication number
CN102096655B
CN102096655B CN 201110033760 CN201110033760A CN102096655B CN 102096655 B CN102096655 B CN 102096655B CN 201110033760 CN201110033760 CN 201110033760 CN 201110033760 A CN201110033760 A CN 201110033760A CN 102096655 B CN102096655 B CN 102096655B
Authority
CN
China
Prior art keywords
user
module
provisioning service
resource
resource provisioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110033760
Other languages
English (en)
Other versions
CN102096655A (zh
Inventor
周俊平
王磊
詹剑锋
安学军
孙凝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 201110033760 priority Critical patent/CN102096655B/zh
Publication of CN102096655A publication Critical patent/CN102096655A/zh
Application granted granted Critical
Publication of CN102096655B publication Critical patent/CN102096655B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明公开了一种移动HPC系统及其实现方法,该系统由计算节点和用户终端组成,计算节点和用户终端通过网线相互连接交互数据,所述计算节点包括智能代理模块,所述用户终端包括:用户世界模块、虚拟机模块、资源供应服务模块、加载器模块,其中所述用户终端上安装有视窗操作系统,在操作系统中安装有用户世界模块,其用于将用户的请求提交给资源供应服务模块。其作用在视窗系统中操作HPC系统从而获得更高的运行速度。

Description

一种移动HPC系统及其实现方法
技术领域
本发明涉及计算机系统,特别涉及高性能计算领域。
背景技术
由于传统的HPC体积庞大,耗电量多,计算能力达到千万亿次,一般适用于天气预报、地理数据采集,军事国防等大型的国家级或者世界级应用。传统的HPC显然不适于个人或者中小型企业拥有,但是他们依然有一些大量计算的需求。例如,公司财务计算、人体参数指标分析等应用。针对于小型的高性能计算,无论在国内还是在国际上仍是一片空白。移动HPC系统是针对于解决这一问题而产生的一种技术。
HPC系统由于其体积的限制不能为普通计算机用户使用,但随着科技的进步数据量的爆炸式发展,越来越多的用户需要高性能计算机来进行计算或者编程。本发明提出了一种移动的HPC系统。该移动HPC的特点是:体积小、耗电少、适合携带、使用简单。多核处理器自问世以来,以其富有竞争力的性能/价格比,迅速成为高性能计算的主流。由中科院计算所自主研发的龙芯处理器,是21世纪处理器家族中的一颗新星。龙芯自问世以来,以它低廉的价位,超低的功耗,多核的高性能迅速扩展了他的应用市场。目前市面上PC系统,如笔记本电脑,虽然操作便捷,但计算能力不足,本发明提出了一种可以利用在视窗系统中操作HPC系统从而获得更高的运行速度。
发明内容
为实现本发明目的,本发明提出了一种移动HPC系统,由计算节点和用户终端组成,计算节点和用户终端通过网线相互连接交互数据,其特征在于:所述计算节点包括:智能代理模块,其用于自动检测计算节点的系统配置、自动报告计算节点的运行状态和资源利用情况;所述用户终端包括:虚拟机模块,其安装有Linux操作系统;资源供应服务模块,其安装在所述Linux操作系统中用于管理用户作业、管理计算节点资源、管理计算节点文件系统;加载器模块,其安装在所述Linux操作系统中与所述资源供应服务模块协同工作,由提交作业、查询作业和终止作业的脚本组成;其中所述用户终端上安装有视窗操作系统,在操作系统中安装有用户世界模块,其用于将用户的请求提交给资源供应服务模块。
所述计算节点包括:一片低功耗通用处理器;2片DDR2内存;北桥模块;2个GBIC模块;一片快闪存储器;IOS模块组成的硬件系统,其中快闪存储器中烧有精简过的Linux内核。
所述低功耗通用处理器为龙芯3A通用处理器。
所述资源供应服务模块接受来自用户世界模块的关于作业管理的请求,包括作业的提交、暂停、重启、停止以及作业状态的查询、作业执行结果的返回、返回资源使用信息以及程序运行状态。
所述资源供应服务模块与智能代理模块进行交互,收集计算节点资源信息,对计算节点进行关闭/开关机操作。
所述资源供应服务模块和所述用户世界采用socket通信,同时数据传输时全部采用char型数据类型。
本发明还提出了一种移动HPC的实现方法,包括:
步骤1用户在图形界面上与资源供应服务模块建立连接,在用户熟悉的程序界面将程序编辑好后将程序放在指定的工程目录下;
步骤2:用户编译程序,图形界面上的编译按钮将用户的程序提交到远程的智能代理模块编译;
步骤3:编译结果在智能代理模块自动返回到用户世界本地,用户根据返回的结果做进一步修改,编译完成后用户在本地工程目录下获得可以在智能代理模块上运行的可执行文件;
步骤4:用户将可执行文件创建作业,并提交作业到作业列队;
步骤5:资源供应服务模块捕捉用户的提交请求为该作业分配资源,并且通知智能代理模块挂载作业所在目录;
步骤6:智能代理挂载了用户端目录后会去执行作业文件中所描述的作业,然后将作业转化为运行状态提交给用户世界。
所述步骤4包括如下步骤:
步骤4.1:用户为程序所在的目录创建快捷方式;
步骤4.2:用户双击快捷方式可以使用户目录直接显示在作业路径里;
步骤4.3:用户通过右击可执行文件从而创建作业。
所述步骤5包括如下步骤:
步骤5.1:资源供应服务模块接受智能代理模块返回的处理器资源信息;
步骤5.2:根据提交作业的数目分配处理器资源,同时记录相应的处理单元ID号,建立用户作业与处理单元ID的一个映射表;
步骤5.3:资源供应服务模块向已经为作业分配的处理单元上的智能代理模块发送Mount文件系统请求,并等待返回操作结果;如果mount成功,资源供应服务模块通过ssh以脚本形式运行已经提交的作业,并返回进程ID给用户图形界面;如果mount失败,则向用户图形界面返回加载作业失败。
所述步骤6中:
用户可以在图形界面上终止处于任何状态的作业。
作业的状态有:等待、提交、运行、完成、崩溃;用户可以在用户世界的图形界面中查看作业运行的历史日志和每个计算节点的CPU利用率和内存使用率;用户在查看作业历史和资源利用率时,用户世界会把用户请求提交给资源供应服务模块时,资源供应服务模块会执行虚拟机模块上的一个bash脚本文件去查询智能代理上的相应信息,然后将信息返回给用户世界。
附图说明
图1是本发明的系统图;
图2是本发明的系统流程图
图3是本发明用户使用模式图
图4是本发明智能代理装置的工作机制图。
图5是本发明资源供应服务装置的工作流程图。
图6是本发明作业状态转换图
图7是本发明软件协议栈
图8是本发明的系统结构图。
具体实施方式
本发明提出了一种移动HPC系统,如图1所示。该系统包括以下的装置。需要一个叫做计算节点1的硬件装置。如图1中的黑盒子。计算节点是由一片低功耗通用处理器、2片DDR2内存、北桥模块、2个GBIC模块、一片快闪存储器、BIOS模块组成的硬件系统。快闪存储器中烧有精简过的的Linux内核。在每一个计算节点上装有一个称为agent智能代理模块2,智能代理模块自动检测系统配置、自动报告节点的运行状态和资源利用情况。计算节点通过网线和用户终端3连接。用户终端上安装有称为VMware的虚拟机模块4。虚拟机模块上安装有Linux操作系统9。基于这个操作系统之上安装有一个管理和分配的软件装置称为Pservice的资源供应服务模块5。一个叫做loader的加载器模块6。加载器模块与资源供应服务模块协同工作,该加载器模块6是由一些脚本组成。包括提交作业、查询作业、终止作业的脚本。用户终端3上安装有视窗操作系统7,基于操作系统之上部署有一个可以提交用户请求的称为PHPCWorld的用户世界8,用户世界的主要功能是将用户的请求提交给资源供应服务模块2。低功耗处理器可以为龙芯3A通用处理器,或英特尔凌动(IntelAtom)处理器。本发明的实施例中的低功耗通用处理器采用的是龙芯3A通用处理器。
其中智能代理模块,如图2所示。智能代理模块有三种角色:Agent_Member、Agent_Leader、Agent_Prince。Agent_Leader是智能代理模块和资源供应服务模块之间交流的桥梁,即资源供应服务模块通过Agent_Leader向所有的Agent_Member取回信息。在不同的环境下,Agent_Leader可能会换不同的IP,这样会给配置造成麻烦,因此给Agent_Leader绑定一个虚拟的静态IP称为Leader_VIP。需要一个称为用户终端的硬件装置。用户终端是PC机或者笔记本电脑均可。
其中虚拟机模块,虚拟机模块采用固定用户系统配置,屏蔽不同系统之间的差异,实现用户零配置、傻瓜式使用。虚拟机模块会在用户终端启动的时候自隐藏启动。虚拟机模块上安装有Linux操作系统。
关于资源供应服务模块,其是实现小型跨平台计算的主要装置,主要有管理用户作业、管理计算节点资源、管理计算节点文件系统的作用。需要一个叫做loader的加载器模块。加载器模块运行在虚拟机模块上的Linux操作系统上。加载器模块与资源供应服务模块协同工作,该加载器模块是由一些脚本组成,包括提交作业、查询作业、终止作业的脚本。资源供应服务模块是在启动计算节点后,虚拟机模块上启动的一个daemon服务,它主要管理用户作业和计算节点资源。资源供应服务模块接受来自用户世界的关于作业管理的请求,包括作业的提交,暂停,重启,停止以及作业状态的查询,作业执行结果的返回,返回资源使用信息以及程序运行状态。资源供应服务模块与智能代理模块进行交互,收集计算节点资源信息,对计算节点进行关闭/开关机操作。资源供应服务模块会与智能代理模块交互,要求其mount/umount用户的NFSclient。
对于加载器模块,其是由一些脚本组成的软件装置,它与资源供应服务模块协同工作,这些脚本在资源供应服务模块向智能代理模块施加操作的时候使用。这些脚本的功能有:运行作业、查询作业状态、杀死作业。资源供应服务模块和加载器模块之间通过文件传递信息。比如提交作业,资源供应服务模块会把为作业分配的计算节点的IP,作业的路径、类型形成一个文件,然后加载器模块去读这个文件,然后通过SSH命令远程提交这个作业,那么这个作业就会在为作业所分配的计算节点上运行起来。
关于用户世界,其主要功能是将用户的请求提交给资源供应服务。用户会有编辑作业,远程编译、提交作业,杀死作业,查询当前资源利用状况、查询作业运行日志等请求。用户世界是一个图形界面的软件装置,图形界面为用户提供无跳转单页面图形化的管理。整套软硬件装置可以为用户提供从用户终端上实现在不同平台上进行计算的计算环境。
关于模块间通讯协议设计,资源供应服务模块和用户世界采用socket通信,同时数据传输时全部采用char型数据类型。
通信数据包结构定义如下:
  P
  C
  Pkg_length
  Pkg_type/ntype
  Num_item
  Item_1_length
  ……
  Item_n_length
  Item_1_context
  ……
  Item_n_context
数据格式说明如下:
前两个字节为数据包包头标志:PC
Pkg_length表示整个数据包的长度,占2个字节
Pkg_type/ntype表示数据包的类型
Num_item表示数据项数
Item_1_length表示第一个数据项的长度
Item_n_length表示第N个数据项的长度
Item_1_context表示第一个数据项内容
Item_n_context表示第N个数据项内容
资源供应服务模块和用户世界通信的内容包括作业管理和资源使用及进程状态监控。作业管理包括:提交作业、暂停作业、停止作业、查询作业状态、设置优先级、获取作业执行结果。资源使用及进程状态监控包括:从智能代理模块获取主要包括cpu,mem利用率并返回给资源供应服务模块、返回应用进程状态。资源供应服务模和智能代理模块进行通信的内容包括发送请求给智能代理模块,要求其返回信息。信息的内容包括:报告计算节点的配置信息、报告节点和网络状态信息、文件系统管理。资源供应服务模的运行时自动的,不需要用户看见和干预的。当用户加载作业时,资源供应服务模通过Leader_VIP和agent_leader联系,获取信息。如:资源供应服务模通知leader,mount文件系统。文件系统mount成功后,资源供应服务模可以加载程序。当作业运行完成时,资源供应服务模通知agent_leader退出的消息,然后agent_leader通知组成员umount文件系统。
用户的使用流程。包括:建立工作空间、创建作业、加载作业、杀死作业、查看作业。
建立工作空间:当用户首次打开用户世界的图形用户界面,程序会提示用户还没有创建工作空间,按确定键以后,系统会弹出选择用户空间对话框,用户可以用下拉箭头选择自己的程序所在的目录,也可以手动输入程序所在的目录。用户确定工作空间以后,图形界面打开。如果用户关闭了图形界面以后再次打开不用在输入工作空间所在的目录,程序会自动记录用户所在的工作空间。
创建作业:图形界面的左中部有一个路径栏,用户可以在路径栏里手动输入程序所在的位置,然后点击Go To箭头,用户所输入的目录中所有的程序会列在路径栏的下边。用户还可以通过点击路径栏中所列出的目录层层进入到自己的程序所在的目录。用户右键单击程序的目标文件会弹出下拉菜单,选后create obj选项就为程序创建一个作业。创建的作业会出现在图形界面右部的位置。用户可以为同一个目标程序创建多个作业。
加载作业:用户双击所创建的作业,作业等待队列会多出一个作业处于等待状态。如果当前空闲资源可以满足等待作业的需求,那么作业转化为提交状态,作业被提交到计算节点以后转化为运行状态。
杀死作业:作业处于等待、提交和运行状态时,用户可以右键点击作业等待队列中的作业,系统会弹出下拉菜单,选中delete选项,作业被杀死出现在作业执行历史队列中。被杀死后的作业在历史队列中呈现崩溃状态。
查看作业:作业处于不同状态时会表现出不同的颜色,用户很容易看出作业处于什么状态。作业处于运行状态时,用户可以查看作业所用的计算节点的状况。作业历史队列和计算节点的状况是在同一个位置,用户通过选择不同的选项卡来区分。
该移动HPC系统实现方法的流程图如附图2,用户可以通过用图形世界进行计算密集型的任务。用户在图形界面上与资源供应服务模块建立连接,在用户熟悉的程序界面将程序编辑好后将程序放在指定的工程目录下100;用户编译程序,图形界面上的编译按钮将用户的程序提交到远程的智能代理模块编译200;编译结果在智能代理模块自动返回到用户世界本地,用户根据返回的结果做进一步修改,编译完成后用户在本地工程目录下获得可以在智能代理模块上运行的可执行文件300;用户将可执行文件创建作业,并提交作业到作业列队400;资源供应服务模块捕捉用户的提交请求为该作业分配资源,并且通知智能代理模块挂载作业所在目录500;智能代理挂载了用户端目录后会去执行作业文件中所描述的作业,然后将作业转化为运行状态提交给用户世界600。
用户使用模式图如图3所示。首先用户可以在图形界面上和资源供应服务模块建立连接。然后创建程序,用户可以在自己比较熟悉的程序编辑界面上把程序编辑好,然后把程序放在指定的工程目录下。用户世界本身也提供了连接到VS的按钮,用户可以在Visual Studio上完成程序的编辑。然后用户需要编译程序,图形界面上的编译按钮会将用户程序提交到远程的智能代理上去编译,编译的结果会在智能代理上自动返回到用户世界本地。用户可以根据编译器返回的结果做进一步的修改。编译完成后,用户会在本地工程目录下获得可以在智能代理上运行的可执行文件。用户可以为自己的程序所在的目录创建快捷方式,用户右键已经编译好的程序,可以创建快捷方式。用户双击快捷方式可以使用户目录直接显示在作业路径栏里。然后,用户可以通过鼠标右击可执行文件创建作业。创建作业时,用户可以选择程序是并行的还是串行的,可以添加输入文件和输出文件。用户双击已经创建的作业可以提交作业到作业队列。资源供应服务或捕获用户的提交请求。资源供应服务将为这个作业分配资源,然后将通知智能代理挂载作业所在的目录,资源供应服务会将作业文件的信息形成一个文本文件提交给智能代理。智能代理挂载了用户端目录后会去执行作业文件中所描述的那个作业,然后作业转化为运行状态提交给用户世界。用户可以在图形界面上终止处于任何状态的作业。作业的状态有:等待、提交、运行、完成、崩溃。用户可以在用户世界的图形界面中查看作业运行的历史日志和每个计算节点的CPU利用率和内存使用率。用户在查看作业历史和资源利用率时,用户世界会把用户请求提交给资源供应服务时,资源供应服务会执行虚拟机上的一个bash脚本文件去查询智能代理上的相应信息,然后将信息返回给用户世界。
智能代理装置的工作机制如图4所示,智能代理装置是一个自组织系统,能够自动处理成员的失效。agent_member负责监控动态CPU/MEM利用率,周期性报告心跳给Agent_Leader,响应Agent_Leader的命令,mount/umount NFS。Agent_Leader装置不仅具有agent_member全部功能,还要负责响应资源供应服务模块的全部请求,如进行文件系统管理、报告计算节点的动态信息。Agent_Leader还要处理成员的加入、退出和失效(处理心跳),接收成员的动态信息(CPU/MEM利用率)报告。而Agent_Prince除了具有agent_member全部功能,还具有处理Agent_Leader的失效(处理心跳)功能。
资源供应服务装置的工作流程图如图5所示,首先加电启动所有计算节点501,资源供应服务模块安装在虚拟机模块上,虚拟机模块以及资源供应服务模块随着用户图形界面的启动自启动502。用户通过用户世界可以提交作业,资源供应服务模块接受用户世界提交的作业503,并向智能代理获取空闲的处理器资源508。资源供应服务模块接受智能代理模块返回的处理器资源信息,并根据提交作业的数目分配处理器资源,同时记录相应的处理单元ID号,建立用户作业与处理单元ID的一个映射表即分配计算节点资源504。资源供应服务装置向已经为作业分配的处理单元上的职能代理发送Mount文件系统请求,并等待返回操作结果即向计算节点上的智能代理模块发送文件系统管理命令505。如果mount成功,资源供应服务装置通过ssh以脚本形式运行已经提交的作业,并返回进程ID给用户图形界面即步骤506通过ssh+脚本提交/暂停.停止/查询作业;如果mount失败,则向用户图形界面返回加载作业失败。资源供应服务装置还相应用户图形界面的作业管理操作,比如杀死作业。如果作业运行结束,资源供应服务装置会获取次状态并报告给用户图形界面,同时将处理单元的占用状态改为“未占用”。资源供应服务模块还会相应用户图形界面的资源使用状况请求,比如CPU和内存利用率。这时,资源供应服务模块会向智能代理模块获取资源信息并返回给用户世界即用户世界启动507。
用户作业状态转换如图6所示,用户双击已经创建的作业,作业会出现在作业队列里,处于提交状态。资源供应服务装置会检查当前可用资源是否满足当前作业所需的计算资源,如果满足,那么作业由提交状态转为运行状态;如果不满足,作业由提交状态转化为等待状态。处于等待状态的作业会定时转化为提交状态。处于提交状态和等待状态的作业,都可以被手动杀死,之后作业处于崩溃状态。作业处于运行状态时,作业运行完后会转化为完成状态。
本发明的软件协议栈如图7所示。图7的上端是计算节点,下端是用户终端,计算节点和用户终端通过网线直连或者交换机相连。计算节点上安装有bios固件、精简Linux内核、智能代理模块。用户终端上安装有视窗操作系统、虚拟机模块、Linux操作系统、资源供应服务模块。另外,视窗操作系统上还装有用户世界。用户世界只会和资源供应服务模块交互,智能代理模块只和资源供应服务模块交互。
如图8所示,在每一个计算节点上装有一个本地进程装置称为智能代理模块,智能代理模块自动检测系统配置、报告节点的运行状态。用户视窗操作系统上部署有一个称为VMware的虚拟机模块,虚拟机模块上部署一个负责用户世界和智能代理模块交互管理的进程装置称为资源供应服务模块,资源供应服务模块解析用户世界提交的请求,管理资源并向智能代理模块发送有关作业或者资源的请求并返回加过给用户世界。用户端视窗操作系统上部署有一个用户世界的装置,用户世界为用户编辑、编译、提交作业提供图形化的管理。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解。

Claims (11)

1.一种移动HPC系统,由计算节点和用户终端组成,计算节点和用户终端通过网线相互连接交互数据,其特征在于:
所述计算节点包括:
智能代理模块,其用于自动检测计算节点的系统配置、自动报告计算节点的运行状态和资源利用情况;
所述用户终端包括:
虚拟机模块,其安装有Linux操作系统;
资源供应服务模块,其安装在所述Linux操作系统中用于管理用户作业、管理计算节点资源、管理计算节点文件系统;
加载器模块,其安装在所述Linux操作系统中与所述资源供应服务模块协同工作,由提交作业、查询作业和终止作业的模块组成;
其中所述用户终端上安装有视窗操作系统,在视窗操作系统中安装有用户世界模块,其用于将用户的请求提交给资源供应服务模块。
2.根据权利要求1所述的移动HPC系统,其特征在于:所述计算节点包括:
一片低功耗通用处理器;2片DDR2内存;北桥模块;2个GBIC模块;一片快闪存储器;BIOS模块组成的硬件系统,其中快闪存储器中烧有精简过的Linux内核。
3.如权利要求2所述的移动HPC系统,其特征在于:所述低功耗通用处理器为龙芯3A通用处理器。
4.根据权利要求1所述的移动HPC系统,其特征在于:
所述资源供应服务模块接受来自用户世界模块的关于作业管理的请求,所述关于作业管理的请求包括作业的提交、暂停、重启、停止以及作业状态的查询、作业执行结果的返回、返回资源使用信息以及程序运行状态。
5.根据权利要求1所述的移动HPC系统,其特征在于:
所述资源供应服务模块与智能代理模块进行交互,收集计算节点资源信息,对计算节点进行关闭/开机操作。
6.根据权利要求1所述的移动HPC系统,其特征是在于:
所述资源供应服务模块和所述用户世界模块采用socket通信,同时数据传 输时全部采用char型数据类型。
7.一种如权利要求1所述的移动HPC系统的实现方法,包括:
步骤1:用户在图形界面上与资源供应服务模块建立连接,在用户熟悉的程序界面将程序编辑好后将程序放在指定的工程目录下;
步骤2:用户编译程序,图形界面上的编译按钮将用户的程序提交到远程的智能代理模块编译;
步骤3:编译结果在智能代理模块自动返回到用户世界模块本地,用户根据返回的结果做进一步修改,编译完成后用户在本地工程目录下获得可以在智能代理模块上运行的可执行文件;
步骤4:用户将可执行文件创建作业,并提交作业到作业列队;
步骤5:资源供应服务模块捕捉用户的提交请求为该作业分配资源,并且通知智能代理模块挂载作业所在目录;
步骤6:智能代理模块挂载了用户端目录后会去执行作业文件中所描述的作业,然后将作业转化为运行状态提交给用户世界模块。
8.根据权利要求7所述的移动HPC系统的实现方法,其特征是,所述步骤4包括如下步骤:
步骤4.1:用户为程序所在的目录创建快捷方式;
步骤4.2:用户双击快捷方式可以使用户目录直接显示在作业路径里;
步骤4.3:用户通过右击可执行文件从而创建作业。
9.根据权利要求7所述的移动HPC系统的实现方法,其特征是,所述步骤5包括如下步骤:
步骤5.1:资源供应服务模块接受智能代理模块返回的处理器资源信息;
步骤5.2:根据提交作业的数目分配处理器资源,同时记录相应的处理单元ID号,建立用户作业与处理单元ID的一个映射表;
步骤5.3:资源供应服务模块向已经为作业分配的处理单元上的智能代理模块发送Mount文件系统请求,并等待返回操作结果;如果mount成功,资源供应服务模块通过ssh以脚本形式运行已经提交的作业,并返回进程ID给用户图形界面;如果mount失败,则向用户图形界面返回加载作业失败。
10.根据权利要求7所述的移动HPC系统的实现方法,其特征是,所述步骤6中: 
用户可以在图形界面上终止处于任何状态的作业。
11.根据权利要求10所述的移动HPC系统的实现方法,其特征是,所述步骤6中:
作业的状态有:等待、提交、运行、完成、崩溃;用户可以在用户世界模块的图形界面中查看作业运行的历史日志和每个计算节点的CPU利用率和内存使用率;用户在查看作业历史和资源利用率时,用户世界模块会把用户请求提交给资源供应服务模块时,资源供应服务模块会执行虚拟机模块上的一个bash脚本文件去查询智能代理模块上的相应信息,然后将信息返回给用户世界模块。 
CN 201110033760 2011-01-31 2011-01-31 一种移动hpc系统及其实现方法 Expired - Fee Related CN102096655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110033760 CN102096655B (zh) 2011-01-31 2011-01-31 一种移动hpc系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110033760 CN102096655B (zh) 2011-01-31 2011-01-31 一种移动hpc系统及其实现方法

Publications (2)

Publication Number Publication Date
CN102096655A CN102096655A (zh) 2011-06-15
CN102096655B true CN102096655B (zh) 2013-02-20

Family

ID=44129753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110033760 Expired - Fee Related CN102096655B (zh) 2011-01-31 2011-01-31 一种移动hpc系统及其实现方法

Country Status (1)

Country Link
CN (1) CN102096655B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1582981A1 (en) * 2004-04-15 2005-10-05 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
CN1704921A (zh) * 2004-04-15 2005-12-07 雷西昂公司 高性能计算系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1582981A1 (en) * 2004-04-15 2005-10-05 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
CN1704921A (zh) * 2004-04-15 2005-12-07 雷西昂公司 高性能计算系统和方法
CN1770109A (zh) * 2004-04-15 2006-05-10 雷西昂公司 在hpc环境下的拓扑认识作业调度和回填的系统和方法

Also Published As

Publication number Publication date
CN102096655A (zh) 2011-06-15

Similar Documents

Publication Publication Date Title
US20240163182A1 (en) Automated service-oriented performance management
US10447806B1 (en) Workload scheduling across heterogeneous resource environments
CN103414761B (zh) 一种基于Hadoop架构的移动终端云资源调度方法
Zhou et al. Utopia: a load sharing facility for large, heterogeneous distributed computer systems
US6907395B1 (en) System and method for designing a logical model of a distributed computer system and deploying physical resources according to the logical model
CN112667362B (zh) Kubernetes上部署Kubernetes虚拟机集群的方法与系统
CN104205109B (zh) 持续性和弹性的工作者进程
CN108737168B (zh) 一种基于容器的微服务架构应用自动构建方法
EP2251814A2 (en) License management system and license management method
US20140280805A1 (en) Two-Sided Declarative Configuration for Cloud Deployment
JP2021522615A (ja) ストレージボリューム作成方法および装置、サーバ、並びに記憶媒体
US8458693B2 (en) Transitioning from static to dynamic cluster management
CN111143054A (zh) 一种异构国产cpu资源融合管理方法
CN100563253C (zh) 一种客户/服务器架构中的数据处理方法
Kijsipongse et al. A hybrid GPU cluster and volunteer computing platform for scalable deep learning
Fan et al. A live migration algorithm for containers based on resource locality
CN113849399A (zh) 多国产化平台下的多机协同软件的自动化测试系统和方法
US11184244B2 (en) Method and system that determines application topology using network metrics
CN102096655B (zh) 一种移动hpc系统及其实现方法
WO2011114477A1 (ja) 階層型マルチコアプロセッサ、マルチコアプロセッサシステム、および制御プログラム
CN113760638A (zh) 一种基于kubernetes集群的日志服务方法和装置
US7779063B2 (en) Automatic benefit analysis of dynamic cluster management solutions
Yin et al. Cloud computing oriented network operating system and service platform
US20080007763A1 (en) Grid job submission using shared network filesystem
Luo A distributed management method based on the artificial fish-swarm model in cloud computing environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130220

Termination date: 20200131

CF01 Termination of patent right due to non-payment of annual fee