CN103380608A - 在计算环境中汇聚队列信息及作业信息的方法 - Google Patents

在计算环境中汇聚队列信息及作业信息的方法 Download PDF

Info

Publication number
CN103380608A
CN103380608A CN2011800679290A CN201180067929A CN103380608A CN 103380608 A CN103380608 A CN 103380608A CN 2011800679290 A CN2011800679290 A CN 2011800679290A CN 201180067929 A CN201180067929 A CN 201180067929A CN 103380608 A CN103380608 A CN 103380608A
Authority
CN
China
Prior art keywords
information
node
performance computer
job
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800679290A
Other languages
English (en)
Other versions
CN103380608B (zh
Inventor
迟学斌
肖海力
武虹
戴志辉
王小宁
曹荣强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Publication of CN103380608A publication Critical patent/CN103380608A/zh
Application granted granted Critical
Publication of CN103380608B publication Critical patent/CN103380608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/30Flow control; Congestion control in combination with information about buffer occupancy at either end or at transit nodes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3068Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种在计算环境中汇聚队列信息及作业信息的方法,其中所述计算环境具有三层多叉树状的组织结构,这种组织结构包括一个主节点作为根节点、多个分节点作为中间层节点,和多个高性能计算机作为叶子节点,其中主节点管理整个计算环境,包括所有分节点和高性能计算机;分节点管理其所辖的高性能计算机,所述方法的特征在于包括以下步骤:a.分节点读取其所辖的高性能计算机的信息;b.分节点根据读取的高性能计算机的信息,周期性地连接到其所辖的高性能计算机,根据其作业管理系统类型的不同而使用不同的命令,获取队列信息及作业信息;c.分节点将获取的队列信息及作业信息转化成指定的格式,并且报告给主节点,从而使得主节点及时获取最新的计算环境的整体运行情况;d.主节点根据整体运行情况,使用调度策略,完成作业自动调度功能。

Description

在计算环境中汇聚队列信息及作业信息的方法 技术领域
本发明涉及计算领域, 尤其是涉及一种在计算环境中汇聚队列信息及作 业信息的方法, 运行这种方法的系统, 以及一种使用了这种队列信息及作业 信息汇聚方法或者系统的计算环境。 背景技术
在目前, 各种高性能计算机在地域上分散分布, 各种高性能计算机使用 不同的操作系统, 连接方式, 作业管理系统, 所安装的和优化的计算软件各 不相同, 它们的投资和维护成本高, 只有在共享的模式下充分提高高性能计 算机的使用效率才能充分地发挥高性能计算机投资的有效性。建立高性能计 算服务环境(或者计算环境), 通过这种计算环境向有计算需求的客户提供 易用服务可以实现这一目的, 同时让企业用户更加专注于其自身业务, 避免 繁瑣的工具学习和操作, 大大提高科研单位和企业的生产效率, 降低成本。
然而, 将地域上分散分布的各种高性能计算机有效地组织和管理起来, 需要非常有效的手段, 这是高性能计算服务环境领域中一直在研究的课题。 目前已经出现了一些网格软件来对分散的高性能计算机进行有效地组织和 管理。 这些网格软件往往存在下面列出的一个或多个缺点: 不支持一台接入 设备向主节点接入多台高性能计算机;不支持多种访问模式(例如 SSH、RSH 等); 没有作业队列信息、 作业状态信息的获取不方便或者不稳定; 不支持 软件信息的获取、 展示和更新; 不支持自动选取作业运行队列; 不支持在高 性能计算机之间进行作业迁移和负载平衡等。 发明内容
本发明通过提出一种在多层次的高性能计算服务环境中汇聚队列信息 及作业信息的方法解决了以上所述的一种或者多种缺点。
因此, 本发明包括以下内容:
1. 一种在计算环境中汇聚队列信息及作业信息的方法,其中所述计算环 境具有多叉树状的组织结构, 这种组织结构包括一个主节点作为根节点、 多 个分节点作为中间层节点, 和多个高性能计算机作为叶子节点, 其中主节点 管理整个计算环境, 包括所有分节点和高性能计算机; 分节点管理其所辖的 高性能计算机,
所述方法的特征在于包括以下步骤:
a. 分节点读取其所辖的高性能计算机的信息;
b. 分节点根据读取的高性能计算机的信息, 周期性地连接到其所辖的 高性能计算机, 根据其作业管理系统类型的不同而使用不同的命令, 获取队 列信息及作业信息;
c 分节点将获取的队列信息及作业信息转化成指定的格式, 并且报告 给主节点, 从而使得主节点及时获取所述的队列信息及作业信息;
d. 主节点获取并存储分节点报告的队列信息及作业信息。
2. 第 1项所述的方法, 其中, 在步骤 a中, 所述高性能计算机的信息包 括以下的一个或者多个: 所辖高性能计算机的列表, 相应于各个高性能计算 机的静态配置信息, 包括机器名称、 网络连接地址、 网络连接方式、 作业管 理系统类型、 用户映射信息。
3. 第 1或 2项所述的方法, 其中在步骤 c中,在向主节点 4艮告转化成指 定格式的队列信息及作业信息的同时、 之前或者之后, 在分节点中存储所报 告的队列信息、 作业信息和报告时间。
4. 第 2或 3项所述的方法, 其中所述作业管理系统类型包括 LSF、 PBS 等系统, 以及其他类似作业管理系统。 这里所述的 LSF是指 Load Sharing
Facility作业管理系统, 它是商业作业管理系统, 可商购自 Platform公司。 这里所述的 PBS是 Portable Batch System, 它是一种开源的作业管理系统, 可从网上下载得到
5. 第 2至 4项中任一项所述的方法,其中在向主节点报告转化成指定格 式的队列信息及作业信息的同时, 主节点自动保存收到的信息及当前时间。
6. 第 1至 5项中任一项所述的方法,其中周期性地获取队列信息及作业 信息的时间间隔为 1秒至 1天, 更优选 1分钟至 10分钟,最优选 1分钟至 5 分钟。 或者在, 本发明中, 所述的周期也可以是根据不同的情况变化的, 比 如在一定的条件下使用 5分钟的周期, 在另一种条件下使用 1分钟的周期。
7. 第 1至 6项中任一项所述的方法,其中所述高性能计算机的信息的存 储方式包括: 通过在特定的数据库中存储, 通过在特定的目录中存储, 在特 定的文件中存储, 或者这些方式的结合。
8. 第 1至 7项中任一项所述的方法, 其中在步骤 a中, 所述连接方式包 括 SSH、 RSH。 这里所述的 SSH是指 Secure Shell。 这里所述的 RSH是指 Remote Shell。
9. 第 1至 8项中任一项所述的方法,其中所述高性能计算机包括: 计算 集群、 大型机、 小型机、 工作站以及个人计算机。
10. 第 1至 9项中任一项所述的方法, 其中所述方法还包括步骤: e. 主节点向分节点发出信息更新请求, 分节点立即进行步骤 a, b, c 和 d„
11. 第 1至 10项中任一项所述的方法,还包括步骤: f. 主节点根据作业 请求以及所获取的所有队列信息及作业信息,使用调度策略,进行作业调度。
12. 第 1至 11项中任一项所述的方法,其中所述计算环境具有三层多叉 树状的组织结构。
13. 一种在计算环境中汇聚队列信息及作业信息的系统, 其中所述计算 环境具有多叉树状的组织结构, 这种组织结构包括一个主节点作为根节点、 多个分节点作为中间层节点, 和多个高性能计算机作为叶子节点, 其中主节 点管理整个计算环境, 包括所有分节点和高性能计算机; 分节点管理其所辖 的高性能计算机,
所述系统的特征在于包括模块 1和模块 2,
其中模块 1读取其所辖的高性能计算机的信息,使得模块 1能够根据所 述的高性能计算机的信息周期性地连接到其所辖的每台高性能计算机,根据 该高性能计算机的作业管理系统类型的不同使用不同的命令, 获取队列信息 及作业信息; 然后模块 1将获取的队列信息及作业信息转化成指定的格式, 并且报告给模块 2, 从而使得模块 2及时获取所述的队列信息及作业信息; 其中模块 2获取并存储模块 1报告的队列信息及作业信息。
14. 第 13项所述的系统,其中在模块 1中,所述高性能计算机的信息包 括以下的至少一个: 模块 1所辖的高性能计算机的列表, 相应于各个高性能 计算机的静态配置信息, 包括机器名称、 网络连接地址、 网络连接方式、 作 业管理系统类型、 用户映射信息。
15. 第 13或 14项所述的系统, 其中在模块 2中, 所述作业调度是自动 进行的。 16. 第 13至 15项中任一项所述的系统, 其中模块 1运行于所述多层次 的计算环境的分节点中, 模块 2运行于所述计算环境的主节点中。
17. 第 13至 16项中任一项所述的系统, 其中所述系统还包括模块 3 , 其中所述模块 3是用户界面模块, 用户可以通过模块 3连接到计算环境中, 进行计算作业的提交和管理。
18. 第 17项所述的系统, 其中所述界面模块提供至少以下两种连接方 式: 命令行方式和 Portal方式。
19. 第 13至 18项中任一项所述的系统, 其中在模块 1中, 在模块 1向 模块 2报告转化成指定格式的队列信息及作业信息的同时、 之前或者之后, 在模块 1中存储所报告的队列信息、 作业信息和报告时间。
20. 第 13至 19项中任一项所述的系统, 其中所述作业管理系统类型包 括 LSF、 PBS等系统, 以及其他类似作业管理系统。
21. 第 13至 20项中任一项所述的系统, 其中周期性地获取队列信息及 作业信息的时间间隔为 1秒至 1天, 更优选 1分钟至 10分钟, 最优选 1分 钟至 5分钟。
22. 第 13至 21项中任一项所述的系统, 其中在模块 1中, 所述的高性 能计算机的信息的存储方式包括: 通过在特定的数据库中存储, 通过在特定 的目录中存储, 在特定的文件中存储, 或者这些方式的结合。
23. 第 13至 22项中任一项所述的系统, 其特征在于:
模块 2可向模块 1发出信息更新请求,模块 1根据接收的请求立即读取 其所辖的高性能计算机的信息, 并连接到其所辖的每台高性能计算机, 根据 该高性能计算机的作业管理系统类型的不同使用不同的命令, 获取队列信息 及作业信息; 然后模块 1将获取的队列信息及作业信息转化成指定的格式, 并且报告给模块 2, 从而使得模块 2及时获取最新的计算环境的整体运行情 况。
24. 第 13至 23项中任一项所述的系统, 其中所述系统中的一个或者多 个模块通过软件的方式实现。
25. 第 13至 24项中任一项所述的系统, 其中模块 2还包括: 根据作业 请求以及所获取的队列信息及作业信息, 使用调度策略, 进行作业调度。
26. 第 13至 25项中任一项所述的系统, 所述计算环境具有三层多叉树 状的组织结构。 27. 一种计算环境, 其使用第 13至 26项中任一项的系统或者第 1至 12 项中任一项的方法。 本发明带来了以下技术效果:
1. 本发明的方法或者系统可以达到,在本发明的多层次的高性能计算服 务环境中, 通过一个分节点服务器同时接入多个高性能计算机的需求, 这样 节省了资源接入的硬件成本和维护成本; 同时由于分节点对其所辖的高性能 计算机具有一定的管理功能, 所以减轻了主节点的管理任务; 同时也增加了 高性能计算机通过分节点接入主节点的灵活性, 分节点可以随时更新其所辖 的高性能计算机的数目、 类型等等; 也便于了分节点合理安排区域内的共享 资源。 因此, 在本发明的方法中, 对整个计算环境中的节点功能划分明确, 分成三级, 每一级定位和分工明确。
2. 进一步地,本发明的方法或者系统可以使得,在包含它们的计算环境 中, 允许分节点以各种不同的方式访问其所辖的多个高性能计算机, 在不同 的方式下通过存储的配置信息等, 实现自动支持。
3. 还进一步地,本发明的方法或者系统使得,在包含它们的计算环境中, 分节点同时兼容其所辖的高性能计算机的具有不同的作业管理系统, 同时又 向主节点和用户提供指定格式的队列和作业信息,使得用户可以忽略作业管 理系统之间的不同, 学习一种指定的操作方法就能够适应各种作业管理系 统, 从而可以更多地专注于自己的计算和科研任务。
4. 还进一步地,使用了本发明的方法或者系统的计算环境能够在复杂多 变的广域网互联环境中, 把收集到的资源信息(包括高性能计算机、 队列和 作业信息等), 以稳定和及时的形式呈现给用户。 这些信息是用户计算时所 需要的最基本的信息,稳定及时的信息对提高计算环境的服务质量有非常重 要的意义。
5. 还进一步地,在分节点中存储队列信息及作业信息,使得可以随时查 阅对比分节点所辖的高性能计算机的运行情况。 在意外情况下, 可以通过这 些信息手工修复系统。
6. 还进一步地,将分节点向主节点 ^艮告队列信息及作业信息的时间周期 根据需要设定为一定的值, 可以在网络资源和整个计算环境的负载允许的情 况下, 及时更新计算节点的信息。 分节点和叶子节点数量的增加对整个计算 环境的负载产生的影响很小, 这有利于软件稳定、 可靠地运行。
7. 还进一步地,分节点中可以以多种方式连接不同的高性能计算机,使 得釆用不同连接方式的高性能计算机都可通过一个分节点连接到主节点, 这 一特点使得多叉树的高性能计算服务环境成为可能, 允许更多节点灵活地通 过就近的分节点加入整个计算服务环境, 扩展性好。 信息进行即时更新的规则, 进一步丰富了本发明的队列信息及作业信息汇聚 的方法, 使得系统会更加稳定、 迅速和及时地为用户提供队列信息及作业信 息。
9. 还进一步地,釆用本发明中的方法或者系统的高性能计算服务环境非 常稳定,单个高性能计算机出现问题不影响用户计算;一个分节点出现问题, 不影响其他分节点及其所辖的高性能计算机的计算。 附图说明
下文中通过附图进一步说明本发明的实施方式, 本发明的优点及特点将 会更加明显, 附图不应解释为对本发明的限制。 在图中, 相同的附图标记表 示相同的组成。
图 1示例了具有三层多叉树状的组织结构的多层次的高性能计算服务环 境的一种实施方式, 并且示例地说明了本发明的方法的步骤。
图 2实例了本发明的方法的各个步骤的流程。 具体实施方式
下面结合附图的具体实施例对本发明做进一步介绍, 应该理解, 这些描 述都是说明性的, 本发明不限于此。 本发明的范围仅由所附权利要求的范围 所限定。
虽然本发明的描述以高性能计算机和高性能计算服务环境为例进行描 述, 但是本领域技术人员应该理解, 高性能计算机也可用计算机代替, 高性 能计算服务环境也可以用计算环境代替。
高性能计算服务环境: 一种将多个高性能计算机整合起来, 统一对外提 供计算服务的高性能计算机硬件和软件的组合。一个高性能计算服务环境通 常包含多个高性能计算机。在本申请中, "高性能计算机"、 "并行计算机"和"机 群,,三个词汇可以互换使用。 在本申请中, 术语 "计算环境" 就是指 "高性 能计算服务环境"、 "高性能计算环境" 或者 "高性能服务环境", 它们可以 互换使用。
多层次的高性能计算服务环境: 在高性能计算服务环境中, 通过将构成 该环境的硬件分工成几个层次, 每层负责不同的任务, 就形成了多层次的高 性能计算服务环境。 多层次的分工可以从功能上分, 也可以按照计算机的地 域分布分, 也可以按照计算机的计算能力分。
主节点: 在高性能计算服务环境中, 对于用户来说, 存在一个计算服务 的入口, 它对整个环境中的硬件和软件, 以及运行状态进行统一管理, 提供 统一的服务。
分节点: 相对于主节点来说, 直接连接至主节点的节点称为分节点, 它 们通常还会连接更下一层的节点。对于用户来说,存在一个计算服务的入口。
高性能计算机: 是在高性能计算服务环境中完成计算任务的高性能计算 机, 处于高性能计算服务环境中的最底层, 具体地完成每个计算任务。
在本发明中, 所述的分节点所辖的高性能计算机是指在多叉树结构的计 算环境中从属于该分节点的叶子节点, 或者说是处于该分节点下方的叶子节 点。
本发明中所用的术语 "网格软件" 具有本领域通常已知的含义, 它一般 是指在计算环境中, 为用户提供计算支撑服务的系统性软件。
图 1示出了一种具有三层多叉树状组织结构的高性能计算服务环境。在 该图中, 一个主节点作为根节点、 三个分节点 (节点 A、 节点 B和节点 C ) 作为中间层节点,和每个分节点下具有 1至 3个高性能计算机作为叶子节点, 其中主节点管理整个高性能计算服务环境, 分节点管理其所辖的高性能计算 机。 在这种计算环境中, 各个高性能计算机根据自己的特点安装有各种应用 程序。 所建立起的计算环境通过主节点统一对外提供计算服务。 计算服务的 范围随高性能计算机的变化而变化。
在该实施方式中,通过本发明的方法使得具有这种组织结构的高性能计 算服务环境能够及时地获取各个高性能计算机的队列和作业信息,对外提供 稳定的计算服务。
进一步地, 在图 1中, 最上面为主节点, 处于三层高性能计算服务环境 的最上层, 统一对外提供计算服务, 管理整个环境; 主节点下有节点八、 节 点 B和节点 C三个分节点, 分别管理其所辖的高性能计算机; 节点 A所辖 的高性能计算机有通过 SSH或者 RSH远程连接的高性能计算机 HPC-A1、 HPC-A2和 HPC-A3 , 节点 B所辖的高性能计算机有高性能计算机 HPC-B1 , 节点 C所辖的高性能计算机有通过 SSH或者 RSH远程连接的高性能计算机 HPC-C1和 HPC-C2; 其中每个高性能计算机的作业管理系统可以为 LSF或 者是 PBS。 每个高性能计算机包括以下资源: 队列资源(包括队列名称和队 列状态)、 作业资源(包括提交作业和作业状态)、 软件资源(包括应用程序 和限制条件)、 文件资源 (包括文件查看和文件传输)和账号资源 (包括账 号的映射关系和使用权限), 这些都是对于主节点调度整个高性能计算服务 环境的资源有用的信息。
在该实施方式中, 本发明的步骤包括: a. 分节点读取其所辖的高性能 计算机的信息, 所述高性能计算机的信息包括: 所辖高性能计算机的列表, 相应于各个高性能计算机的静态配置信息, 包括机器名称、 网络连接地址、 网络连接方式、 作业管理系统类型、 用户映射信息;
b. 分节点根据其所辖的高性能计算机的信息, 通过对应的网络连接方 式, 周期性地连接到其所辖的高性能计算机的网络连接地址, 根据其作业管 理系统类型的不同使用不同的命令, 获取队列信息及作业信息;
c 分节点将获取的队列信息及作业信息转化成指定的格式, 保存在本 地, 并且报告给主节点, 从而使得主节点及时获取最新的高性能计算服务环 境的整体运行情况;
d. 主节点根据整体运行情况, 使用调度策略, 完成作业自动调度功能。 在步骤 a中, 所述的高性能计算机的信息的存储方式可包括: 通过在特 定的数据库中存储, 通过在特定的目录中存储, 通过在文件中存储, 或者这 三种方式的结合。 在该实施方式中, 使用了在目录中存储有意义的信息的方 式实现对分节点所辖的高性能计算机的信息的存储。
以下是一个分节点的一个目录结构,它具体地示出了在分节点(节点 C ) 中存储其所辖的高性能计算机的信息的方式。 node C
|-- fs bin
'― report
、― queue
etc
卜 - jms
'-- sh
■ hpc
- HPC-Cl
I- app
I- etc
I- lib
卜- queue
'― tmp
- HPC-C2
I- app
I- etc
I- lib
卜- queue
'― tmp
在该存储方式中, node C是分节点的名称, 其下存在目录 fs, 其中, 通 过 fs目录来进行对其所辖的高性能计算机的管理工作, 在 fs的下层目录中, 存在 hpc目录用来存储其下所辖的各个超级计算机和名称 HPC-C1和
HPC-C2。在 HPC-C1和 HPC-C2目录中又建立了 app目录用来存储安装在各 个高性能计算机中并且对外提供服务的应用程序信息, lib目录用来存储该 高性能计算机的静态配置信息, queue用来存储高性能计算机中队列的设置 信息, 其下还有 tmp目录用来存储临时文件信息, 例如按时间顺序存储该高 性能计算机的队列信息及作业信息。
在步骤 b中, 在高性能计算机釆用不同的作业管理系统的情况下, 当然 应该釆取对应于该作业管理系统的命令, 获取相关的队列信息及作业信息。 在该方法中,分节点例如节点 C根据其下的目录中存储的各个高性能计 算机的具体信息 , 通过各种不同的方式获取高性能计算机的各种队列信息、 作业信息、 以及软件、 硬件资源信息, 汇总并上报给主节点。 当用户提交一 个新的计算时, 主节点首先接受并处理提交请求, 通过元调度算法例如先进 先出(FIFO )的调度算法来匹配合适的资源, 并将计算任务分发到分节点所 辖的相应高性能计算机上去处理执行; 分节点同时负责任务的各种控制管 理, 包括状态监控、 任务数据管理等。 分节点根据计算请求, 以及根据所存 储的高性能计算机的信息, 确定连接高性能计算机的方式、 用户名等, 连接 高性能计算机, 并且传送作业计算所需的输入文件, 提交相应的作业。
在分节点将获取的队列信息及作业信息上报给主节点之前,先将信息处 理成为指定的格式。
以下为从 LSF作业管理系统获取的队列信息的格式的示例:
LSF
QUEUE NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PE D RUN SUSP ~
bigmem 50 Open: Active - 0 0 0 0 normal 40 Open: Active 24 0 24
0
RU LIMIT
360.0 min
PROCLIMIT
16 16 256 以下为从 PBS作业管理系统获取的队列信息的格式的示例:
PBS
Max Tot Ena Str Que Run Hid Wat Trn
0 96 yes yes 51 45 0 0 0 0 E
0 30 yes yes 4 26 0 0 0 0 E 以下为从 LSF的输出文件中获取的指定格式的队列信息的示例:
SCE
#Add queue
queue Queuename=QN_Norm
Walltimelimit=360
Maxcpucount=256
Mincpucount= 16
在所示的指定格式的队列信息中包含了: 队列名称
( Queuename=QN_Norm )、 队列的时间限制 ( Walltimelimit=360 )、 最大 cpu 数目 (Maxcpucount=256 )和最小 cpu数目 ( Mincpucount=16 )。 这些信息将 成为主节点根据用户的计算请求匹配合适的队列的重要限制性信息。 当然指 定格式的作业和队列信息实际上还可以根据需要包括更多内容。
类似地, 可以通过分节点获得分节点所辖的高性能计算机的作业信息, 并将作业信息转化成指定的格式报告给主节点,及时的作业信息是主节点匹 配高性能计算机的重要参考, 同时也可以给用户提供以下信息: 即时的高性 能计算机的忙闲程度以及自己的作业的计算状态。
例如, 如果 HPC-C1需要通过 SSH方式连接, 釆用的是 LSF作业管理 系统, 那么节点 C就自动使用命令: ssh HPC-C1 , 连接到 HPC-C1 , 并相应 地使用 LSF的命令: bjobs,获取当前的队列及作业信息。又例如,如果 HPC-C2 需要通过 RSH方式连接, 釆用的是 PBS作业管理系统, 那么节点 C就自动 使用命令: rsh HPC-C2 , 连接到 HPC-C2 , 并相应地使用 PBS的命令: qstat, 获取当前的队列及作业信息。节点 C将从 HPC-C 1和 HPC-C2获得的数据转 换成指定的格式报告给主节点 (下文会详述;)。
实际上将作业和队列信息转换成指定格式的任务也可以由主节点完成, 这样, 分节点就只需要向主节点传送原始数据了。 但是为了减轻主节点的负 担, 这一工作往往由分节点完成。
以下为分节点连接其所辖的高性能计算机的静态配置信息的示例: host="l .2.4.4"
port="1234"
FILE_DIR="~/sce/workspace"
# SYSTEM configure job management system, the value can be LSF,PBS SYSTEM=LSF
# SH configure the shell connect manner, the value can be RSH,SSH,LSH SH=SSH
分节点根据以上的作业配制信息, 可以自动匹配: 高性能计算机在互联 网中所处的位置、 端口信息、 工作目录、 作业管理系统的类型、 连接方式。 因此, 本发明的方法中的高性能计算机的信息包括高性能计算机在互联网中 所处的位置、 端口信息、 工作目录、 作业管理系统的类型、 连接方式等等。
分节点连接高性能计算机所使用的用户名可能与主节点请求的用户名 不一样, 在这种情况下, 在分节点中, 还需要存储用户映射关系。
以下是用户映射关系的示例:
usermap:
griduserl userOOl
griduser2 user002
griduser3 user003 到此为止, 本发明的方法就可以实现在高性能计算服务环境中的硬件资 源动态汇聚和队列以及作业信息的动态汇聚。通过在分节点中存储其所辖的 高性能计算机的信息, 周期性地检查所辖的高性能计算机的状态, 以及队列 和作业信息, 并且将所得的信息转化成指定的格式, 上报给主节点, 可以将 动态变化的高性能计算机的信息以及动态变化的队列和作业信息实时地传 递给主节点, 用户可以通过主节点的显示进行计算任务的管理, 及时地获取 计算结果, 主节点也可根据所得的信息对计算任务进行调度。 在本发明中, 对调度算法没有限制, 最常使用的调度算法包括: 对用户提交的计算任务的 应用程序类型、 CPU个数、 计算时间长度等信息进行匹配, 然后将计算任务 提交到在应用程序类型、 CPU个数、 计算时间长度等信息方面满足要求的、 排队的作业最少的高性能计算机上。 同时本发明也实现了通过一个分节点向 主节点连接多个高性能计算机。 这样的做法节省了资源接入的成本, 也增加 了管理的灵活性和可靠性。
此外, 对于用户的计算请求, 分节点需要为用户需要的应用程序找到合 适的环境变量, 因此, 需要在分节点中存储相应的应用程序信息。 例如在 HPC-C1中安装了 testA应用程序,在分节点的 HPC-C1 目录的 app目录中存 储如下的 testA配置文件: testA.profile #!/bin/bash
"-d" ] && {
#This is the discription of the application, which can be modified.
echo -e " testA. Provided by xxx."
exit O
[ "$Γ = "-q" ] && {
#You can list all the queues that can run this app, each one in a line,
echo -e "QS Norm"
echo -e "QN_Norm"
exit O
[ "$r = "-p" ] && {
# sourced all the ARGs
. "$2"
# executable and arguments of this application
RUN_PROGRAM="source /software_path/testA.profile; testA $ARG0"
echo ${RUN_PROGRAM}
exit O
}
通过这个简单的配置文件, 就可以设置一个应用程序的描述信息、 队列 限制信息、 运行方法等。
进一步地, 本发明的方法还可包括步骤: e. 主节点向各个分节点发出 信息更新请求, 分节点立即进行步骤 a, b, c和 d。 定时触发和用户触发的 结合可以确保将整个高性能计算服务环境以稳定可靠的形式呈现给用户。
此外, 本发明的方法也可类似地用于具有多于三个层次的多层次的高性 能计算服务环境中, 例如四层、 五层、 六层或者七层等。
此外, 在一种实施方式中, 本发明还提供一种网格软件, 其使用了前述 的方法, 或者实现本发明的方法中的一个或者多个步骤, 用于前述的多叉树 状的组织结构的多层次的高性能计算服务环境中。这种软件对于接入整个高 性能计算服务环境中的高性能计算机的连接方式、作业管理系统的类型等都 可以自由设定。
此外, 在一种实施方式中, 本发明的网格软件提供两种用户界面, 一种 是图形化的 Portal格式, 另一种是传统的命令行格式。 这两种格式几乎适用 于所有的使用计算机完成计算任务的人群。 Portal方式也可以通俗地称为网 页方式或浏览器方式。
此外, 本发明还提供一种多层次的高性能计算服务环境, 其具有以上所 述的三层多叉树状的组织结构, 并且使用本发明提供的方法进行资源汇聚或 者使用本发明的网格软件。
关于本发明, 需要进一步说明的是:
在实际应用中, 计算服务环境一般使用三层多叉树状的组织结构。 三层 结构的超级计算服务环境包含许多高性能计算机(即叶子节点), 这些节点 可能是国家级大型超算中心、 区域性的超算中心或研究所内部的小型超算中 心,甚至是专业从事科学研究的课题组。这些不同的节点拥有的超算资源(高 性能计算机 /HPC ) 的数量可能为 1台至 10多台, 和规模也各不相同, 可以 为千亿次至千万亿次或者更高的量级, 体系结构和管理模式也不同。 关于这 些高性能计算机的信息有些是静态的 (比如每个高性能计算机的 CPU数目 , 存储空间), 有些是动态不断变化的 (作业的排队情况, 运行情况等), 有些 处于两者之间偶尔变化(比如队列的设置, 用户的权限, 应用程序信息)。 在复杂多变的广域网互联环境中, 如何获取并收集这些动态变化的信息, 并 最终以稳定的形式呈现给用户, 是网格软件的关键技术之一, 也是实现高性 能计算服务环境的关键方法。
图 2实例了本发明的方法的各个步骤的流程。在本发明的在计算环境中 汇聚队列信息及作业信息的方法中, 其可包括 、 b、 c、 d、 e和 f共 6个步 骤。 其中为实现本发明的目的, 步骤 a、 b、 c和 d是必须的步骤, 步骤 e和 f是优选存在的步骤。
本发明提出了一种灵活的动态资源汇聚方法, 克服了多个技术难点: 1. 在同一分节点, 满足多套高性能计算机同时接入的需求。在不同的分 节点, 有的只有一台高性能计算机, 有的同时拥有 2-3台甚至更多。 在传统 方式中, 往往要求每台高性能计算机都配备一套接入设备, 这种方法必然增 加了硬件投资和维护成本。 在资源接入的时候, 要考虑尽量减少接入成本, 通过相同的接入服务器和软件, 同时接入多套高性能计算机的资源。
2. 不同的分节点,允许接入服务器访问其所辖的高性能计算机的方式不 同。 有些节点允许接入服务器直接安装在高性能计算机内部, 直接获取高性 能计算机的信息; 有些节点完全把接入服务器与高性能计算机隔离, 必须通 过 SSH或 RSH等远程方式访问。 本发明的方法和软件同时支持这些管理和 设置方式, 在不同的方式下, 通过修改静态配置信息, 体现出这种不同, 实 现自动支持。
3. 不同的高性能计算机,在高性能计算机上安装的集群作业管理系统不 同。比较流行的有商业软件 LSF、 PBS Pro,也有开源的免费软件如 OpenPBS、
Torque, SGE等。 这样, 在获取作业系统队列及排队信息、 提交作业等操作 时, 也有釆用不同的方法。 本发明的方法和网格软件兼容不同的作业管理系 统, 在不同的方式下, 通过修改静态配置信息, 体现出这种不同, 实现自动 支持。
4. 复杂多变的广域网互联环境中,如何把收集到的资源信息(包括队列、 作业、 软件、 文件、 账号等), 以稳定的形式呈现给用户。 本发明的方法和 软件实现两种形式的触发机制: 定时触发和用户触发。 利用定时触发机制, 定期获取并更新系统动态变化的信息; 在一个周期内没有获得信息更新, 即 认为系统下线, 暂时不可使用。 这个周期可以配置, 一般选择 1-10 分钟, 也可以更长, 例如为 1小时, 也可以更短, 例如为 1秒。 对于绝大多数系统 和用户, 1-10分钟的更新周期是合理的。 定时触发的机制, 可以保证用户获 取信息在响应时间上的及时性和一致性, 不会应为互联网环境的变化, 导致 用户获取信息的速度也时快时慢。 为了弥补定时触发机制在实时性方面的缺 陷, 用户也可触发更新机制, 获取实时信息。 这种机制, 是一种保证用户体 验的重要手段。 此外, 本发明还提供一种对应于本发明的方法的系统。
一种在多层次的高性能计算服务环境中汇聚队列信息及作业信息的系 统, 其中所述多层次的高性能计算服务环境具有多叉树状的组织结构, 这种 组织结构包括一个主节点作为根节点、 多个分节点作为中间层节点, 和多个 高性能计算机作为叶子节点, 其中主节点管理整个高性能计算服务环境, 包 括所有分节点和高性能计算机; 分节点管理其所辖的高性能计算机, 所述系统的特征在于包括模块 1和模块 2,
其中模块 1存储其所辖的高性能计算机的信息,使得模块 1能够根据所 述的高性能计算机的信息周期性地连接到其所辖的每台高性能计算机,根据 该高性能计算机的作业管理系统类型的不同使用不同的命令, 获取队列信息 及作业信息; 然后模块 1将获取的队列信息及作业信息转化成指定的格式, 并且报告给模块 2, 从而使得模块 2及时获取最新的高性能计算服务环境的 整体运行情况;
其中模块 2根据所获得的高性能计算服务环境的整体运行情况,使用调 度策略, 进行作业调度。 改进。
在本发明的系统的实施方式中, 其中在模块 1中, 所述高性能计算机的 信息包括以下的至少一个: 模块 1所辖的高性能计算机的列表, 相应于各个 高性能计算机的静态配置信息, 包括机器名称、 网络连接地址、 网络连接方 式、 作业管理系统类型、 用户映射信息。
在本发明的系统的实施方式中, 其中在模块 2中, 所述作业调度是自动 进行的。
在本发明的系统的实施方式中, 其中模块 1运行于所述多层次的计算环 境的分节点中, 模块 2运行于所述计算环境的主节点中。
在本发明的系统的实施方式中, 其中所述系统还包括模块 3 , 其中所述 模块 3是用户界面模块, 用户可以通过模块 3连接到计算环境中, 进行计算 作业的提交和管理。
在本发明的系统的实施方式中, 其中所述界面模块提供至少以下两种连 接方式: 命令行方式和 Portal方式。
在本发明的系统的实施方式中, 其中在模块 1中, 在模块 1向模块 2报 告转化成指定格式的队列信息及作业信息的同时、 之前或者之后, 在模块 1 中存储所报告的队列信息、 作业信息和报告时间。
在本发明的系统的实施方式中, 其中所述作业管理系统类型包括 LSF、 PBS等系统, 以及其他类似作业管理系统。
在本发明的系统的实施方式中, 其中周期性地获取队列信息及作业信息 的时间间隔为 1秒至 1天, 更优选 1分钟至 10分钟, 最优选 1分钟至 5分 钟。
在本发明的系统的实施方式中, 其中在模块 1中, 所述的存储其所辖的 高性能计算机的信息的方式包括: 通过在特定的数据库中存储, 通过在特定 的目录中存储, 在特定的文件中存储, 或者这些方式的结合。
在本发明的系统的实施方式中, 其特征在于:
模块 2可向模块 1发出信息更新请求,模块 1可根据接收的请求立即读 取其所辖的高性能计算机的信息, 并连接到其所辖的每台高性能计算机, 根 据该高性能计算机的作业管理系统类型的不同使用不同的命令, 获取队列信 息及作业信息;然后模块 1将获取的队列信息及作业信息转化成指定的格式, 并且报告给模块 2, 从而使得模块 2及时获取最新的计算环境的整体运行情 况。
在本发明的系统的实施方式中, 其中所述系统中的一个或者多个模块通 过网格软件的方式实现。
在本发明的所有实施方式中, 所述的计算环境优选具有三层多叉树状的 组织结构。 在三层的组织结构中, 减少分节点的层数, 就有利于减少分节点 的个数, 并且使得组织结构不过于复杂, 又可以节约硬件投资。 对于现有的 计算机服务器来说, 一个分节点下管理数十个高性能计算机也并不多, 因此 目前来说三层组织结构对于计算环境来说常常是已经能够高效地使用的,但 是使用更多层的结构也完全可行。

Claims (1)

  1. 权 利 要 求
    1. 一种在计算环境中汇聚队列信息及作业信息的方法,其中所述计算环 境具有多叉树状的组织结构, 这种组织结构包括一个主节点作为根节点、 多 个分节点作为中间层节点, 和多个高性能计算机作为叶子节点, 其中主节点 管理整个计算环境, 包括所有分节点和高性能计算机; 分节点管理其所辖的 高性能计算机,
    所述方法的特征在于包括以下步骤:
    a. 分节点读取其所辖的高性能计算机的信息;
    b. 分节点根据读取的高性能计算机的信息, 周期性地连接到其所辖的 高性能计算机, 根据其作业管理系统类型的不同而使用不同的命令, 获取队 列信息及作业信息;
    c 分节点将获取的队列信息及作业信息转化成指定的格式, 并且报告 给主节点, 从而使得主节点及时获取所述的队列信息及作业信息;
    d. 主节点获取并存储分节点报告的队列信息及作业信息。
    2. 根据权利要求 1所述的方法, 其中, 在步骤 a中, 所述高性能计算机 的信息包括以下的一个或者多个: 所辖高性能计算机的列表, 相应于各个高 性能计算机的静态配置信息, 包括机器名称、 网络连接地址、 网络连接方式、 作业管理系统类型、 用户映射信息。
    3. 根据权利要求 1所述的方法,其中周期性地获取队列信息及作业信息 的时间间隔为 1秒至 1天, 更优选 1分钟至 10分钟, 最优选 1分钟至 5分 钟。
    4. 根据权利要求 1所述的方法, 其中所述方法还包括步骤:
    e. 主节点向分节点发出信息更新请求, 分节点立即进行步骤 a, b, c 和 d。
    5. 根据权利要求 1所述的方法, 还包括步骤: f. 主节点根据作业请求 以及所获取的所有队列信息及作业信息, 使用调度策略, 进行作业调度。
    6. 根据权利要求 1所述的方法,其中所述计算环境具有三层多叉树状的 组织结构。
    7. 一种在计算环境中汇聚队列信息及作业信息的系统,其中所述计算环 境具有多叉树状的组织结构, 这种组织结构包括一个主节点作为根节点、 多 个分节点作为中间层节点, 和多个高性能计算机作为叶子节点, 其中主节点 管理整个计算环境, 包括所有分节点和高性能计算机; 分节点管理其所辖的 高性能计算机,
    所述系统的特征在于包括模块 1和模块 2,
    其中模块 1读取其所辖的高性能计算机的信息,使得模块 1能够根据所 述的高性能计算机的信息周期性地连接到其所辖的每台高性能计算机,根据 该高性能计算机的作业管理系统类型的不同使用不同的命令, 获取队列信息 及作业信息; 然后模块 1将获取的队列信息及作业信息转化成指定的格式, 并且报告给模块 2, 从而使得模块 2及时获取所述的队列信息及作业信息; 其中模块 2获取并存储模块 1报告的队列信息及作业信息。
    8. 根据权利要求 7所述的系统,其中所述界面模块提供至少以下两种连 接方式: 命令行方式和 Portal方式。
    9. 根据权利要求 7所述的系统, 其中所述作业管理系统类型包括 LSF、 PBS等系统, 以及其他类似作业管理系统。
    10. 根据权利要求 7所述的系统, 所述计算环境具有三层多叉树状的组 织结构。
CN201180067929.0A 2011-03-09 2011-03-09 在计算环境中汇聚队列信息及作业信息的方法 Active CN103380608B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/071640 WO2012119310A1 (zh) 2011-03-09 2011-03-09 在计算环境中汇聚队列信息及作业信息的方法

Publications (2)

Publication Number Publication Date
CN103380608A true CN103380608A (zh) 2013-10-30
CN103380608B CN103380608B (zh) 2015-12-02

Family

ID=46797418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180067929.0A Active CN103380608B (zh) 2011-03-09 2011-03-09 在计算环境中汇聚队列信息及作业信息的方法

Country Status (3)

Country Link
EP (1) EP2685693A4 (zh)
CN (1) CN103380608B (zh)
WO (1) WO2012119310A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN111709623A (zh) * 2020-06-04 2020-09-25 中国科学院计算机网络信息中心 高性能计算环境评价方法、装置、电子设备及存储介质
CN113419827A (zh) * 2021-05-11 2021-09-21 北京天云融创软件技术有限公司 一种高性能计算资源调度公平分享方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN109144823A (zh) * 2017-06-27 2019-01-04 中国石油化工股份有限公司 计算资源和作业信息的展示方法及系统
CN111258840B (zh) * 2018-11-30 2023-10-10 杭州海康威视数字技术股份有限公司 一种集群节点管理方法、装置及集群

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1290887A (zh) * 1999-10-05 2001-04-11 国际商业机器公司 在具有本地作业控制系统的分布式处理系统内的外部作业调度
US6308208B1 (en) * 1998-09-30 2001-10-23 International Business Machines Corporation Method for monitoring network distributed computing resources using distributed cellular agents
US6418445B1 (en) * 1998-03-06 2002-07-09 Perot Systems Corporation System and method for distributed data collection and storage
CN1671135A (zh) * 2004-03-19 2005-09-21 联想(北京)有限公司 一种面向网格的机群作业管理系统及其实现方法
CN101309208A (zh) * 2008-06-21 2008-11-19 华中科技大学 一种适用于网格环境的基于可靠性代价的作业调度系统
US20090037571A1 (en) * 2007-08-02 2009-02-05 Erol Bozak Dynamic Agent Formation For Efficient Data Provisioning
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、系统及设备
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群系统的可重组方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845410B1 (en) * 1999-09-29 2005-01-18 Silicon Graphics, Inc. System and method for a hierarchical system management architecture of a highly scalable computing system
US7594015B2 (en) * 2003-07-28 2009-09-22 Sap Ag Grid organization
TWI314823B (en) * 2005-06-24 2009-09-11 Era Digital Media Co Distributed streaming server
CN101340423B (zh) * 2008-08-13 2011-02-02 北京航空航天大学 一种基于元调度环的多集群作业调度方法
US20100287280A1 (en) * 2009-05-08 2010-11-11 Gal Sivan System and method for cloud computing based on multiple providers
CN101790248B (zh) * 2009-09-28 2012-06-20 长春理工大学 微型无人机群自治管理数据链路
CN101883039B (zh) * 2010-05-13 2012-02-01 北京航空航天大学 大规模集群系统的数据传输网络及其构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418445B1 (en) * 1998-03-06 2002-07-09 Perot Systems Corporation System and method for distributed data collection and storage
US6308208B1 (en) * 1998-09-30 2001-10-23 International Business Machines Corporation Method for monitoring network distributed computing resources using distributed cellular agents
CN1290887A (zh) * 1999-10-05 2001-04-11 国际商业机器公司 在具有本地作业控制系统的分布式处理系统内的外部作业调度
CN1671135A (zh) * 2004-03-19 2005-09-21 联想(北京)有限公司 一种面向网格的机群作业管理系统及其实现方法
US20090037571A1 (en) * 2007-08-02 2009-02-05 Erol Bozak Dynamic Agent Formation For Efficient Data Provisioning
CN101309208A (zh) * 2008-06-21 2008-11-19 华中科技大学 一种适用于网格环境的基于可靠性代价的作业调度系统
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、系统及设备
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群系统的可重组方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN109542595B (zh) * 2017-09-21 2023-02-24 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN111709623A (zh) * 2020-06-04 2020-09-25 中国科学院计算机网络信息中心 高性能计算环境评价方法、装置、电子设备及存储介质
CN113419827A (zh) * 2021-05-11 2021-09-21 北京天云融创软件技术有限公司 一种高性能计算资源调度公平分享方法

Also Published As

Publication number Publication date
WO2012119310A1 (zh) 2012-09-13
CN103380608B (zh) 2015-12-02
EP2685693A4 (en) 2014-05-07
EP2685693A1 (en) 2014-01-15

Similar Documents

Publication Publication Date Title
CN109643312B (zh) 托管查询服务
CN103414761B (zh) 一种基于Hadoop架构的移动终端云资源调度方法
CN111324445B (zh) 一种任务调度模拟系统
Yu et al. A taxonomy of workflow management systems for grid computing
CN103092698B (zh) 云计算应用自动部署系统及方法
CN105095327A (zh) 一种分布式etl系统及调度方法
Cheng et al. Heterogeneity-aware workload placement and migration in distributed sustainable datacenters
CN103380608A (zh) 在计算环境中汇聚队列信息及作业信息的方法
CN109614227B (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN107239675A (zh) 基于云平台的生物信息分析系统
Kaur et al. Comparison of workflow scheduling algorithms in cloud computing
CN103491155B (zh) 一种实现移动计算和获取移动数据的云计算方法及系统
CN103713935B (zh) 一种在线管理Hadoop集群资源的方法和装置
CN105094982A (zh) 一种多星遥感数据处理系统
CN112579267A (zh) 一种去中心化大数据作业流调度方法及装置
CN105096181A (zh) 一种大数据的电商交易方法及电商交易系统
CN114691050B (zh) 基于kubernetes的云原生存储方法、装置、设备及介质
US20050198614A1 (en) Management platform and evironment
CN110533320B (zh) 一种基于Hadoop平台的电力设备停电计划编制方法
CN101390056A (zh) 应用系统智能优化器
CN109412970A (zh) 数据流转系统、数据流转方法、电子设备和存储介质
AU2015101031A4 (en) System and a method for modelling the performance of information systems
JPH09330243A (ja) 計算機システム
Li et al. Cress: Dynamic scheduling for resource constrained jobs
US11233738B1 (en) Dynamic performance configuration for data traffic workflows

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant