JP2018194875A - 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム - Google Patents
並列処理装置、ジョブ管理方法、およびジョブ管理プログラム Download PDFInfo
- Publication number
- JP2018194875A JP2018194875A JP2017095200A JP2017095200A JP2018194875A JP 2018194875 A JP2018194875 A JP 2018194875A JP 2017095200 A JP2017095200 A JP 2017095200A JP 2017095200 A JP2017095200 A JP 2017095200A JP 2018194875 A JP2018194875 A JP 2018194875A
- Authority
- JP
- Japan
- Prior art keywords
- job
- node
- nodes
- execution
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
- G06F9/4887—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Abstract
Description
図1Aおよび図1Bは、実施の形態にかかるジョブ管理方法の一実施例を示す説明図である。図1において、並列処理装置101は、複数のノードNに実行させるジョブを管理するコンピュータ(いわゆる、管理ノード)である。ノードNは、並列計算機システムの構成要素であり、並列計算を行うコンピュータ(いわゆる、計算ノード)である。ジョブは、ユーザがコンピュータに依頼する仕事の単位である。ジョブとしては、例えば、科学技術計算などの大規模な計算を行うジョブが挙げられる。
つぎに、図1に示した並列処理装置101を含む並列計算機システム200のシステム構成例について説明する。
図3は、並列処理装置101のハードウェア構成例を示すブロック図である。図3において、並列処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、I/F(Interface)303と、ディスクドライブ304と、ディスク305と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
つぎに、並列処理装置101が有するノード管理テーブル220の記憶内容について説明する。ノード管理テーブル220は、例えば、図3に示したメモリ302、ディスク305などの記憶装置により実現される。
つぎに、並列処理装置101が有するジョブ管理テーブル230の記憶内容について説明する。ジョブ管理テーブル230は、例えば、図3に示したメモリ302、ディスク305などの記憶装置により実現される。
つぎに、並列処理装置101が用いる問題ノード一覧情報600の具体例について説明する。
図7は、並列処理装置101の機能的構成例を示すブロック図である。図7において、並列処理装置101は、取得部701と、受付部702と、算出部703と、分割部704と、割当制御部705と、を含む構成である。取得部701〜割当制御部705は制御部となる機能であり、具体的には、例えば、図3に示したメモリ302、ディスク305などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F303により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302、ディスク305などの記憶装置に記憶される。より具体的には、各機能部は、例えば、並列処理装置101のジョブスケジューラにより実現することができる。
つぎに、並列処理装置101のジョブ管理処理手順について説明する。ジョブ管理処理は、例えば、定期的に実行されることにしてもよく、新たなジョブJが投入される、あるいは、投入済みのいずれかのジョブJの実行が完了したことに応じて実行されることにしてもよい。また、ノードNの位置情報は、ノード管理テーブル220に記憶されているとする。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
制御部を有することを特徴とする並列処理装置。
前記ジョブの割り当てを行う際に、前記問題ノードを含まないノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする付記1に記載の並列処理装置。
前記複数のエリアの全てについて前記問題ノードを含まないノード群を選択した前記ジョブの割り当てができないときは、前記問題ノードの数が最小となるようにノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする付記2に記載の並列処理装置。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータが実行することを特徴とするジョブ管理方法。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータに実行させることを特徴とするジョブ管理プログラム。
200 並列計算機システム
201 クライアント装置
210 ネットワーク
220 ノード管理テーブル
230 ジョブ管理テーブル
300 バス
301 CPU
302 メモリ
303 I/F
304 ディスクドライブ
305 ディスク
600 問題ノード一覧情報
701 取得部
702 受付部
703 算出部
704 分割部
705 割当制御部
A エリア
AR ノードエリア
N ノード
Claims (5)
- 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
制御部を有することを特徴とする並列処理装置。 - 前記制御部は、
前記ジョブの割り当てを行う際に、前記問題ノードを含まないノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする請求項1に記載の並列処理装置。 - 前記制御部は、
前記複数のエリアの全てについて前記問題ノードを含まないノード群を選択した前記ジョブの割り当てができないときは、前記問題ノードの数が最小となるようにノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする請求項2に記載の並列処理装置。 - 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータが実行することを特徴とするジョブ管理方法。 - 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータに実行させることを特徴とするジョブ管理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017095200A JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
US15/964,424 US11023281B2 (en) | 2017-05-12 | 2018-04-27 | Parallel processing apparatus to allocate job using execution scale, job management method to allocate job using execution scale, and recording medium recording job management program to allocate job using execution scale |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017095200A JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018194875A true JP2018194875A (ja) | 2018-12-06 |
JP6885193B2 JP6885193B2 (ja) | 2021-06-09 |
Family
ID=64097936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017095200A Active JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11023281B2 (ja) |
JP (1) | JP6885193B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017007655T5 (de) * | 2017-06-19 | 2020-03-05 | Mitsubishi Electric Corporation | Verteilte Zuweisungseinrichtung, verteiltes Zuweisungssystem, sowie verteiltes Zuweisungsverfahren |
US10776160B2 (en) * | 2017-12-28 | 2020-09-15 | Mcgraw Hill Llc | Management of sequenced execution of service tasks in a multi-service system |
US11042416B2 (en) | 2019-03-06 | 2021-06-22 | Google Llc | Reconfigurable computing pods using optical networks |
CN110928659B (zh) * | 2019-11-20 | 2022-12-06 | 哈尔滨工程大学 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
CN114489855A (zh) * | 2022-01-27 | 2022-05-13 | 北京索为系统技术股份有限公司 | 流程节点控制方法、装置、计算机设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3959516B2 (ja) * | 2001-08-06 | 2007-08-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ネットワークシステム、cpu資源プロバイダ、クライアント装置、処理サービスの提供方法、およびプログラム |
US8336040B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
JP4781089B2 (ja) * | 2005-11-15 | 2011-09-28 | 株式会社ソニー・コンピュータエンタテインメント | タスク割り当て方法およびタスク割り当て装置 |
JP4611922B2 (ja) * | 2006-03-28 | 2011-01-12 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
US7631169B2 (en) * | 2007-02-02 | 2009-12-08 | International Business Machines Corporation | Fault recovery on a massively parallel computer system to handle node failures without ending an executing job |
US8381220B2 (en) * | 2007-10-31 | 2013-02-19 | International Business Machines Corporation | Job scheduling and distribution on a partitioned compute tree based on job priority and network utilization |
EP2455863A4 (en) * | 2009-07-16 | 2013-03-27 | Hitachi Ltd | MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE |
US8484354B2 (en) * | 2009-11-02 | 2013-07-09 | Beaumaris Networks, Inc. | Distributed resource management |
JP5325827B2 (ja) | 2010-03-31 | 2013-10-23 | 株式会社日立製作所 | ジョブスケジュールシステム、ジョブスケジュール管理方法及びプログラム。 |
JP6221588B2 (ja) * | 2013-09-30 | 2017-11-01 | 富士通株式会社 | 情報処理システム、管理装置制御プログラム及び情報処理システムの制御方法 |
-
2017
- 2017-05-12 JP JP2017095200A patent/JP6885193B2/ja active Active
-
2018
- 2018-04-27 US US15/964,424 patent/US11023281B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11023281B2 (en) | 2021-06-01 |
US20180329752A1 (en) | 2018-11-15 |
JP6885193B2 (ja) | 2021-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6885193B2 (ja) | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム | |
JP6643242B2 (ja) | データ管理システム及び方法 | |
EP2791806B1 (en) | Working set swapping using a sequentially ordered swap file | |
CN113687941A (zh) | 一种基于优先级的资源分配方法、装置和设备 | |
US10817380B2 (en) | Implementing affinity and anti-affinity constraints in a bundled application | |
US20190253489A1 (en) | Command process load balancing system | |
JP5104855B2 (ja) | 負荷分散プログラム、負荷分散方法、及びストレージ管理装置 | |
JP2007249674A (ja) | サーバシステム | |
JP2017016541A (ja) | 情報処理装置、並列計算機システム、ジョブスケジュール設定プログラムおよびジョブスケジュール設定方法 | |
US20180254999A1 (en) | Multidimensional resource allocation in data centers | |
JP2010266996A (ja) | データベース処理方法、データベース処理システム及びデータベースサーバ | |
US20200285510A1 (en) | High precision load distribution among processors | |
CN107977275B (zh) | 基于消息队列的任务处理方法及相关设备 | |
JP2008090507A (ja) | ジョブ実行のスケジューリングプログラム、ジョブ実行のスケジューリング方法、ジョブ実行のスケジューリング装置 | |
JP5515889B2 (ja) | 仮想マシンシステム、自動マイグレーション方法および自動マイグレーションプログラム | |
JP5773493B2 (ja) | 情報処理装置 | |
US10394615B2 (en) | Information processing apparatus and job management method | |
US8332595B2 (en) | Techniques for improving parallel scan operations | |
JP6194875B2 (ja) | キャッシュ装置、キャッシュシステム、キャッシュ方法、及びキャッシュプログラム | |
JP2008225686A (ja) | 分散型データ処理プラットフォームにおけるデータ配置管理装置と方法、システム及びプログラム | |
US20200042634A1 (en) | Methods and apparatus to partition a database | |
JP2020144510A (ja) | ジョブ制御システム、方法、及びプログラム | |
JP4064033B2 (ja) | 複数の記録媒体を利用したデータバックアップ装置およびプログラム記憶媒体 | |
JP6020014B2 (ja) | 分散データストア管理装置、分散並列処理実行装置、分散並列処理システム、分散データストア管理方法、分散並列処理実行方法、および、コンピュータ・プログラム | |
JP2015185003A (ja) | スケジューラ装置及びそのスケジューリング方法、演算処理システム、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6885193 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |