JP6794862B2 - 情報処理装置、プログラム、および情報処理方法 - Google Patents
情報処理装置、プログラム、および情報処理方法 Download PDFInfo
- Publication number
- JP6794862B2 JP6794862B2 JP2017021458A JP2017021458A JP6794862B2 JP 6794862 B2 JP6794862 B2 JP 6794862B2 JP 2017021458 A JP2017021458 A JP 2017021458A JP 2017021458 A JP2017021458 A JP 2017021458A JP 6794862 B2 JP6794862 B2 JP 6794862B2
- Authority
- JP
- Japan
- Prior art keywords
- nodes
- job
- leaf
- switch
- links
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0668—Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0896—Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/70—Virtual switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multi Processors (AREA)
- Environmental & Geological Engineering (AREA)
- Hardware Redundancy (AREA)
Description
図1は、並列コンピュータシステム(情報処理システム,スーパーコンピュータシステム)1の構成の一例を示すブロック図である。図1に示すように、並列コンピュータシステム1においては、プロセッサを含む複数のノード100が備えられる。各ノード100は、例えば、leafスイッチ200やspineスイッチ300によって構成されるファットツリーのごときトポロジーネットワークを介して相互に通信可能に接続される。
まず、図5を参照しながら、本実施形態のジョブスケジューリング機能を実現する情報処理装置(コンピュータ,ジョブスケジューラ)10のハードウェア構成について説明する。図5は、当該ハードウェア構成の一例を示すブロック図である。
次に、図6を参照しながら、本実施形態のジョブスケジューリング機能を有する情報処理装置(コンピュータ,ジョブスケジューラ)10の機能構成について説明する。図6は、当該機能構成の一例を示すブロック図である。
次に、図7および図8を参照しながら、本実施形態のジョブスケジューラ10を適用される並列コンピュータシステム1の構成について説明する。図7は、その全体構成の一例を示すブロック図であり、図8は、図7に示す並列コンピュータシステム1におけるサブネットマネージャ(SM)500の動作を説明するブロック図である。
次に、図9〜図12を参照しながら、本実施形態のジョブスケジューラ10による具体的なジョブスケジューリング動作について説明する。
上述した本実施形態では、検索部21による検索動作に際し、対象leafスイッチ200を、例えばスイッチ番号#iの昇順あるいは降順に選択する場合について説明した。
これに対し、第1変形例では、前述したソート部23の一例が用いられ、検索部21による検索動作に先立ち、複数のleafスイッチ200は、各leafスイッチ200に接続されるリンクLのうち故障したリンクの数が多い順にソートされる。そして、検索部21は、ソート部23によってソートした順に、各leafスイッチ200に所定数以上の空きノードが接続されているかを判断することによって、所定数以上の空きノードが接続されるleafスイッチ200の検索を行なう。
また、第2変形例では、前述したソート部23の他例が用いられ、割当部22による割り当て動作に先立ち、複数のleafスイッチ200は、各leafスイッチ200に接続されるリンクLのうち故障したリンクの数が少ない順にソートされる。そして、割当部22は、ソート部23によってソートした順に、各leafスイッチ200に接続される有効なリンクの数を超えない数の空きノードに対する、ジョブの割り当てを行なう。
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
以上の実施形態に関し、さらに以下の付記を開示する。
複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる処理部を有し、
前記処理部は、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、情報処理装置。
前記処理部は、
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が多い順にソートしてから、
ソートした順に、各第1スイッチに前記所定数以上の空きノードが接続されているかを判断することによって、前記所定数以上の空きノードが接続される第1スイッチの検索を行なう、付記1に記載の情報処理装置。
前記処理部は、
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が少ない順にソートしてから、
ソートした順に、各第1スイッチに接続される前記有効なリンクの数を超えない数の空きノードに対する、前記ジョブの割り当てを行なう、付記1または付記2に記載の情報処理装置。
複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する、情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる際、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、
処理を、コンピュータに実行させる、プログラム。
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が多い順にソートしてから、
ソートした順に、各第1スイッチに前記所定数以上の空きノードが接続されているかを判断することによって、前記所定数以上の空きノードが接続される第1スイッチの検索を行なう、
処理を、前記コンピュータに実行させる、付記4に記載のプログラム。
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が少ない順にソートしてから、
ソートした順に、各第1スイッチに接続される前記有効なリンクの数を超えない数の空きノードに対する、前記ジョブの割り当てを行なう、
処理を、前記コンピュータに実行させる、付記4または付記5に記載のプログラム。
複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する、情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる際、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、情報処理方法。
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が多い順にソートしてから、
ソートした順に、各第1スイッチに前記所定数以上の空きノードが接続されているかを判断することによって、前記所定数以上の空きノードが接続される第1スイッチの検索を行なう、付記7に記載の情報処理方法。
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が少ない順にソートしてから、
ソートした順に、各第1スイッチに接続される前記有効なリンクの数を超えない数の空きノードに対する、前記ジョブの割り当てを行なう、付記7または付記8に記載の情報処理方法。
10 コンピュータ(情報処理装置,ジョブスケジューラ,スケジューラ)
11 プロセッサ(処理部)
12 RAM(記憶部)
13 HDD(記憶部)
14 グラフィック処理装置
14a モニタ(表示部,出力部)
15 入力インタフェース
15a キーボード(入力部)
15b マウス(入力部)
16 光学ドライブ装置
16a 光ディスク
17 機器接続インタフェース
17a メモリ装置
17b メモリリーダライタ
17c メモリカード
18 ネットワークインタフェース
18a ネットワーク
19 バス
20 処理部
21 検索部
22 割当部
23 ソート部
30 記憶部
31 プログラム(ジョブスケジューリングプログラム)
32 故障箇所情報
33 ジョブ情報
34 ノード情報
40 入力部
50 表示部(出力部)
100 ノード
200 leafSW(leafスイッチ,leaf#1〜leaf#4,第1スイッチ)
300 spineSW(spineスイッチ,spine#1〜spine#4,第2スイッチ)
400 並列計算用高速ネットワーク(InfiniBand)
500 制御系ネットワーク(Ethernet)
600 サブネットマネージャ(SM)
L,L11〜L14,L21〜L24,L31〜L34,L41〜L44 リンク
Claims (5)
- 複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる処理部を有し、
前記処理部は、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、情報処理装置。 - 前記処理部は、
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が多い順にソートしてから、
ソートした順に、各第1スイッチに前記所定数以上の空きノードが接続されているかを判断することによって、前記所定数以上の空きノードが接続される第1スイッチの検索を行なう、請求項1に記載の情報処理装置。 - 前記処理部は、
前記複数の第1スイッチを、各第1スイッチに接続される前記リンクのうち故障したリンクの数が少ない順にソートしてから、
ソートした順に、各第1スイッチに接続される前記有効なリンクの数を超えない数の空きノードに対する、前記ジョブの割り当てを行なう、請求項1または請求項2に記載の情報処理装置。 - 複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する、情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる際、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、
処理を、コンピュータに実行させる、プログラム。 - 複数のノードと、前記複数のノードを接続される複数の第1スイッチと、複数のリンクを介して前記複数の第1スイッチのそれぞれを接続される複数の第2スイッチと、を有する、情報処理システムにおいて、所定数のノードを用いるジョブを前記複数のノードのうちのノードに割り当てる際、
前記複数の第1スイッチの中から、前記所定数以上の空きノードが接続される第1スイッチを検索し、
前記所定数以上の空きノードが接続される第1スイッチが検索された場合、検索された第1スイッチに接続される前記所定数の空きノードに、前記ジョブを割り当てる一方、
前記所定数以上の空きノードが接続される第1スイッチが検索されなかった場合、二以上の前記第1スイッチのそれぞれにおいて、各第1スイッチに接続される前記空きノードであって、各第1スイッチに接続される前記リンクのうち有効なリンクの数を超えない数の空きノードに、前記ジョブを割り当てる、情報処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021458A JP6794862B2 (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、プログラム、および情報処理方法 |
US15/890,629 US10511474B2 (en) | 2017-02-08 | 2018-02-07 | Information processing apparatus, computer-readable recording medium having stored therein program, and method for processing information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021458A JP6794862B2 (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、プログラム、および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018128858A JP2018128858A (ja) | 2018-08-16 |
JP6794862B2 true JP6794862B2 (ja) | 2020-12-02 |
Family
ID=63038078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017021458A Active JP6794862B2 (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、プログラム、および情報処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10511474B2 (ja) |
JP (1) | JP6794862B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7142505B2 (en) * | 2000-01-04 | 2006-11-28 | At&T Corp. | Method and apparatus for restoring a network |
US20050268300A1 (en) * | 2004-05-14 | 2005-12-01 | Microsoft Corporation | Distributed task scheduler for computing environments |
US8028293B2 (en) * | 2007-06-28 | 2011-09-27 | Microsoft Corporation | Optimal policies for load balancing for distributed and strategic agents (more technically, optimal coordination mechanisms for machine scheduling) |
EP2278756B1 (en) | 2009-07-02 | 2016-10-26 | Bull S.A.S. | Methods and devices for evaluating interconnection efficiency of parallel computer networks based upon static routing schemes |
US8869164B2 (en) * | 2010-09-02 | 2014-10-21 | International Business Machines Corporation | Scheduling a parallel job in a system of virtual containers |
JP5794011B2 (ja) * | 2011-07-19 | 2015-10-14 | 富士通株式会社 | ネットワーク管理装置及びネットワーク管理方法 |
-
2017
- 2017-02-08 JP JP2017021458A patent/JP6794862B2/ja active Active
-
2018
- 2018-02-07 US US15/890,629 patent/US10511474B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180227169A1 (en) | 2018-08-09 |
JP2018128858A (ja) | 2018-08-16 |
US10511474B2 (en) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11221884B2 (en) | Hybrid virtual machine configuration management | |
US8438566B2 (en) | Managing assignment of partition services to virtual input/output adapters | |
US9760455B2 (en) | PCIe network system with fail-over capability and operation method thereof | |
US20080307425A1 (en) | Data Processing System and Method | |
US8412863B2 (en) | Storage apparatus and virtual port migration method for storage apparatus | |
EP2616935B1 (en) | Dynamic balancing of io resources on numa platforms | |
US8185905B2 (en) | Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements | |
US7484029B2 (en) | Method, apparatus, and computer usable program code for migrating virtual adapters from source physical adapters to destination physical adapters | |
US7644252B2 (en) | Multi-processor system and memory accessing method | |
US6944847B2 (en) | Virtualization of input/output devices in a logically partitioned data processing system | |
CN103810036A (zh) | 移动性操作资源分配 | |
JP2005216151A (ja) | 資源運用管理システム及び資源運用管理方法 | |
US8631132B2 (en) | Ensuring affinity at all affinity domains by folding at each affinity level possible for a partition spanning multiple nodes | |
KR20200080458A (ko) | 클라우드 멀티-클러스터 장치 | |
JP6794862B2 (ja) | 情報処理装置、プログラム、および情報処理方法 | |
US11132324B2 (en) | Data network with container virtualization | |
US20170153949A1 (en) | Switching Allocation of Computer Bus Lanes | |
US20170277587A1 (en) | Computer system and memory dump method | |
US20170154000A1 (en) | Dynamic Re-Allocation of Computer Bus Lanes | |
US20200301742A1 (en) | Bus allocation system | |
KR102573439B1 (ko) | 단일 포트를 이용한 다중 서브넷에 대한 외부 트래픽 모니터링을 수행하는 hpc 시스템 및 방법 | |
JP6631740B1 (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JP2021140264A (ja) | 管理装置,タスク処理プログラムおよびタスク処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6794862 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |