CN112099924A - 基于容器构建高性能计算集群系统 - Google Patents
基于容器构建高性能计算集群系统 Download PDFInfo
- Publication number
- CN112099924A CN112099924A CN202011291520.4A CN202011291520A CN112099924A CN 112099924 A CN112099924 A CN 112099924A CN 202011291520 A CN202011291520 A CN 202011291520A CN 112099924 A CN112099924 A CN 112099924A
- Authority
- CN
- China
- Prior art keywords
- resource
- module
- unit
- measurement
- measuring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000013468 resource allocation Methods 0.000 claims abstract description 26
- 238000005259 measurement Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000012795 verification Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/522—Barrier synchronisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45575—Starting, stopping, suspending or resuming virtual machine instances
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及集群计算技术领域,尤其涉及基于容器构建高性能计算集群系统,包括测量模块、检测模块、计算校准模块和结果验证模块,测量模块用于测量系统资源使用情况,检测模块用于检测资源划分后的资源使用情况,计算校准模块用于计算校准有冲突的系统资源,结果验证模块根据检测预测对结果进行监测验证。使用时通过测量模块了解计算系统分组后的资源使用情况,了解系统资源利用率,再通过计算校准模块改进各组资源分配,从而达到平衡各组之间的资源使用情况。
Description
技术领域
本发明涉及集群计算技术领域,具体为基于容器构建高性能计算集群系统。
背景技术
有效的将单个操作系统的资源划分到孤立的组中,以便更好的在孤立的组之间平衡有冲突的资源使用需求,这种技术就是容器技术。容器是轻量级的操作系统级虚拟化,可以让我们在一个资源隔离的进程中运行应用及其依赖项。运行应用程序所必需的组件都将打包成一个镜像并可以复用。执行镜像时,它运行在一个隔离环境中,并且不会共享宿主机的内存、CPU以及磁盘,这就保证了容器内进程不能监控容器外的任何进程。
容器技术创建容器实例比创建虚拟机示例快得多,容器轻量级的脚本可以从性能和大小方面减少开销。容器通过移除跨服务依赖和冲突提高了开发者的生产力,每个容器都可以看作是一个不同的微服务,因此可以独立升级,而不用担心同步,每一个容器的镜像都有版本控制,这样就可以追踪不同版本的容器,监控版本之间的差异。由于现如今具备高性能计算能力的计算集群系统都比较繁琐,在使用过程中开销比较大,而且兼容性较差,应对各种版本之间兼容问题时容易出现问题。鉴于此,提出了基于容器构建高性能计算集群系统来解决以上问题。
发明内容
本发明的目的在于提供基于容器构建高性能计算集群系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于容器构建高性能计算集群系统,包括测量模块、检测模块、计算校准模块和结果验证模块,所述测量模块用于测量系统资源使用情况,所述检测模块用于检测资源划分后的资源使用情况,所述计算校准模块用于计算校准有冲突的系统资源,所述结果验证模块根据检测预测对结果进行监测验证。
优选的,所述资源使用量检测单元测量验证已知最大资源量的计算公式为:
优选的,所述资源分配修改单元的计算公式为:
优选的,所述结果验证模块包括重复验证单元和资源利用率变化计量单元,所述重复验证单元用于修正后的重复计算验证结果的准确性,所述资源利用率变化计量单元用于计量对比前后资源的利用率变化。
优选的,所述重复验证单元的验证计算资源使用量的公式为:
与现有技术相比,本发明的有益效果是:本发明,使用时通过测量模块了解计算系统分组后的资源使用情况,了解系统资源利用率,再通过计算校准模块改进各组资源分配,从而达到平衡各组之间的资源使用情况。
附图说明
图1为本发明整体结构示意图;
图2为本发明测量模块结构示意图;
图3为本发明检测模块结构示意图;
图4为本发明计算校准模块结构示意图;
图5为本发明结果验证模块结构示意图。
图中:1测量模块、2检测模块、3计算校准模块、4结果验证模块、101资源使用测量单元、102效率测量单元、201资源使用量检测单元、202误差检测单元、301检测计算单元、302资源分配修改单元、401重复验证单元、402利用率变化计量单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,本发明提供一种技术方案:
基于容器构建高性能计算集群系统,包括测量模块1、检测模块2、计算校准模块3和结果验证模块4,测量模块1用于测量系统资源使用情况,检测模块2用于检测资源划分后的资源使用情况,计算校准模块3用于计算校准有冲突的系统资源,结果验证模块4根据检测预测对结果进行监测验证。
首先本系统先是通过计量资源分配情况,计算资源使用情况,再通过测量改进分配情况,最后再次验证改进结果获取高性能计算集群系统。测量模块1、检测模块2和计算校准模块3对系统进行计算改进过程中,对系统的资源分配的计算测量和分析校准包括如下步骤:
步骤S2:测量模块1测量结果出来后,通过检测模块2检测资源划分后的资源使用情况,检测模块2测量计算多次分析系统运行过程中的最大资源利用率;
步骤S3:计算校准模块3计算校准有冲突的系统资源,从而来改进容器中各个组的资源利用情况;
步骤S4:通过结果验证模块4对计算结果进行三次以上次数的测量检测验证,检测系统资源分配使用情况。
通过计算系统各个容器块的资源使用情况,了解系统的资源分配情况,方便优化系统构建高性能计算集群系统。再通过检测模块2了解资源分配过程中系统资源运行状态及测量误差。
检测模块2包括资源使用量检测单元201和误差检测单元202,资源使用量检测单元201用于计算验证资源的使用量,误差检测单元202用于验证计算测量误差参数。资源使用量检测单元201测量验证已知最大资源量的计算公式为:
了解系统资源分配过程中系统误差对容器各组的资源划分的影响,使得对容器的资源分配更加精准高效。系统误差通过多次计算以及已知资源分配利用情况下的验证来降低,来完成系统误差的降低。
资源分配修改单元302的计算公式为:
每次计量系统各个容器组的资源利用率,将利用率最高的资源分配给对应的利用率最高的组。
结果验证模块4包括重复验证单元401和利用率变化计量单元402,所述重复验证单元401用于修正后的重复计算验证结果的准确性,所述利用率变化计量单元402用于计量对比前后资源的利用率变化。
重复验证单元401的验证计算资源使用量的公式为:
在结果验证模块4中的重复验证单元401和利用率变化计量单元402验证下,了解优化后的容器组的资源分配的有效性,计算容器优化前后的资源利用率变化。
本发明的具体工作流程为:使用时先是通过测量模块1测量每次系统运行过程中资源的使用情况,在考虑系统误差情况下通过测量和降低误差的计算各个容器组的资源分配情况,检测模块2测量计算多次分析系统运行过程中的最大资源利用率,分配过程中,容器对于资源利用过程中,对应资源与资源利用率最高的容器进行对应分配,使得各组最大化利用分配到的资源,计算校准模块3计算校准有冲突的系统资源,用于平衡改进容器中各个组的资源分配情况,完成合理计算分配后结果验证模块4对计算结果进行三次以上次数的测量检测验证,检测系统资源分配的高效性,构建高性能计算集群系统。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.基于容器构建高性能计算集群系统,其特征在于,包括测量模块(1)、检测模块(2)、计算校准模块(3)和结果验证模块(4),其特征在于:所述测量模块(1)用于测量系统资源使用情况,所述检测模块(2)用于检测资源划分后的资源使用情况,所述计算校准模块(3)用于计算校准有冲突的系统资源,所述结果验证模块(4)根据检测预测对结果进行监测验证,所述测量模块(1)包括资源使用测量单元(101)和效率测量单元(102),所述资源使用测量单元(101)用于测量每次系统运行过程中资源的使用情况,所述效率测量单元(102)用于计算最大资源使用量占总资源量的百分比,所述资源使用测量单元(101)中资源的使用情况的计算公式为:
其中,为资源所在系统的系统影响参数,为单次测量系统资源运行量的测量误差参数,所述检测模块(2)包括资源使用量检测单元(201)和误差检测单元(202),所述资源使用量检测单元(201)用于计算验证资源的使用量,所述误差检测单元(202)用于验证计算测量误差参数,所述资源使用量检测单元(201)测量验证已知最大资源量的计算公式为:
5.根据权利要求1所述的基于容器构建高性能计算集群系统,其特征在于:所述结果验证模块(4)包括重复验证单元(401)和利用率变化计量单元(402),所述重复验证单元(401)用于修正后的重复计算验证结果的准确性,所述利用率变化计量单元(402)用于计量对比前后资源的利用率变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291520.4A CN112099924B (zh) | 2020-11-18 | 2020-11-18 | 基于容器构建高性能计算集群系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291520.4A CN112099924B (zh) | 2020-11-18 | 2020-11-18 | 基于容器构建高性能计算集群系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112099924A true CN112099924A (zh) | 2020-12-18 |
CN112099924B CN112099924B (zh) | 2022-02-15 |
Family
ID=73785270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011291520.4A Active CN112099924B (zh) | 2020-11-18 | 2020-11-18 | 基于容器构建高性能计算集群系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112099924B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288030A1 (en) * | 2004-06-25 | 2005-12-29 | Samsung Electronics Co., Ltd. | Resource allocation method in a multicarrier communication system |
CN102664814A (zh) * | 2012-05-17 | 2012-09-12 | 西安交通大学 | 一种虚拟网络中基于灰色预测的自适应动态资源分配方法 |
CN104301403A (zh) * | 2014-09-26 | 2015-01-21 | 东北大学 | 基于组件服务副本增删的云服务资源动态配置系统及方法 |
US9271212B1 (en) * | 2013-10-10 | 2016-02-23 | Sprint Communications Company L.P. | Managing access node selection for a wireless device |
CN111212116A (zh) * | 2019-12-24 | 2020-05-29 | 湖南舜康信息技术有限公司 | 一种基于容器云的高性能计算集群创建方法和系统 |
-
2020
- 2020-11-18 CN CN202011291520.4A patent/CN112099924B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288030A1 (en) * | 2004-06-25 | 2005-12-29 | Samsung Electronics Co., Ltd. | Resource allocation method in a multicarrier communication system |
CN102664814A (zh) * | 2012-05-17 | 2012-09-12 | 西安交通大学 | 一种虚拟网络中基于灰色预测的自适应动态资源分配方法 |
US9271212B1 (en) * | 2013-10-10 | 2016-02-23 | Sprint Communications Company L.P. | Managing access node selection for a wireless device |
CN104301403A (zh) * | 2014-09-26 | 2015-01-21 | 东北大学 | 基于组件服务副本增删的云服务资源动态配置系统及方法 |
CN111212116A (zh) * | 2019-12-24 | 2020-05-29 | 湖南舜康信息技术有限公司 | 一种基于容器云的高性能计算集群创建方法和系统 |
Non-Patent Citations (1)
Title |
---|
杨鹏飞: "基于Kubernetes的资源动态调度的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112099924B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8843932B2 (en) | System and method for controlling excessive parallelism in multiprocessor systems | |
US9594659B2 (en) | CPU utilization metering on systems that include multiple hardware threads per core | |
US20120266026A1 (en) | Detecting and diagnosing misbehaving applications in virtualized computing systems | |
US11861272B2 (en) | Comprehensive contention-based thread allocation and placement | |
US8990062B2 (en) | Method and program for estimating operation of program | |
Chen et al. | Elastic parameter server load distribution in deep learning clusters | |
Xiang et al. | Cache conscious task regrouping on multicore processors | |
Mukhanov et al. | Alea: Fine-grain energy profiling with basic block sampling | |
US20080271043A1 (en) | Accurate measurement of multithreaded processor core utilization and logical processor utilization | |
Jalle et al. | Bounding resource contention interference in the next-generation microprocessor (NGMP) | |
Han et al. | Characterizing public cloud resource contention to support virtual machine co-residency prediction | |
US20110191094A1 (en) | System and method to evaluate and size relative system performance | |
US10579748B2 (en) | Capacity planning for systems with multiprocessor boards | |
CN112099924B (zh) | 基于容器构建高性能计算集群系统 | |
CN109815102B (zh) | 一种测试数据统计方法、装置和存储介质 | |
Liu et al. | Sora: A latency sensitive approach for microservice soft resource adaptation | |
Mazouz et al. | Statistical validation methodology of CPU power probes | |
Teich et al. | Invasive computing-concepts and overheads | |
Farhad et al. | Profile-guided deployment of stream programs on multicores | |
JP7389255B2 (ja) | 集積回路チップの潜在的な通信異常の検出 | |
US20220129167A1 (en) | Method, device, and computer program product for managing wear level of storage system | |
Vaddina et al. | Experimental workflow for energy and temperature profiling on HPC systems | |
Smejkal et al. | {E-Team}: Practical Energy Accounting for {Multi-Core} Systems | |
WO2013129061A1 (ja) | 同時接続数制御システム、同時接続数制御サーバ、同時接続数制御方法および同時接続数制御プログラム | |
Stefanov et al. | Analysis of CPU Usage Data Properties and their possible impact on Performance Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |