CN117271268B - 一种数字化计算平台中的集群架构性能评估方法 - Google Patents

一种数字化计算平台中的集群架构性能评估方法 Download PDF

Info

Publication number
CN117271268B
CN117271268B CN202311544071.3A CN202311544071A CN117271268B CN 117271268 B CN117271268 B CN 117271268B CN 202311544071 A CN202311544071 A CN 202311544071A CN 117271268 B CN117271268 B CN 117271268B
Authority
CN
China
Prior art keywords
cluster
performance
indexes
gem5
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311544071.3A
Other languages
English (en)
Other versions
CN117271268A (zh
Inventor
张纯熠
郭挺
杨文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Dazheng Chuangzhi Technology Co ltd
Original Assignee
Chengdu Dazheng Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dazheng Chuangzhi Technology Co ltd filed Critical Chengdu Dazheng Chuangzhi Technology Co ltd
Priority to CN202311544071.3A priority Critical patent/CN117271268B/zh
Publication of CN117271268A publication Critical patent/CN117271268A/zh
Application granted granted Critical
Publication of CN117271268B publication Critical patent/CN117271268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:S1:修改Gem5源码,实时输出Gem5的关键性能指标;S2:编写C++监控程序,实时输出负载运行期间虚拟机内部的性能数据;S3:实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;S4:编写可视化程序;S5:运行仿真集群,输出测试负载运行期间的关键性能指标和虚拟机内部的性能数据,并进行可视化展示,S6:根据S5的可视化展示的结果,调整仿真集群运行参数;S7:重复S5至S6,直至仿真集群达到预定目标,本申请引入实时监控机制,和开发可视化模块,大幅提高了数字化集群性能评估的准确性和真实性,可以更准确的找出集群的性能瓶颈,降低了验证成本。

Description

一种数字化计算平台中的集群架构性能评估方法
技术领域
本发明属于计算机测试技术领域,具体涉及一种数字化计算平台中的集群架构性能评估方法。
背景技术
数字化计算平台中的集群架构性能评估方法是指在数字计算平台上,利用仿真和建模的方式,对集群计算系统的性能进行评测和分析的方法。其中的数字化计算平台通常采用仿真软件来建立集群计算系统的数字化模型,如使用gem5等开源仿真平台,gem5是一款开源、模块化、可扩展的计算机系统架构模拟平台,它可以对计算机系统的各个组成部分进行建模和仿真,包括CPU、内存系统、I/O设备等。对Gem5平台上的集群系统进行全面和深入的性能评估与分析,可以找出性能瓶颈并提出优化建议,但是也存在以下几个方面的问题:
1、无法实时监控性能指标:现有Gem5评估只能在模拟结束后,汇总统计各性能指标,无法实时输出和监控指标,了解运行动态变化。
2、缺乏直观的可视化展示:结果仅以报表形式呈现,缺乏实时的可视化组件,不够直观。难以把握系统整体状态。
3、结果解释和分析难度大:正确解释和分析仿真结果需要非常专业的知识和经验,依靠人工经验分析结果,准确度和效率都受限。
这些问题导致Gem5仿真获得的性能评估数据无法正确反应与真实集群的差异。如何更提高仿真集群性能评估的准确性,是数字化集群性能评估面临的重要难题。
发明内容
为解决上述背景技术中提出的问题,本发明提供一种数字化计算平台中的集群架构性能评估方法,以解决现有技术中需要提前确定数据库表的关联关系或者通过人工匹配的方法来完成,存在耗时耗力的问题。
为实现上述目的,本发明提供如下技术方案:
一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:
S1:修改Gem5源码,实时输出Gem5的关键性能指标;
Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,即从全局事件Global Event类继承一个新的类Stat Global Event,该全局事件每秒触发一次,并收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;
S2:编写C++监控程序,并将该程序部署到Gem5镜像,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;
监控程序作为一个子进程和测试负载同时运行,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;
S3:编写Python程序实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;
S4:编写可视化程序;
采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;
S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示;
S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;
S7:重复S5至S6,直至仿真集群达到预定目标。
优选地,S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示。
与现有技术相比,本发明的有益效果是:
1、本申请引入实时监控机制,通过修改Gem5源码,实时输出关键性能指标;
2、本申请构建虚拟机内部监控,实时输出虚拟机内部的关键性能数据;
3、本申请开发可视化模块,通过动态图表等形式直观呈现评估过程和结果;
本申请大幅提高了数字化集群性能评估的准确性和真实性,实时、可视化、多维度地展示集群性能,可以更准确的找出集群的性能瓶颈,可加速数字化集群架构设计评估的迭代速度,降低数字化集群设计验证的成本。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,以下结合附图和具体的实例对本发明作进一步地详细说明。应当理解,此处所描述的具体实例仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1所示,一种数字化计算平台中的集群架构性能评估方法,包括以下步骤:
S1:修改Gem5源码,实时输出Gem5的关键性能指标;
Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,从全局事件Global Event类继承一个新的类Stat Global Event,该事件每秒触发一次,在事件内收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;
S2:编写C++监控程序,并将该程序部署到Gem5镜像,在负载运行时将该监控程序作为一个并行的子进程和测试负载同时运行,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;
监控程序作为子进程,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;
S3:编写Python程序实时采集S1和S2输出的指标和数据,这些数据输出在Gem5的日志文件和控制台文件内,并且文件格式不统一,使用python编写的匹配规则实时过滤这些文件中的关键数据,过滤后再进一步处理成满足存储和前端展示的目标格式,然后将格式化后的数据存储到数据库中;
S4:编写可视化程序;
采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;
S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示,可更加方便的定位集群性能瓶颈;
S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;
S7:重复S5至S6,直至仿真集群达到预定目标,相比现有技术,本发明通过量化性能参数比较、可定制的逐步逼近方法,可以有效解决Gem5处理器仿真存在的精度问题,大幅提升仿真结果对真实机器性能的准确预测能力。
在本实施例中,本申请引入实时监控机制,通过修改Gem5源码,实时输出关键性能指标,构建虚拟机内部监控,实时输出虚拟机内部的关键性能指标,大幅提高了数字化集群性能评估的准确性和真实性,开发可视化模块,通过动态图表等形式直观呈现评估过程和结果,本申请大幅提高了数字化集群性能评估的准确性和真实性,实时、可视化、多维度地展示集群性能,可以更准确的找出集群的性能瓶颈,可加速数字化集群架构设计评估的迭代速度,降低数字化集群设计验证的成本。
实施例2:
本实施例与实施例1的区别在于:S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示,可以多次运行的历史数据做趋势对比,方便分析。

Claims (2)

1.一种数字化计算平台中的集群架构性能评估方法,其特征在于,包括以下步骤:
S1:修改Gem5源码,实时输出Gem5的关键性能指标;
Gem5源码具体修改方法为:在Gem5的仿真入口添加代码,增加全局循环事件,即从全局事件Global Event类继承一个新的类Stat Global Event,该全局事件每秒触发一次,并收集Gem5内的关键性能指标,关键性能指标包括:仿真秒数、仿真的指令数、仿真的操作数、CPU关键指标、内存关键指标,并将收集到的指标以JSON格式输出到指定目录;
S2:编写C++监控程序,并将该程序部署到Gem5镜像中,该监控程序用于实时输出负载运行期间虚拟机内部的性能数据;
监控程序作为一个子进程和测试负载同时运行,按每秒一次的间隔收集虚拟机内的性能数据,性能数据包括:CPU利用率、内存占用率、磁盘IO、网络IO,监控程序按约定格式将收集到的关键性能数据输出至虚拟机的控制台;
S3:编写Python程序实时采集S1和S2输出的指标和数据,并进行分析和处理,然后存储到数据库中;
S4:编写可视化程序;
采用unity编写可视化展示客户端,并用接口获取整个集群所有Gem5节点和虚拟机内部的性能数据;
S5:运行仿真集群,仿真集群运行后输出测试负载运行期间各个Gem5的关键性能指标和虚拟机内部的性能数据,并通过可视化程序多维度实时可视化展示;
S6:根据S5的可视化展示的结果,通过逐步调整仿真集群运行参数,使关键性能指标和性能数据逼近真实集群;
S7:重复S5至S6,直至仿真集群达到预定目标。
2.根据权利要求1所述的一种数字化计算平台中的集群架构性能评估方法,其特征在于,S5中,可视化程序实时从数据库内获取整个集群的性能数据和关键性能指标,并通过图表、曲线、趋势进行展示。
CN202311544071.3A 2023-11-20 2023-11-20 一种数字化计算平台中的集群架构性能评估方法 Active CN117271268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311544071.3A CN117271268B (zh) 2023-11-20 2023-11-20 一种数字化计算平台中的集群架构性能评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311544071.3A CN117271268B (zh) 2023-11-20 2023-11-20 一种数字化计算平台中的集群架构性能评估方法

Publications (2)

Publication Number Publication Date
CN117271268A CN117271268A (zh) 2023-12-22
CN117271268B true CN117271268B (zh) 2024-01-30

Family

ID=89204744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311544071.3A Active CN117271268B (zh) 2023-11-20 2023-11-20 一种数字化计算平台中的集群架构性能评估方法

Country Status (1)

Country Link
CN (1) CN117271268B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336894A (zh) * 2013-06-14 2013-10-02 东南大学 一种城市容积率自动分区方法
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN105959176A (zh) * 2016-04-25 2016-09-21 浪潮(北京)电子信息产业有限公司 基于Gem5模拟器的一致性协议测试方法和系统
WO2022087442A1 (en) * 2020-10-22 2022-04-28 Arizona Board Of Regents On Behalf Of Arizona State University User-space emulation framework for heterogeneous soc design
WO2022110446A1 (zh) * 2020-11-30 2022-06-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN115599197A (zh) * 2022-10-28 2023-01-13 中国农业银行股份有限公司(Cn) 一种评估结果确定方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336894A (zh) * 2013-06-14 2013-10-02 东南大学 一种城市容积率自动分区方法
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN105959176A (zh) * 2016-04-25 2016-09-21 浪潮(北京)电子信息产业有限公司 基于Gem5模拟器的一致性协议测试方法和系统
WO2022087442A1 (en) * 2020-10-22 2022-04-28 Arizona Board Of Regents On Behalf Of Arizona State University User-space emulation framework for heterogeneous soc design
WO2022110446A1 (zh) * 2020-11-30 2022-06-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN115599197A (zh) * 2022-10-28 2023-01-13 中国农业银行股份有限公司(Cn) 一种评估结果确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN117271268A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
JP5586835B2 (ja) 臨床診断分析器性能推定器
Kwiatkowska et al. Prism: Probabilistic model checking for performance and reliability analysis
CN111563606A (zh) 一种设备预测性维护方法及装置
CN111459698A (zh) 一种数据库集群故障自愈方法及装置
CA2843276A1 (en) Dynamic outlier bias reduction system and method
CN107391373B (zh) 基于AutoIT的性能自动化测试方法
CN109993506A (zh) 智慧矿山工业物联网操作系统平台性能测试方法
CN117194919A (zh) 一种生产数据分析系统
CN109857618A (zh) 一种监控方法、装置及系统
CN113592017B (zh) 一种深度学习模型标准化训练方法、管理系统、处理终端
CN110322153A (zh) 监控事件处理方法及系统
CN114201328A (zh) 基于人工智能的故障处理方法、装置、电子设备及介质
KR101830936B1 (ko) 데이터베이스와 애플리케이션을 위한 웹기반 성능개선 시스템
CN111444635B (zh) 一种基于xml语言的系统动力学仿真建模方法及系统
CN113313304A (zh) 一种基于大数据决策树的电网事故异常分析方法及系统
CN117271268B (zh) 一种数字化计算平台中的集群架构性能评估方法
CN115248782B (zh) 一种自动化测试方法、装置及计算机设备
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
CN115344495A (zh) 批量任务测试的数据分析方法、装置、计算机设备及介质
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN111965995B (zh) 一种三库合一飞机航电系统健康评估与预测系统及其方法
CN111679924B (zh) 构件化软件系统可靠性仿真方法、装置及电子设备
CN112416727A (zh) 批处理作业的检核方法、装置、设备及介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant