CN115599197A - 一种评估结果确定方法、装置、设备和存储介质 - Google Patents
一种评估结果确定方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115599197A CN115599197A CN202211333266.9A CN202211333266A CN115599197A CN 115599197 A CN115599197 A CN 115599197A CN 202211333266 A CN202211333266 A CN 202211333266A CN 115599197 A CN115599197 A CN 115599197A
- Authority
- CN
- China
- Prior art keywords
- target
- instructions
- processor
- determining
- input information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004088 simulation Methods 0.000 abstract description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000012854 evaluation process Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000010437 gem Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000017525 heat dissipation Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/04—Generating or distributing clock signals or signals derived directly therefrom
- G06F1/06—Clock generators producing several clock signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种评估结果确定方法、装置、设备和存储介质。该方法包括:获取目标模式对应的目标运行数据集;根据目标运行数据集确定目标输入信息;根据目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。本发明实施例通过在目标模式下获取目标运行数据集,对在目标模式下运行获得的目标运行数据集进行处理,得到能够适用于不同指令集架构、多核处理器的功耗评估工具所需输入的目标输入信息,解决了现有技术中通过性能仿真器进行时钟精确型的仿真时耗时长的问题,实现了对多核处理器功耗评估所需数据的快速获取,实现了快速地获取功耗评估工具所需的输入信息进而完成多核处理器的功耗评估,达到了减少评估流程的时间开销的有益效果。
Description
技术领域
本发明涉及多核处理器功耗评估技术领域,尤其涉及一种评估结果确定方法、装置、设备和存储介质。
背景技术
随着现代处理器集成晶体管数量的不断增加,当前高性能的处理器的功率密度越来越高,但处理器长时间工作的最大功率决定于电源散热的条件,所以处理器的性能越来越受限于能耗与散热之间的矛盾。在对处理器的性能进行分析时,如果利用基准测试程序的运行时间来进行评估,就会产生明显的误导性。因为在研究中由于不同硬件架构,基准测试程序的运行时间会产生不同的结果,甚至在相同硬件架构下,都可能得到不同的运行时间。所以研究者一般通过分析基准测试程序的负载特征来对SoC进行性能评估。最开始研究系统性能时,大部分的研究都是通过微架构相关负载特征方法来进行的。但在不同的硬件架构上分析应用程序的特征时,微架构相关负载特征会被严重影响,利用微架构相关负载特征得出的结论显然也会受限于分析时所使用的具体的硬件架构。后续研究者提出了其他不同于利用微架构相关负载特征参数的方法,也就是分析测试程序的微架构无关负载特征。这些负载特征在不同的微架构上进行分析时,由于可以独立于硬件的架构,能够得出相同的结果。对于不同的微架构,能够提取出相同数量的微架构无关负载特征参数,这能使实验结果更加公平可信。
为了更好地进行处理器的性能改进,往往需要在早期设计阶段对处理器做能耗评估。在能耗评估方面,结构级功耗评估工具是设计早期阶段使用得比较多的一种方法。而为了提高处理器的性能,现代处理器通常需要在宽电压范围内应对不同的负载。在过去的研究中,结构级功耗评估工具的输入往往需要性能仿真器进行时钟精确型的仿真获得,这个过程十分耗时,往往需要几天、十几天、甚至更久的时间,难以进行快速的设计空间探索。片上多核处理器已经成为通用处理器的主流,对新的多核处理器进行设计空间探索很有必要。针对多核处理器功耗评估所需统计信息快速获取的优化方法能有效加快整个系统的性能评估周期。
现有的获取多核处理器功耗评估所需数据的方法一般是通过性能仿真器的时钟精确型仿真来进行,或者对于x86指令集架构的处理器,利用二进制分析工具来收集微架构无关特征参数。但是,传统的使用性能仿真器获取处理器运行统计信息的方法所花费的时间太长,不利于处理器性能改进流程的重复迭代。通过二进制分析工具,如Pin工具来获取运行的Trace信息的方法只能用于x86指令集架构,而不能用于ARM、RISCV等其他指令集架构。
发明内容
本发明提供了一种评估结果确定方法、装置、设备和存储介质,以解决现有技术中通过性能仿真器进行时钟精确型的仿真时耗时长的问题,可快速地获取功耗评估工具所需的输入信息进而完成多核处理器的功耗评估,减少评估流程的时间开销。
根据本发明的一方面,提供了一种评估结果确定方法,该方法包括:
获取目标模式对应的目标运行数据集;
根据所述目标运行数据集确定目标输入信息;
根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
根据本发明的另一方面,提供了一种评估结果确定装置,该装置包括:
获取模块,用于获取目标模式对应的目标运行数据集;
确定模块,用于根据所述目标运行数据集确定目标输入信息;
评估模块,用于根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的评估结果确定方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的评估结果确定方法。
本发明实施例的技术方案,本发明实施例通过获取目标模式对应的目标运行数据集,根据目标运行数据集确定目标输入信息,根据目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。本发明实施例通过在目标模式下获取目标运行数据集,对在目标模式下运行获得的目标运行数据集进行处理,得到能够适用于不同指令集架构、多核处理器的功耗评估工具所需输入的目标输入信息,解决了现有技术中通过性能仿真器进行时钟精确型的仿真时耗时长的问题,实现了对多核处理器功耗评估所需数据的快速获取,实现了快速地获取功耗评估工具所需的输入信息进而完成多核处理器的功耗评估,达到了减少评估流程的时间开销的有益效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种评估结果确定方法的流程图;
图2是根据本发明实施例二提供的一种评估结果确定装置的结构示意图;
图3是实现本发明实施例的评估结果确定方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据本发明实施例一提供的一种评估结果确定方法的流程图,本实施例可适用于评估结果确定情况,该方法可以由评估结果确定装置来执行,该评估结果确定装置可以采用硬件和/或软件的形式实现,该评估结果确定装置可集成在任何提供评估结果确定功能的电子设备中。如图1所示,该方法包括:
S101、获取目标模式对应的目标运行数据集。
在本实施例中,目标模式可以是AtomicSimpleCPU模式。具体的,AtomicSimpleCPU模式是Gem5的一种无流水线的仿真模式,能进行快速的功能仿真。可以知道的是,Gems是一款学术界常用的由离散事件驱动的模块化的全系统仿真器,Gems目前提供了四种不同的CPU模型,其中AtomicSimpleCPU模式是为了功能性仿真设计的,是简化的CPU模型,一个周期(cycle)执行一条指令,无流水线模型,但可以添加缓存模型,由于AtomicSimpleCPU模式没有乱序流水线,因此获得的指令流是顺序指令流,仿真的速度最快,适用于进行快速地功能仿真。
需要说明的是,目标运行数据集可以是利用性能仿真器Gem5运行得到Parsec基准测试程序在AtomicSimpleCPU模式下的处理器运行统计信息。其中,Parsec是一个多线程应用程序组成的测试程序集,它代表了未来运行在片上多核系统中的共享内存应用程序的发展趋势,因此在这里选用Parsec基准测试程序。优选的,目标运行数据集可以是stats.txt文件。
具体的,获取编写好的Parsec基准测试程序,通过运行性能仿真器Gem5得到Parsec基准测试程序在AtomicSimpleCPU模式下对应的目标运行数据集。
S102、根据目标运行数据集确定目标输入信息。
需要解释的是,目标输入信息可以是用于输入功耗评估工具McPAT中,进行处理器功耗评估所需的输入信息。其中,McPAT(Multicore Power,Area,and Timing)是一种常用的结构级功耗评估工具。
具体的,通过运行性能仿真器Gem5得到的Parsec基准测试程序在AtomicSimpleCPU模式下对应的目标运行数据集不能直接作为功耗评估工具McPAT的输入文件,因此需要对目标运行数据集进行处理得到目标输入信息,将目标输入信息作为功耗评估工具McPAT的输入信息,从而对多核处理器进行功耗评估。
S103、根据目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
优选的,在本实施例中,处理器可以是多核处理器。其中,目标评估结果可以是对多核处理器的功耗进行评估的结果。
具体的,将目标输入信息输入功耗评估工具McPAT,对处理器进行评估,得到处理器对应的目标评估结果。
本发明实施例的技术方案,本发明实施例通过获取目标模式对应的目标运行数据集,根据目标运行数据集确定目标输入信息,根据目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。本发明实施例通过在目标模式下获取目标运行数据集,对在目标模式下运行获得的目标运行数据集进行处理,得到能够适用于不同指令集架构、多核处理器的功耗评估工具所需输入的目标输入信息,解决了现有技术中通过性能仿真器进行时钟精确型的仿真时耗时长的问题,实现了对多核处理器功耗评估所需数据的快速获取,实现了快速地获取功耗评估工具所需的输入信息进而完成多核处理器的功耗评估,达到了减少评估流程的时间开销的有益效果。
可选的,目标输入信息包括:总时钟周期和解码阶段目标指令数。
在实现过程中,进行功耗评估所需的统计信息大致流水线行为和内存行为两大类,本实施例主要考虑流水线行为类的统计信息。在性能指标方面,时钟周期是由CPU时钟定义的定长时间间隔,通常以时间动作重复的最小周期来度量,是CPU工作的最小时间单位,在数值上是同步电路中时钟基础频率的倒数。
在本实施例中,总时钟周期可以是程序运行的总时钟周期。CPI(Cycle perInstruction,平均指令周期数)指的是处理器运行过程中每条指令所需要的时钟周期数,是一种常用于评估处理器性能的微架构特征参数。在使用AtomicSimpleCPU模式来获取功耗评估工具所需统计信息的过程中,需要对程序运行的总时钟周期数进行估算。
在本实施例中,解码阶段目标指令数可以是解码阶段的指令数。处理器的解码阶段主要是识别取指阶段得到的指令类型、操作数以及相应的控制信号,解码成后续流水线可以处理执行的普通指令,并对一些像乘累加之类的指令在解码时进行特殊处理。
相应的,根据目标运行数据集确定目标输入信息,包括:
从目标运行数据集中获取目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数。
在本实施例中,目标执行时间可以是采用理想状态下处理器执行指令所开销的时间,缺失事件惩罚时间可以是实际执行过程中由于各种缺失事件产生的惩罚时间。提交指令数可以是最后提交的指令数,额外指令数可以是由于分支预测错误带来的额外指令数。其中,分支预测指的是从P5时代开始的一种先进的,解决处理分支指令导致流水线失败的数据处理方法,由CPU来判断程序分支的进行方向,能够加快运算速度。
具体的,从目标运行数据集中获取目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数。
根据目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数确定总时钟周期和解码阶段目标指令数。
具体的,根据从目标运行数据集中获取到的目标执行时间和缺失事件惩罚时间确定总时钟周期,根据从目标运行数据集中获取到的提交指令数和额外指令数确定解码阶段目标指令数。
可选的,根据目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数确定总时钟周期和解码阶段目标指令数,包括:
根据目标执行时间和缺失事件惩罚时间确定总时钟周期。
具体的,根据目标执行时间和缺失事件惩罚时间确定总时钟周期,即采用理想状态下处理器执行指令所开销的时间加上实际执行过程中由于各种缺失事件产生的惩罚时间来表示程序运行的总时钟周期的具体计算公式可以表示如下::
其中,cycles表示总时钟周期,N用执行阶段后提交的指令数来统计,D表示有效宽度,表示不存在缺失事件时处理器执行程序的基本时钟周期数,mbpred表示分支错误预测的次数,cres表示分支错误的解决时间,cfe表示流水线重新填充的时间,cres和cfe两项之和则表示单次分支错误预测所需要加上的惩罚时间,表示第i级缓存缺失次数,表示单次第i级指令缓存缺失所需要加上的惩罚时间,本发明实施例中使用下一级缓存的访问时间来估计,mLLC表示最后一级缓存缺失次数,表示最后一级缓存缺失后访问内存所带来的惩罚时间,其中cmem和cbus之和表示处理器单次访问内存的时间,MLP表示内存访问并发度。
根据提交指令数和额外指令数确定解码阶段目标指令数。
具体的,由于AtomicSimple模式没有流水线,所以不能直接统计解码阶段的指令数,而由于分支预测这一机制的存在,由此模式得出的统计数据中,最后提交的指令数会少于实际解码阶段的指令数。因此,用最后提交的指令数加上由于分支预测错误带来的额外指令数来估计解码阶段的指令数。根据提交指令数和额外指令数确定解码阶段目标指令数的具体计算公式可以表示如下:
NDecode=N+mbpred(W·L)front-end;
其中,NDecode表示解码阶段目标指令数,N用执行阶段后提交的指令数来统计,mbpred表示分支错误预测的次数,(W·L)front-end表示流水线前端的容量,即流水线前端的长度和宽度之积。
可选的,目标输入信息还包括:指令发射队列的读操作次数。
在本实施例中,发射阶段就是指从IQ(Issue Queue,发射队列)中选择操作数准备好且满足发射条件的指令,发送到功能单元从去执行。在处理器运行的每个时钟周期,都会检查IQ,来调度将要发射的就绪指令。当一条指令就绪好后,IQ会被再次读取,并将该指令发射给相应的功能单元。其中,指令发射队列的读操作次数可以是读取指令发射队列的次数。
相应的,在根据目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
根据总时钟周期和目标解码阶段指令数确定指令发射队列的读操作次数。
具体的,在根据目标执行时间和缺失事件惩罚时间确定总时钟周期,根据提交指令数和额外指令数确定解码阶段目标指令数之后,根据总时钟周期和目标解码阶段指令数确定指令发射队列的读操作次数的具体计算公式可以表示如下:
IQreads=cycles+2*NDecode;
其中,IQreads表示指令发射队列的读操作次数,cycles表示总时钟周期,NDecode表示解码阶段目标指令数。
在实际操作过程中,对于IQ的写操作,当一条指令从重命名阶段发射到发射队列时,只需要写一次,则IQ的写操作次数可以近似为解码阶段目标指令数NDecode。
可选的,目标输入信息还包括:重排序缓冲区的读操作次数。
在本实施例中,重排序缓冲区(Re-Order Buffer,ROB)可以使指令在乱序执行,之后按照原有顺序提交。在每个时钟周期的提交阶段,ROB会被进行读取来检查ROB的头部指令是否就绪,若就绪,就将其提交到目的寄存器或存储单元中。其中,重排序缓冲区的读操作次数可以是读取重排序缓冲区ROB的次数。
相应的,在根据目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
根据总时钟周期和提交指令数确定重排序缓冲区的读操作次数。
具体的,在根据目标执行时间和缺失事件惩罚时间确定总时钟周期,根据提交指令数和额外指令数确定解码阶段目标指令数之后,根据总时钟周期和提交指令数确定重排序缓冲区的读操作次数的具体计算公式可以表示如下:
ROBreads=cycles+N;
其中,ROBreads表示重排序缓冲区的读操作次数,cycles表示总时钟周期,N用执行阶段后提交的指令数来统计。
可选的,目标输入信息还包括:重排序缓冲区的写操作次数。
为了保证乱序处理器中的指令能够在最后提交的时候按照顺序提交,需要在其被重命名之后,进入发射队列的同时插入到重排序缓冲区ROB中,然后再进行调度。而带有目的寄存器的指令在经历执行阶段之后,也需要先写入ROB中,等待与其目的寄存器相关的其他指令按顺序执行结束之后,再将结果提交到对应的目的寄存器中。其中,重排序缓冲区的写操作次数可以是将带有目的寄存器的指令写入重排序缓冲区ROB的次数。
相应的,在根据目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
从目标运行数据集中获取带有目的寄存器的指令数。
其中,带有目的寄存器的指令数可以是带有目的寄存器的指令的数量。
根据目标解码阶段指令数和带有目的寄存器的指令数确定重排序缓冲区的写操作次数。
具体的,根据目标解码阶段指令数和带有目的寄存器的指令数确定重排序缓冲区的写操作次数的具体计算公式可以表示如下:
在实际操作过程中,流水线行为中还有对功能单元的访问次数,该部分对于处理器的动态功耗影响较大。对功能单元的访问次数可以通过提交指令数与各类功能单元数在总功能单元数中的占比的乘积来确定。
本发明实施例的技术方案,相比于传统方法以时钟精确型仿真来获得目标运行数据集,采用更为快速的AtomicSimpleCPU模式来获取目标运行数据集,再对在AtomicSimpleCPU模式下运行获得的目标运行数据集进行处理,得到能够适用于不同指令集架构、多核处理器的功耗评估工具所需输入的目标输入信息,包括总时钟周期、解码阶段目标指令数、指令发射队列的读操作次数、重排序缓冲区的读操作次数以及重排序缓冲区的写操作次数等,将上述目标输入信息输入功耗评估工具McPAT中对处理器进行功耗评估。本发明实施例解决了现有技术中通过性能仿真器进行时钟精确型的仿真时耗时长的问题,实现了对多核处理器功耗评估所需数据的快速获取,实现了快速地获取功耗评估工具所需的输入信息进而完成多核处理器的功耗评估,达到了减少评估流程的时间开销的有益效果。
实施例二
图2是根据本发明实施例二提供的一种评估结果确定装置的结构示意图。如图2所示,该装置包括:获取模块201、确定模块202和评估模块203。
其中,获取模块201,用于获取目标模式对应的目标运行数据集;
确定模块202,用于根据所述目标运行数据集确定目标输入信息;
评估模块203,用于根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
可选的,所述目标输入信息包括:总时钟周期和解码阶段目标指令数;
相应的,所述确定模块202包括:
第一获取单元,用于从所述目标运行数据集中获取目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数;
第一确定单元,用于根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数。
可选的,所述第一确定单元包括:
第一获取子单元,用于根据所述目标执行时间和所述缺失事件惩罚时间确定总时钟周期;
第一确定子单元,用于根据所述提交指令数和所述额外指令数确定解码阶段目标指令数。
可选的,所述目标输入信息还包括:指令发射队列的读操作次数;
相应的,所述确定模块202还包括:
第二确定单元,用于在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,根据所述总时钟周期和所述目标解码阶段指令数确定指令发射队列的读操作次数。
可选的,所述目标输入信息还包括:重排序缓冲区的读操作次数;
相应的,所述确定模块202还包括:
第三确定单元,用于在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,根据所述总时钟周期和所述提交指令数确定重排序缓冲区的读操作次数。
可选的,所述目标输入信息还包括:重排序缓冲区的写操作次数;
相应的,所述确定模块202还包括:
第二获取单元,用于在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,从所述目标运行数据集中获取带有目的寄存器的指令数;
第四确定单元,用于在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,根据所述目标解码阶段指令数和所述带有目的寄存器的指令数确定重排序缓冲区的写操作次数。
本发明实施例所提供的评估结果确定装置可执行本发明任意实施例所提供的评估结果确定方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备30包括至少一个处理器31,以及与至少一个处理器31通信连接的存储器,如只读存储器(ROM)32、随机访问存储器(RAM)33等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器31可以根据存储在只读存储器(ROM)32中的计算机程序或者从存储单元38加载到随机访问存储器(RAM)33中的计算机程序,来执行各种适当的动作和处理。在RAM 33中,还可存储电子设备30操作所需的各种程序和数据。处理器31、ROM 32以及RAM 33通过总线34彼此相连。输入/输出(I/O)接口35也连接至总线34。
电子设备30中的多个部件连接至I/O接口35,包括:输入单元36,例如键盘、鼠标等;输出单元37,例如各种类型的显示器、扬声器等;存储单元38,例如磁盘、光盘等;以及通信单元39,例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理,例如评估结果确定方法:
获取目标模式对应的目标运行数据集;
根据所述目标运行数据集确定目标输入信息;
根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
在一些实施例中,评估结果确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元38。在一些实施例中,计算机程序的部分或者全部可以经由ROM 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到RAM 33并由处理器31执行时,可以执行上文描述的评估结果确定方法的一个或多个步骤。备选地,在其他实施例中,处理器31可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行评估结果确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种评估结果确定方法,其特征在于,包括:
获取目标模式对应的目标运行数据集;
根据所述目标运行数据集确定目标输入信息;
根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
2.根据权利要求1所述的方法,其特征在于,所述目标输入信息包括:总时钟周期和解码阶段目标指令数;
相应的,根据所述目标运行数据集确定目标输入信息,包括:
从所述目标运行数据集中获取目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数;
根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数。
3.根据权利要求2所述的方法,其特征在于,根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数,包括:
根据所述目标执行时间和所述缺失事件惩罚时间确定总时钟周期;
根据所述提交指令数和所述额外指令数确定解码阶段目标指令数。
4.根据权利要求2所述的方法,其特征在于,所述目标输入信息还包括:指令发射队列的读操作次数;
相应的,在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
根据所述总时钟周期和所述目标解码阶段指令数确定指令发射队列的读操作次数。
5.根据权利要求2所述的方法,其特征在于,所述目标输入信息还包括:重排序缓冲区的读操作次数;
相应的,在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
根据所述总时钟周期和所述提交指令数确定重排序缓冲区的读操作次数。
6.根据权利要求2所述的方法,其特征在于,所述目标输入信息还包括:重排序缓冲区的写操作次数;
相应的,在根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数之后,包括:
从所述目标运行数据集中获取带有目的寄存器的指令数;
根据所述目标解码阶段指令数和所述带有目的寄存器的指令数确定重排序缓冲区的写操作次数。
7.一种评估结果确定装置,其特征在于,包括:
获取模块,用于获取目标模式对应的目标运行数据集;
确定模块,用于根据所述目标运行数据集确定目标输入信息;
评估模块,用于根据所述目标输入信息对处理器进行评估,得到处理器对应的目标评估结果。
8.根据权利要求7所述的装置,其特征在于,所述目标输入信息包括:总时钟周期和解码阶段目标指令数;
相应的,所述确定模块包括:
第一获取单元,用于从所述目标运行数据集中获取目标执行时间、缺失事件惩罚时间、提交指令数以及额外指令数;
第一确定单元,用于根据所述目标执行时间、所述缺失事件惩罚时间、所述提交指令数以及所述额外指令数确定总时钟周期和解码阶段目标指令数。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的评估结果确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的评估结果确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211333266.9A CN115599197A (zh) | 2022-10-28 | 2022-10-28 | 一种评估结果确定方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211333266.9A CN115599197A (zh) | 2022-10-28 | 2022-10-28 | 一种评估结果确定方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599197A true CN115599197A (zh) | 2023-01-13 |
Family
ID=84850856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211333266.9A Pending CN115599197A (zh) | 2022-10-28 | 2022-10-28 | 一种评估结果确定方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599197A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271268A (zh) * | 2023-11-20 | 2023-12-22 | 成都大征创智科技有限公司 | 一种数字化计算平台中的集群架构性能评估方法 |
-
2022
- 2022-10-28 CN CN202211333266.9A patent/CN115599197A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271268A (zh) * | 2023-11-20 | 2023-12-22 | 成都大征创智科技有限公司 | 一种数字化计算平台中的集群架构性能评估方法 |
CN117271268B (zh) * | 2023-11-20 | 2024-01-30 | 成都大征创智科技有限公司 | 一种数字化计算平台中的集群架构性能评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Genbrugge et al. | Interval simulation: Raising the level of abstraction in architectural simulation | |
Fields et al. | Focusing processor policies via critical-path prediction | |
Van den Steen et al. | Analytical processor performance and power modeling using micro-architecture independent characteristics | |
Van den Steen et al. | Micro-architecture independent analytical processor performance and power modeling | |
Annamalai et al. | An opportunistic prediction-based thread scheduling to maximize throughput/watt in AMPs | |
Chen et al. | Hybrid analytical modeling of pending cache hits, data prefetching, and MSHRs | |
US20120278594A1 (en) | Performance bottleneck identification tool | |
EP3391224B1 (en) | Method and apparatus for data mining from core traces | |
Jongerius et al. | Analytic multi-core processor model for fast design-space exploration | |
Lin et al. | Branch prediction is not a solved problem: Measurements, opportunities, and future directions | |
US11734480B2 (en) | Performance modeling and analysis of microprocessors using dependency graphs | |
US10564992B2 (en) | Simulation apparatus and storage medium | |
Alavani et al. | Predicting execution time of CUDA kernel using static analysis | |
Jongerius et al. | Analytic processor model for fast design-space exploration | |
CN115599197A (zh) | 一种评估结果确定方法、装置、设备和存储介质 | |
US20150248295A1 (en) | Numerical stall analysis of cpu performance | |
Gottschall et al. | TEA: Time-proportional event analysis | |
Kalyanam et al. | Power prediction of embedded scalar and vector processor: Challenges and solutions | |
Moore et al. | User-defined events for hardware performance monitoring | |
Genbrugge et al. | Memory data flow modeling in statistical simulation for the efficient exploration of microprocessor design spaces | |
Cook et al. | A statistical performance model of the opteron processor | |
EP2862107B1 (en) | Instruction window centric processor simulation | |
Uddin et al. | Signature-based high-level simulation of microthreaded many-core architectures | |
Loh | A time-stamping algorithm for efficient performance estimation of superscalar processors | |
Tian et al. | The performance model of hyper-threading technology in intel nehalem microarchitecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |