CN115686522A - 一种程序源码的编译优化方法及相关产品 - Google Patents
一种程序源码的编译优化方法及相关产品 Download PDFInfo
- Publication number
- CN115686522A CN115686522A CN202110876986.9A CN202110876986A CN115686522A CN 115686522 A CN115686522 A CN 115686522A CN 202110876986 A CN202110876986 A CN 202110876986A CN 115686522 A CN115686522 A CN 115686522A
- Authority
- CN
- China
- Prior art keywords
- source code
- cache
- condition
- loop
- cache miss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000005457 optimization Methods 0.000 title abstract description 73
- 230000006870 function Effects 0.000 claims description 69
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 15
- 230000008707 rearrangement Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/443—Optimisation
- G06F8/4441—Reducing the execution time required by the program code
- G06F8/4442—Reducing the number of cache misses; Data prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/51—Source to source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
本申请提供了一种程序源码的编译优化方法及相关产品,其中,该方法包括:运行第一可执行文件,采集硬件缓存事件,其中,第一可执行文件包括可执行程序和调试信息,可执行程序是对程序源码进行编译得到的,调试信息包括程序源码和可执行程序中的可执行指令之间的对应关系。然后,根据硬件缓存事件和调试信息,获得第一配置信息,第一配置信息包括上述程序源码的标识和该标识对应的缓存缺失次数。最后,根据第一配置信息对上述程序源码进行编译,得到第二可执行文件。当执行第二可执行文件,可以实现在提高缓存的优化效果的同时节省缓存优化的成本。
Description
技术领域
本申请涉及缓存技术领域,尤其涉及一种程序源码的编译优化方法及相关产品。
背景技术
随着缓存技术的快速发展,中央处理器(center processing unit,CPU)访存对象(包括数据和指令)的速度也越来越快。其中,影响CPU访存对象的速度的一个关键因素是:缓存中是否存储有即将被CPU访问的对象。为此,需要对缓存进行优化,使得CPU可以更多地从缓存中读取待访问的对象,减少CPU访问内存的次数,从而提高CPU访存对象的速度。
但是,当前缓存优化方法均存在优化成本高、但准确性和及时性低的问题,即利用这些缓存优化方法需要耗费较高的成本才能实现对缓存的优化,并且优化后的缓存中还可能包括较多的冗余对象和访问频率低的对象,或者CPU访存对象之前,该对象并未及时从内存搬运至缓存。
因此,如何在提高缓存优化效果的同时减少缓存优化的优化成本是当前缓存技术领域中一个急需解决的问题。
发明内容
本申请提供了一种程序源码的编译优化方法、装置、设备及计算机可读存储介质,能够提高缓存优化的准确性和及时性。
第一方面,本申请提供了一种程序源码的编译优化方法,该方法包括:运行第一可执行文件,采集硬件缓存事件,其中,第一可执行文件包括可执行程序和调试信息,可执行程序是对程序源码进行编译得到的,调试信息包括程序源码和可执行程序中的可执行指令之间的对应关系。然后,根据硬件缓存事件和调试信息,获得第一配置信息,第一配置信息包括上述程序源码的标识和该标识对应的缓存缺失次数。最后,根据第一配置信息对上述程序源码进行编译,得到第二可执行文件。
实施第一方面所描述的方法,可以得到第二可执行文件,当CPU执行第二可执行文件时,可以达到对缓存进行优化的目的。并且,该方法是通过采集硬件缓存事件来确定程序源码对应的缓存缺失次数,之后,再结合程序源码对应的缓存缺失次数来对程序源码进行编译,使得编译得到的第二可执行文件能够更准确且及时的告知CPU如何优化缓存,不仅能够提高缓存优化的准确性和及时性,还可以节省缓存优化的成本。
在一种可能的实现方式中,上述根据硬件缓存事件和调试信息,获得第一配置信息,包括:解析硬件缓存事件,获得可执行指令对应的缓存缺失次数,然后根据可执行指令对应的缓存缺失次数和调试信息,确定可执行指令关联的源码对应的缓存缺失次数,从而得到第一配置信息。
由于CPU能够执行的是可执行指令,因此,可以确定CPU在执行哪些可执行指令时出现缓存缺失,从而确定可执行指令对应的缓存缺失次数,又由于可执行指令是通过对程序源码进行编译得到的,因此,通过可执行指令对应的缓存缺失次数可以确定程序源码对应的缓存次数。也就是说,通过上述实现方式可以更加简便且准确地确定程序源码对应的缓存缺失次数,以此来指导程序源码的编译,使得程序源码的编译效果更好。
在一种可能的实现方式中,上述根据第一配置信息对程序源码进行编译,得到第二可执行文件,包括:解析第一配置信息,确定程序源码中满足第一条件的源码,其中,第一条件包括:源码的缓存缺失次数大于第一阈值,且源码包括访存对象。然后,计算满足第一条件的源码的预取距离,预取距离表示将访存对象从内存搬运至缓存的提前量。最后,根据预取距离生成预取指令。
上述实现方式中,通过选取满足第一条件的源码,并对满足第一条件的源码执行数据预取可以减轻CPU的工作量,并且在总体上还能够提高缓存的优化效果。
在一种可能的实现方式中,上述计算满足第一条件的源码的预取距离,包括:获取第一循环的控制流图(control flow graph,CFG),第一循环是包括上述满足第一条件的源码的最内层循环,第一循环的CFG包括多个基本块(basic block,BB)和多条有向边,多条有向边用于指示所述多个BB之间的执行顺序,然后,确定所述每条有向边的执行概率;根据每条有向边的执行概率计算第一循环的单次循环时间,然后,根据第一循环的单次循环时间计算上述满足第一条件的源码的预取距离。
上述实现方式中,考虑到了CPU执行循环程序,尤其是循环中嵌套的最内层循环的程序时,最有可能出现缓存缺失事件。因此,通过计算最内层循环的单次循环时间可以更加准确地确定预取距离,从而提高缓存优化的及时性和通用性。而且,通过确定每条有向边的执行概率,从而计算第一循环的单次循环时间,可以减少第一循环中的执行概率低的BB对第一循环的单次循环时间的影响,从而提高计算出的第一循环的单次循环时间的准确性。
在一种可能的实现方式中,上述获取第一循环的CFG,包括:解析第一配置信息,确定程序源码中满足第二条件的函数,其中,第二条件为函数的缓存缺失次数大于第二阈值,函数的缓存缺失次数为函数包括的源码的缓存缺失次数之和。然后,确定满足第二条件的函数中的第一循环,第一循环为满足第二条件的函数中的最内层循环,且第一循环迭代的执行概率大于第三阈值,之后,构建第一循环的CFG。
上述实现方式中,通过确定满足第二条件的函数进一步确定第一循环,如此可以提高确定第一循环的效率,从而节省对程序源码进行编译的时间,减少对程序源码进行编译的成本。
在一种可能的实现方式中,上述根据每条有向边的执行概率计算第一循环的单次循环时间,包括:确定与第一循环的循环层无关的BB和有向边,然后对上述无关的BB和有向边进行裁剪,得到第二循环。之后,根据每条有向边的执行概率计算第二循环中的各个BB的执行概率,得到第一循环的单次循环时间,第一循环的单次循环时间为各个BB的执行概率与各个BB的执行时间的乘积之和。
上述实现方式中,通过对第一循环中与循环层无关的BB和有向边进行裁剪,得到第二循环,然后根据第二循环计算第一循环的单次循环时间,如此可以提高计算出的第一循环的单次循环时间的准确性。
在一种可能的实现方式中,在上述根据第一配置信息对所述程序源码进行编译,得到第二可执行文件之前,上述方法还包括:获取程序源码中的多个结构体,以及多个结构体中的成员。上述根据第一配置信息对程序源码进行编译,得到第二可执行文件,包括:解析第一配置信息,确定多个结构体中满足第三条件的结构体,第三条件包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于第四阈值;对上述满足第三条件的结构体中的成员的排序进行调整,得到新的结构体。之后,利用新的结构体代替上述满足第三条件的结构体。
实施上述实现方式,还能够对程序源码中的结构体进行优化,从而提高缓存的使用率。并且,该方式是通过采集硬件缓存事件来确定程序源码中结构体的缓存缺失次数,从而提高对结构体成员重排的准确性。
在一种可能的实现方式中,上述每个结构体包括所述程序源码中的源码,上述解析所述第一配置信息,确定满足第三条件的结构体,包括:解析第一配置信息,确定程序源码的标识以及该标识对应的缓存缺失次数,然后根据程序源码的标识以及该标识对应的缓存缺失次数,获得每个结构体的缓存缺失次数,从而确定上述满足第三条件的结构体。如此,可以节省对程序源码进行结构体成员重排的时间,减少对程序源码进行结构体成员重排的成本。另外,通过第三条件进行结构体的筛选,还能够提高对程序源码进行结构体成员重排的准确性。
在一种可能的实现方式中,上述对满足第三条件的结构体中的成员的排序进行调整,包括:获取满足第三条件的结构体中多个成员的缓存缺失次数,然后根据多个成员的缓存缺失次数的大小对上述多个成员的排序进行调整。如此,可以提供缓存的使用率。
在一种可能的实现方式中,上述根据多个成员的缓存缺失次数的大小对多个成员的排序进行调整,包括:获取多个成员中每个成员的大小,然后根据每个成员的大小以及每个成员的缓存缺失次数,对上述多个成员的排序进行调整。如此,可以进一步提高缓存的使用率。
第二方面,本申请提供了一种程序源码的编译优化装置,该装置包括运行单元、事件采集单元、解析单元以及编译单元。其中,运行单元用于运行第一可执行文件,其中,第一可执行文件包括可执行程序和调试信息,可执行程序是对程序源码进行编译得到的,调试信息包括程序源码和可执行程序中的可执行指令之间的对应关系。事件采集单元用于采集硬件缓存事件。解析单元用于根据硬件缓存事件和调试信息,获得第一配置信息,第一配置信息包括程序源码的标识和标识对应的缓存缺失次数;编译单元用于根据第一配置信息对程序源码进行编译,得到第二可执行文件。
在一种可能的实现方式中,上述解析单元具体用于:解析硬件缓存事件,获得可执行指令对应的缓存缺失次数,然后根据可执行指令对应的缓存缺失次数和调试信息,确定可执行指令关联的源码对应的缓存缺失次数,从而得到第一配置信息。
在一种可能的实现方式中,上述编译单元具体用于:解析第一配置信息,确定程序源码中满足第一条件的源码,其中,第一条件包括:源码的缓存缺失次数大于第一阈值,且源码包括访存对象。然后,计算满足第一条件的源码的预取距离,预取距离表示将访存对象从内存搬运至缓存的提前量。最后,根据预取距离生成预取指令。
在一种可能的实现方式中,上述编译单元具体用于:获取第一循环的CFG,第一循环是包括上述满足第一条件的源码的最内层循环,第一循环的CFG包括多个BB和多条有向边,多条有向边用于指示所述多个BB之间的执行顺序,然后,确定所述每条有向边的执行概率;根据每条有向边的执行概率计算第一循环的单次循环时间,然后,根据第一循环的单次循环时间计算上述满足第一条件的源码的预取距离。
在一种可能的实现方式中,上述编译单元具体用于:解析第一配置信息,确定程序源码中满足第二条件的函数,其中,第二条件为函数的缓存缺失次数大于第二阈值,函数的缓存缺失次数为函数包括的源码的缓存缺失次数之和。然后,确定满足第二条件的函数中的第一循环,第一循环为满足第二条件的函数中的最内层循环,且第一循环迭代的执行概率大于第三阈值,之后,构建第一循环的CFG。
在一种可能的实现方式中,上述编译单元具体用于:确定与第一循环的循环层无关的BB和有向边,然后对上述无关的BB和有向边进行裁剪,得到第二循环。之后,根据每条有向边的执行概率计算第二循环中的各个BB的执行概率,得到第一循环的单次循环时间,第一循环的单次循环时间为各个BB的执行概率与各个BB的执行时间的乘积之和。
在一种可能的实现方式中,上述编译单元还用于:获取程序源码中的多个结构体,以及多个结构体中的成员。上述编译单元还用于:解析第一配置信息,确定多个结构体中满足第三条件的结构体,第三条件包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于第四阈值;对上述满足第三条件的结构体中的成员的排序进行调整,得到新的结构体。之后,利用新的结构体代替上述满足第三条件的结构体。
在一种可能的实现方式中,上述每个结构体包括所述程序源码中的源码,上述编译单元具体用于:解析第一配置信息,确定程序源码的标识以及该标识对应的缓存缺失次数,然后根据程序源码的标识以及该标识对应的缓存缺失次数,获得上述每个结构体的缓存缺失次数,从而确定上述满足第三条件的结构体。
在一种可能的实现方式中,上述编译单元具体用于:获取满足第三条件的结构体中多个成员的缓存缺失次数,然后根据多个成员的缓存缺失次数的大小对上述多个成员的排序进行调整。
在一种可能的实现方式中,上述编译单元具体用于:获取多个成员中每个成员的大小,然后根据每个成员的大小以及每个成员的缓存缺失次数,对上述多个成员的排序进行调整。
第三方面,本申请提供了一种计算设备,该计算设备包括处理器和存储器,存储器存储计算机指令,处理器执行上述计算机指令,以使上述计算设备执行第一方面或第一方面任意可能的实现方式所提供的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当上述计算机指令被计算设备执行时,计算设备执行前述第一方面或第一方面任意可能的实现方式所提供的方法。
附图说明
图1是本申请涉及的一种内存访问过程的示意图;
图2是本申请提供的一种编译优化装置的结构示意图;
图3是本申请提供的一种程序源码的编译优化方法的流程示意图;
图4是本申请提供的一种对程序源码执行数据预取的编译操作的流程示意图;
图5是本申请提供的一种循环1的CFG;
图6是本申请提供的一种对循环1进行裁剪后的循环的CFG;
图7是本申请提供的一种对程序源码执行结构体成员重排的编译操作的流程示意图;
图8是本申请提供的一种第二结构体的结构示意图;
图9是本申请提供的一种第二结构体的存储排布示意图;
图10是本申请提供的一种第三结构体的结构示意图;
图11是本申请提供的一种第三结构体的存储排布示意图;
图12是本申请提供的另一种第三结构体的结构示意图;
图13是本申请提供的另一种第三结构体的存储排布示意图;
图14是本申请提供的一种计算设备的结构示意图。
具体实施方式
为了便于理解本申请提供的技术方案,在具体描述本申请提供的技术方案之前,首先介绍本申请涉及的一些术语。
缓存(cache)是位于CPU与内存之间进行高速数据交换的临时存储器,它的容量比内存小,但对象(包括数据和指令)存取的速度比内存快。CPU和内存之间通常会设置多级缓存,如图1所示的一级缓存(L1 cache)、二级缓存(L2 cache)和三级缓存(L3 cache)。根据缓存的对象,一级缓存又可以分为数据缓存(data cache)和指令缓存(instructioncache),顾名思义,数据缓存用于缓存数据,指令缓存用于缓存指令。那么,CPU对内存的访问就需要经过上述多级缓存。以CPU访问的对象是数据为例,CPU先访问一级缓存(具体为数据缓存),如果待访问的数据在一级缓存中,则从一级缓存中读取该数据。如果待访问的数据未在一级缓存中,则访问二级缓存。如果待访问的数据在二级缓存中,则从二级缓存中读取该数据。如果待访问的数据未在二级缓存中,则访问三级缓存。如果待访问的数据在三级缓存中,则从三级缓存中读取该数据。如果待访问的数据未在三级缓存中,则CPU从内存中访问该数据。应理解,CPU访问指令的过程与上述数据访问的过程类似,因此这里不再展开叙述。
上述过程存在两种情况:其一,CPU访问的对象在缓存中,即CPU可以从一级缓存、二级缓存或三级缓存中读取到待访问的对象,这一情况称为缓存命中(cache hit)。其二,如果CPU访问的对象未在缓存中,即CPU未能在一级缓存、二级缓存和三级缓存中读取到待访问的对象,这一情况称为缓存缺失(cache miss)。
由于内存的访问具有延迟性,因此,当CPU访问的对象未在缓存中时,CPU需要等待较长的时间才能访问到该数据或指令,从而导致程序在执行过程中出现瓶颈。为此,出现了多种缓存优化方法,包括但不限于以下几种:
1、数据预取
数据预取是指CPU在访问内存中的数据之前,提前将待访问的数据从内存传输至缓存中。数据预取的方式主要有硬件预取和软件预取。其中,硬件预取是指CPU根据内存访问的历史信息,将未来可能访问的数据提前传输至缓存中。软件预取是指编译器在编译程序源码的过程中,向程序中插入预取指令,那么在程序运行时就可以通过预取指令将可能访问到的数据提前传输至缓存中。
值得注意的一点是,有效的数据预取机制是要在CPU使用内存数据之前刚好将其从内存传输至缓存中,使得CPU可以从缓存中访问到该数据,从而减少内存访问的延迟。也就是说,数据的预取不能过早也不能过晚,只有在特定的时间窗口中及时地进行将数据从内存搬运至缓存,才能最大限度的减少缓存移出和缓存污染,避免数据预取的开销大于数据预取的收益。
2、结构体优化
结构体(struct)是一种数据结构,例如,整型、浮点等。结构体包括一个或多个结构体成员(member),不同的结构体成员可以属于不同的类型。例如,结构体S包括整型数据a,字符型变量b和双精度变量c,其中,数据a、变量b和变量c均是结构体S中的结构体成员。
结构体优化的方式主要有结构体成员重排和结构体拆分。其中,结构体成员重排是指通过调整结构体中成员的顺序,使得结构体中被频繁访问的成员尽可能位于同一个缓存块(cache line)中,从而提高缓存块的利用率,达到缓存优化的目的。其中,缓存块是组成缓存的单元块,每个缓存块包括一个或多个连续的内存存储单元。结构体拆分是指根据结构体中成员的访问频率将一个结构体拆分为多个结构体,从而提高缓存块的利用率,达到缓存优化的目的。
3、函数重排
函数重排是指通过将函数内或不同函数之间的代码进行重排,使得调用关系紧密的函数相邻排列,从而提高缓存块的利用率,减少因指令的缓存缺失导致的指令搬运等待,提高程序的运行效率。
不难看出,上述缓存优化方法都涉及到这样的问题:如何准确地确定内存中的哪些对象(数据或指令)可能是即将被CPU频繁访问的?在确定即将被CPU频繁访问的对象后,如何根据这些对象计算出合适的优化策略,以对缓存进行优化。目前,主要基于插桩技术来实现缓存的优化,即通过对CPU访存对象的操作指令(例如,load操作数、store操作数)进行插桩跟踪,确定CPU需要从内存中读取的对象,从而在编译阶段对这些对象进行相应的优化操作,例如,数据预取操作。但是,该方法需要通过软件插桩才能实现,这会增加缓存优化的开销,而且该方法还存在准确性和及时性较低的问题,即利用上述方法对缓存进行优化后,CPU访存对象之前,该对象并未及时从内存搬运至缓存。
为了解决上述问题,本申请提供了一种程序源码的编译优化方法,利用该方法对程序源码进行编译后可以得到对应的可执行文件,当CPU执行该可执行文件时,不仅能够实现对缓存的优化,还能够减少缓存优化的开销,提高缓存优化的准确性和及时性。
本申请提供的程序源码的编译方法可以由编译优化装置执行,图2示出了编译优化装置的结构示意图。如图2所示,编译优化装置100包括运行单元110、事件采集单元120、解析单元130以及编译单元140。下面对上述各个单元进行简要介绍。
(1)运行单元110
运行单元110用于获取第一可执行文件,并运行第一可执行文件。其中,第一可执行文件包括可执行程序和调试信息,可执行程序是对程序源码进行编译得到的,调试信息包括程序源码和可执行程序中的可执行指令之间的对应关系。
(2)事件采集单元120
事件采集单元120用于在运行第一可执行文件时采集硬件缓存事件。硬件缓存事件是指CPU访问缓存时的状态数据。应理解,由于CPU访问缓存时可能出现两种情况,一种是缓存命中,一种是缓存缺失,因此上述硬件缓存事件可以包括缓存命中事件和缓存缺失事件。其中,缓存命中事件是指CPU访问缓存时,从缓存中获取访问对象的事件;缓存缺失事件是指CPU访问缓存时,未从缓存中获取访问对象的事件。
本申请实施例中,考虑到当前的CPU中普遍存在性能监视单元(performancemonitor unit,PMU),PMU用于对CPU中多种硬件的执行状态事件(即硬件事件)进行监控,并且,CPU上的硬件事件包括上述硬件缓存事件。因此,事件采集单元120可以包括PMU 121和性能采集工具122。其中,PMU 121用于对CPU上的硬件事件进行监控,性能采集工具122用于对PMU 121进行硬件缓存事件的采样和记录。可选的,性能采集工具122可以采用Linux提供的性能采集工具(例如:perf、OProfile)、或者windows提供的性能采集工具(例如:perfmon、VTune)等,此处不作具体限定。
可选的,通过对PMU 121进行配置,使得PMU 121仅对CPU上的硬件缓存事件进行监控。这样,可以减少PMU 121的工作。
事件采集单元120还用于将采集到的硬件缓存事件发送至解析单元130。
(3)解析单元130
解析单元130用于获取第一可执行文件,以及接收事件采集模块120发送的硬件缓存事件。解析单元130还用于对第一可执行文件进行解析,获得调试信息,然后根据调试信息和硬件缓存事件,获得第一配置信息。其中,第一配置信息包括程序源码的标识和该标识对应的缓存缺失次数。解析单元130还用于将第一配置信息发送至编译单元140。
(4)编译单元140
编译单元140用于获取程序源码,以及接收解析单元130发送的第一配置信息,并根据第一配置信息对程序源码进行编译,得到第二可执行文件。
在一具体的实施例中,编译单元140包括数据预取模块141。其中,数据预取模块141用于根据第一配置信息对程序源码进行数据预取的编译操作。具体地,数据预取模块141解析第一配置信息,确定程序源码中满足条件A的源码,其中,条件A包括:源码的缓存缺失次数大于阈值A,且源码包括CPU的访存对象。然后,数据预取模块141计算上述满足条件A的源码的预取距离,并根据该预取距离生成预取指令,以使得CPU在执行源码对应的可执行指令时能够从缓存中读取到所需的访存对象。
在一具体的实施例中,编译单元140还包括结构体成员重排模块142。结构体成员重排模块142用于根据第一配置信息对程序源码执行结构体成员重排的编译操作。具体地,结构体成员重排模块142获取程序源码中的所有结构体,以及每个结构体中的成员,然后通过解析上述第一配置信息,确定满足条件B的结构体,其中,条件B包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于阈值B,结构体中的各个成员在使用上不存在顺序依赖是指:不通过结构体指针和偏移量来取结构体中的成员。之后,对上述满足条件B的结构体中的成员的排序进行调整,得到新的结构体,并利用新的结构体代替原结构体(即上述满足条件B的结构体)。
可选的,编译单元140还可以包括结构体拆分模块143或函数重排模块144。其中,结构体拆分模块143用于根据第一配置信息对程序源码中的频繁出现缓存缺失事件的结构体进行拆分。函数重排模块144用于根据第一配置信息对程序源码中的频繁出现缓存缺失事件的函数进行函数重排的编译操作。
下面结合图3,对上述编译优化装置100对程序源码进行编译优化的具体过程进行更加详细地描述。如图3所示,图3示出了本申请提供的一种程序源码的编译优化方法的流程示意图,该方法包括但不限于如下步骤:
S101:获取第一可执行文件。
其中,第一可执行文件是通过对程序源码进行编译后得到的、CPU可以加载并执行的文件。程序源码是指未编译的、按照一定的程序设计语言(例如,C语言、C++语言)规范书写的文本文件,是一系列人类可读的计算机语言指令。可选的,第一可执行文件可以是二进制可执行文件(binary executable),可执行指令可以是汇编指令、机器指令等。
本申请实施例中,第一可执行文件包括可执行程序和调试信息,可执行程序是指可以由CPU加载并执行的程序,可执行程序包括可执行指令,可执行指令是指可以由CPU加载并执行的指令。调试信息是上述编译器对程序源码进行编译的过程中生成的,用于表示程序源码与可执行程序之间的关系。调试信息包括程序源码和可执行程序中的可执行指令之间的对应关系。
在实际应用中,考虑到人们书写程序源码的习惯,程序源码可以看作是由多行源码组成的,并且在编译后一条可执行指令通常会对应一行或多行源码,那么,上述调试信息包括的程序源码和可执行程序中的可执行指令之间的对应关系,具体可以是每行源码的标识与每条可执行指令的标识之间的对应关系。其中,每行源码的标识可以是该行源码的编号,每条可执行指令的标识可以是该条可执行指令的编号。可选的,每行源码的标识还可以是每行源码的存储地址,每条可执行指令的标识还可以是该条可执行指令的存储地址,
S102:运行第一可执行文件,采集硬件缓存事件。
在一些实施例中,编译优化装置100在运行第一可执行文件的过程中,对出现的硬件事件进行监控,并对硬件事件中的硬件缓存事件进行采样和记录。其中,硬件事件、硬件缓存事件的具体叙述请参见前述内容中关于事件采集单元120的相关介绍,为了简便此处不再进行叙述。
应理解,由于硬件事件不仅包括硬件缓存事件,因此,在另一些实施例中,编译优化装置100在运行第一可执行文件的过程中,可以仅对CPU上的硬件缓存事件进行监控,并对监控到的硬件缓存事件进行采样和记录。
S103:根据硬件缓存事件和调试信息,获得第一配置信息。
其中,第一配置信息包括程序源码的标识和该标识对应的缓存缺失次数。程序源码的标识可以是程序源码中所有源码的标识(例如,程序源码中每行源码的标识),也可以是程序源码中部分源码的标识,此处不作具体限定。
在一具体的实施例中,编译优化装置100根据硬件缓存事件和调试信息,获得第一配置信息,包括:对第一可执行文件进行解析,获得调试信息。然后,解析硬件缓存事件,获得可执行程序中的可执行指令对应的缓存缺失次数,其中,可执行指令对应的缓存缺失次数是指CPU执行该可执行指令时,出现缓存缺失事件的次数。之后,根据可执行指令对应的缓存缺失此处和上述调试信息,确定可执行指令关联的源码对应的缓存缺失次数,从而得到上述第一配置信息。
需要说明的一点是,第一配置信息用于指示编译器对程序源码进行编译,因此,编译优化装置100在得到第一配置信息之后,还需将第一配置信息存储为编译器能够解析的格式的文件。例如,采用的编译器为GCC编译器,GCC编译器能够读取并解析.gcov格式的文件,那么,编译优化装置100得到第一配置信息后会将第一配置信息存储为.gcov格式的文件,以便于GCC编译器能够读取第一配置信息,并解析第一配置信息。
S104:根据第一配置信息对程序源码进行编译,得到第二可执行文件。
其中,与第一可执行文件类似的,第二可执行文件也是CPU可以加载并运行的文件,但第二可执行文件与第一可执行文件不同,相较于第一可执行文件,CPU在执行第二可执行文件时,缓存的优化效果更好,使得访问内存所消耗的时间更少,程序运行效率更高。
本申请实施例中,编译优化装置100获得第一配置信息后,可以通过以下任意一种方式根据第一配置信息对程序源码进行编译:
方式1、编译优化装置100根据第一配置信息对程序源码执行数据预取的编译操作。
具体地,编译优化装置100解析第一配置信息,确定程序源码中满足条件A的源码。然后,计算上述满足条件A的源码的预取距离,预取距离表示将CPU的访存对象从内存搬运至缓存的提前量。最后,根据预取距离生成预取指令,使得CPU在执行上述满足条件A的源码对应的可执行指令时,能够从缓存中读取到对应的访存对象。
在一具体的实施例中,编译优化装置100确定程序源码中满足条件A的源码的方式多种多样,例如:
①、解析第一配置信息,获得程序源码的标识及标识对应的缓存缺失次数,从而得到程序源码中多个函数的缓存缺失次数,其中,每个函数的缓存缺失次数等于该函数包括的源码对应的缓存缺失次数之和。然后,按照缓存缺失次数的大小对上述多个函数进行降序排序,筛选出满足条件C的至少一个函数(为了简便,下文将上述满足条件C的函数简称为第一函数),其中,条件C包括以下至少一个:函数的缓存缺失次数大于阈值C、函数的排序小于阈值D。然后,确定每个第一函数中涉及CPU访存对象的源码,并根据上述程序源码的标识及标识对应的缓存缺失次数,获得上述涉及CPU访存对象的源码对应的缓存缺失次数,然后按照缓存缺失次数的大小对上述涉及CPU访存对象的源码进行降序排序,从而确定上述满足条件A的源码,此处的条件A包括:源码的缓存缺失次数大于阈值A、源码的排序小于阈值E以及源码包括CPU的访存对象。
应理解,一个函数中可能包括:涉及CPU访存对象的源码,涉及算术运算的源码、涉及逻辑运算的源码、涉及判定和控制的源码等。而只有涉及访存对象的那一部分源码才会出现缓存缺失事件,因此,为了更加准确地执行数据预取操作,编译优化装置100筛选出第一函数后还确定了第一函数中涉及CPU访存对象的源码,从而筛选出满足条件A的源码。
需要说明的一点是,在实际应用中,程序源码中的多个函数可能均不满足上述条件C,或者第一函数中的源码可能均不满足方式①中的条件A,在这种情况下,编译优化装置100将不对程序源码执行数据预取的编译优化操作。
②、解析第一配置信息,获得程序源码的标识及标识对应的缓存缺失次数,然后确定程序源码中涉及CPU访存对象的源码,以及这些源码对应的缓存缺失次数。然后,按照缓存缺失次数的大小对上述涉及CPU访存对象的源码进行降序排序,从而确定上述满足条件A的至少一个源码,此处的条件A包括:源码的缓存缺失次数大于阈值A、源码的排序小于阈值F以及源码包括CPU访存对象。
需要说明的一点是,在实际应用中,程序源码中的源码可能均不满足方式②中的条件A,在这种情况下,编译优化装置100将不对程序源码执行数据预取的编译优化操作。
在一具体的实施例中,考虑到CPU执行循环程序,尤其是循环中嵌套的最内层循环的程序时,最有可能出现缓存缺失事件。那么,编译优化装置100计算上述满足条件A的源码的预取距离,包括以下步骤:获取第一循环的CFG,其中,第一循环是包括上述满足条件A的源码的最内层循环,第一循环的CFG表示CPU在执行第一循环的过程中会遍历到的所有路径,第一循环的CFG包括多个BB和多条有向边,多条有向边用于指示多个BB之间的执行顺序。然后,确定每条有向边的执行概率,并根据每条有向边的执行概率计算第一循环的单次循环时间。之后,根据第一循环的单次循环时间计算上述满足条件A的源码的预取距离。该步骤的具体过程请参见后文的S201-S206。
方式2、编译优化装置100根据第一配置信息对程序源码执行结构体成员重排的编译操作。
在一具体的实施例中,编译优化装置100对程序源码执行结构体成员重排的编译操作之前,还执行以下步骤:获取程序源码中的多个结构体,以及多个结构体中的成员,之后,记录上述多个结构体中每个结构体的类型、每个结构体的变量以及每个结构体中的成员。
在一具体的实施例中,编译优化装置100根据第一配置信息对程序源码执行结构体成员重排的编译操作,包括:解析第一配置信息,确定程序源码的标识以及该标识对应的缓存缺失次数,并根据程序源码的标识以及该标识对应的缓存缺失次数,获得上述每个结构体的缓存缺失次数,从而确定满足条件B的结构体,其中,条件B包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于阈值B,结构体中的各个成员在使用上不存在顺序依赖是指:不通过结构体指针和偏移量来取结构体中的成员。之后,对上述满足条件B的结构体中的成员的排序进行调整,得到新的结构体,最后,利用新的结构体代替上述满足条件B的结构体。该步骤的具体过程请参见后文的S301-S306。
应理解,编译优化装置100还可以根据第一配置信息对程序源码执行结构体拆分的编译操作、或函数重排的编译操作等,其具体构思与上述方式1和方式2的构思类似,为了简便,本申请不展开叙述。
实施上述程序源码的编译方法,可以得到第二执行文件,当CPU执行第二可执行文件时,可以达到对缓存进行优化的目的。并且,根据前文的描述可知,该方法是通过采集硬件缓存事件来确定程序源码对应的缓存缺失次数,之后,再结合程序源码对应的缓存缺失次数来对程序源码进行编译,使得编译得到的第二可执行文件能够更准确且及时的告知CPU如何优化缓存。因此,本申请提供的程序源码的编译方法不仅能够提高缓存优化的准确性和及时性,还可以节省缓存优化的成本。
下面结合图4对上述S104中编译优化装置100计算上述满足条件A的源码的预取距离的过程进行进一步地描述。
本申请实施例中,考虑到上述至少一个第一函数是程序源码中出现缓存缺失事件较多的函数,因此上述满足条件A的源码最有可能是上述至少一个第一函数的最内层循环中的源码,也就是说,上述第一循环最有可能是至少一个第一函数中的最内层循环,因此,编译优化装置100会执行S201-S203来获取第一循环。为了简便,此处以一个第一函数为例进行说明。
S201:获取第一函数中的至少一个最内层循环。
应理解,在实际情况中,第一函数可能包括多个最内层循环,有些最内层循环迭代的执行概率较高,而有些最内层循环迭代的执行概率较低。相较于迭代执行概率低的最内层循环,上述满足条件A的源码更有可能是迭代执行概率高的最内层循环中的一部分,因此,编译优化装置100还可以执行S202。此处需要说明的一点是,最内层循环迭代的执行概率是指在该循环中迭代运行的概率,而不是在函数中执行该循环的概率。
S202:确定上述至少一个最内层循环中满足条件D的最内层循环,得到第一循环以及第一循环的CFG。
其中,条件D包括以下至少一个:循环迭代的执行概率大于阈值G、循环不迭代的执行概率小于阈值H。
在一具体的实施例中,编译优化装置100可以通过以下方式计算第一函数中每个最内层循环的执行概率或不执行的概率,以第一函数中的一个最内层循环为例进行说明:
首先,构建该循环的CFG,该循环的CFG表示CPU在执行该循环的过程中会遍历到的所有路径。该循环的CFG包括多个BB和多条有向边,每条有向边指示该循环中的两个BB之间的执行顺序,每个BB包括至少一个指令,需要说明的是,BB中的指令为源码。然后,遍历每个BB,记录每个BB、每个BB的执行次数以及每条有向边的执行概率。之后,可以参考以下公式计算出该循环的执行概率以及不执行该循环的概率:
y2=1-y1
其中,y1表示不执行该循环的概率,exit_edge_prob表示退出该循环的有向边的概率,exit_BB_count表示引出上述有向边的BB的执行次数,header_BB_count表示该循环的入口BB的执行次数,y2表示该循环的执行概率。上述exit_edge_prob、exit_BB_count以及header_BB_count可以由编译优化装置100利用编译器自带的静态分析功能、FDO或AutoFDO等方法计算得到,为了简便,本申请不对其进行介绍。
举例说明,假设第一函数中包括循环1,条件D中阈值G为0.9,阈值H为0.2。图5示出了循环1的CFG,其中,BB1、BB2、BB3、BB4以及BB5的执行次数依次为100、99、100、99、1,有向边BB1→BB2、有向边BB1→BB3、有向边BB2→BB3、有向边BB3→BB4、有向边BB3→BB5以及有向边BB4→BB1的执行概率分别是99%、1%、100%、99%、1%、100%,并且,BB1为循环1的入口BB,有向边BB3→BB5为退出循环1的有向边。因此,利用上述公式可以计算得到y1=(1%*100)/100=0.01,y2=1-0.01=0.99,也就是说不执行循环1的概率为0.01,执行循环1的概率为0.99,满足上述条件D,第一函数中的循环1为一个第一循环。
S203:确定与第一循环的循环层无关的BB以及与第一循环的循环层无关的有向边,并对上述无关的BB以及上述无关的有向边进行裁剪,得到第二循环。
具体地,编译优化装置100遍历第一循环中的所有BB,确定与第一循环无关的BB以及有向边,并对这些无关的BB以及有向边进行裁剪,得到第二循环。其中,与第一循环的循环层无关的BB可以是退出第一循环的有向边指向的BB,与第一循环的循环层无关的有向边可以是退出第一循环的有向边。以图5所示的循环1为例,BB5为与循环1的循环层无关的BB,有向边BB3→BB5为与循环1的循环层无关的有向边,裁剪BB5和有向边BB3→BB5后可以得到如图6所示的循环。
S204:计算第二循环中每个BB的执行概率。
具体地,编译优化装置100在执行上述S202时,会构建第一函数中每个最内层循环的CFG,并记录CFG包括的BB以及有向边的执行概率。因此,编译优化装置100可以得到第一循环的CFG包括的每个BB以及每条有向边的执行概率,然后根据第一循环的CFG包括的每条有向边的执行概率,计算得到第二循环中每个BB的执行概率。
在一种可能的实现方式中,为了方便计算,可以假设第二循环的入口BB的执行概率为100%,然后根据第一循环的CFG包括的每条有向边的执行概率,计算出第二循环中每个BB的执行概率。以图6所示的循环为例,假设BB1的执行概率为100%,由于有向边BB1→BB2、有向边BB1→BB3、有向边BB2→BB3、有向边BB3→BB4、有向边BB4→BB1的执行概率依次为99%、1%、100%、99%、100%,因此BB2的执行概率为99%,BB3的执行概率为100%(1%+99%),BB4的执行概率为99%。
此处需要说明的是,对于执行概率较高的循环来说,在裁剪掉该循环的出口分支(即与该循环的循环层无关的BB)后,仍能够较为准确地反应独立循环体中各个BB的执行概率。而对于执行概率较低的循环来说,在裁剪掉循环的出口分支后,由于出口分支的执行概率较高,而循环层中的BB的执行概率较低,因此,裁剪后的循环中各个BB的执行概率并不能代表其在整个循环中的执行概率。也就是说,编译优化装置100执行上述S102还可以提高数据预取的准确性。
还需说明的是,本申请实施例中,通过对循环分支的执行概率(即有向边的执行概率)计算,可以计算出更合理的单次循环的执行时间。例如,假设图6中BB2的可能包含大量的指令,因此执行BB2所耗费的时间较长,如果不根据有向边BB1→BB2的执行概率计算BB2的执行时间,会导致计算出的单次循环的执行时间较长。但是,在实际应用中,CPU执行BB2的概率很低(1%),也就是说,大多数情况下循环执行会直接从BB1跳转到BB3,这样计算出的单次循环的执行时间就会缩短很多。因此,在计算单次循环的执行时间时结合循环分支的执行概率会计算出更合理的值。
S205:根据第二循环中每个BB的执行概率和每个BB中指令的数量和类型,计算第二循环的单次循环时间,即第一循环的循环层的单次循环时间(以下简称为第一循环的单次循环时间)。
具体地,获取第二循环的每个BB中的所有指令的数量和类型,由于同一类型的指令的执行时间相同,因此,第二循环的单次循环时间的计算可以参考以下公式:
loop_time=sum(BB_prob*sum(inst_time))
其中,loop_time表示第二循环的单次循环时间,BB_prob表示BB的执行概率,inst_time表示BB中一条指令的执行时间,sum(inst_time)表示BB中所有指令的执行时间之和。
S206:根据第一循环的单次循环时间和CPU访问内存的延迟时间,计算第一循环中的满足条件A的源码的预取距离。
具体地,编译优化装置100获得CPU访问内存的延迟时间,确定第二循环中存在的第一源码,然后根据第二循环的单次循环时间和CPU访问内存的延迟时间,计算第二循环中的第一源码的预取距离。
在一具体的实施例中,第一循环中满足条件A的源码的预取距离的计算可以参考以下公式:
prefetch_dis=latency/loop_time
其中,prefetch_dis表示第一循环中满足条件A的源码的预取距离,latency表示CPU访问内存的延迟时间,loop_time表示第二循环的单次循环时间。
下面结合图7对上述S104中编译优化装置100根据第一配置信息对程序源码执行结构体成员重排的编译操作的过程进行进一步地描述。
S301:确定上述多个结构体中的至少一个第一结构体。其中,第一结构体中的成员在使用上不存在顺序依赖。
具体地,检测上述每个结构体中的各个成员在使用上是否存在顺序依赖。如果结构体中的任意一个成员在使用上存在顺序依赖,则编译优化装置100不对该结构体执行结构体成员重排的操作。如果结构体中的各个成员在使用上不存在顺序依赖(即第一结构体),则编译优化装置100执行下述S302-S306。
S302:解析第一配置文件,获得程序源码的标识以及该标识对应的缓存缺失次数,从而得到上述至少一个第一结构体的缓存缺失次数。
S303:按照缓存缺失次数的大小对上述至少一个第一结构体进行排序,筛选出满足条件E的结构体(以下简称为第二结构体)。
其中,如果按照缓存缺失次数的大小对上述至少一个第一结构体进行降序排序,则条件E包括以下至少一个:结构体的缓存缺失次数大于阈值I、结构体的排序小于阈值J。如果按照缓存缺失次数的大小对上述至少一个第一结构体进行升序排序,则条件E包括以下至少一个:结构体的缓存缺失次数大于阈值I、结构体的排序大于阈值K。应理解,上述条件B包括:条件E和结构体中的各个成员在使用上不存在顺序依赖。
S304:根据程序源码的标识以及该标识对应的缓存缺失次数,确定第二结构体中的各个成员的缓存缺失次数。
S305:根据第二结构体中各个成员的缓存缺失次数,对第二结构体中的成员的排序进行调整,得到对应的第三结构体。
在一具体的实施例中,编译优化装置100根据第二结构体中的各个成员的缓存缺失次数的大小,对第二结构体中的成员的排序进行调整,得到对应的第三结构体,包括如下步骤:按照第二结构体中各个成员的缓存缺失次数的大小,将该结构体中缓存缺失次数大的成员放置在同一个缓存块中,如此,可以提高缓存的使用率。
举例说明,如图8所示,第二结构体包括8个成员,分别是成员a、成员b、成员c、成员d、成员e、成员f、成员g、成员h,且这些成员在使用上不存在顺序依赖。图9示出了第二结构体的存储排布示意图,如图9所示,第二结构体在缓存中存储为两个缓存块。假设,CPU执行程序时,只需要从缓存中读取上述成员a和成员g,在这种情况下,CPU需要从缓存中读取2个缓存块才能得到上述成员a和成员g。但是,如果执行上述实施例提供的方法,即按照缓存缺失次数的大小(缓存缺失次数从大到小的成员依次是:成员a、成员g、成员b、成员c、成员d、成员e、成员f、成员h)对第二结构体中的各个成员的排序进行调整,可以得到图10示出的第三结构体以及图11示出的第三结构体的存储排布示意图。在这种情况下,CPU只需要从缓存中读取1个缓存块就可以得到上述成员a和成员g。因此,相较于图8示出的第二结构体,当缓存中存储图10示出的第三结构体时,可以提高缓存的使用率。
进一步地,编译优化装置100还可以获取第二结构体中各个成员的大小,并根据第二结构体中各个成员的缓存缺失次数以及第二结构体中各个成员的大小,对第二结构体中各个成员的排序进行调整,得到对应的第三结构体。具体地,当第二结构体中成员的缓存缺失次数相近时,可以根据成员的大小对各个成员的排序进行调整,从而得到对应的第三结构体。
举例说明,仍以图8示出的第二结构体为例,假设,该第二结构体中成员b、成员c、成员d、成员e、成员f、成员h的缓存缺失次数均相近,相较于第二结构体中的其他成员,成员b和成员e占用的内存空间较小,因此,在图10示出的第三结构体的基础上,进一步对成员b、成员c、成员d、成员e、成员f、成员h的排序进行调整,从而得到图12示出的另一种第三结构体以及图13示出的另一种第三结构体的存储排布示意图。可以看出,图8和图10示出的结构体的大小均为64字节,而图12所示的结构体的大小仅为56字节,因此,相较于图8和图10示出的结构体,图12所示的结构体占用的存储空间更小,也就是说,利用上述方法可以提高缓存的使用率。
S306:利用上述第三结构体代替第二结构体。
本申请还提供了一种编译优化装置,该编译优化装置用于执行或实现上述程序源码的编译优化方法,该编译优化装置的功能既可以由软件系统实现,也可以由硬件设备实现,还可以由软件系统和硬件设备结合实现。
如前述图2所示,本申请提供的编译优化装置可以包括运行单元110、事件采集单元120、解析单元130以及编译单元140。其中,运行单元110用于执行前述S101以及S102中涉及到运行第一可执行文件的步骤。事件采集单元120用于执行前述S102中涉及采集硬件缓存事件的步骤。解析单元130用于执行前述S103。编译单元140用于执行前述S104、S201-S206以及S301-S306。为了简便,此处不再展开叙述。
本申请还提供了一种计算设备,该计算设备用于执行上述程序源码的编译优化方法,并且当上述编译优化装置100为软件系统时,该计算设备上还可以部署有上述编译优化装置100,以实现上述编译优化装置100的功能。
如图14所示,图14示出了本申请提供的一种计算设备的结构示意图。其中,计算设备200包括存储器210、处理器220、通信接口230以及总线240。其中,存储器210、处理器220、通信接口230通过总线240实现彼此之间的通信连接。
存储器210可以是只读存储器(read only memory,ROM),静态存储设备、动态存储设备或者随机存取存储器(random access memory,RAM)。存储器210可以存储计算机指令,例如:运行单元110中的计算机指令、事件采集单元120中的计算机指令、解析单元130中的计算机指令、编译单元140中的计算机指令等。当存储器210中存储的计算机指令被处理器220执行时,处理器220和通信接口230用于执行上述步骤S101-S104、S201-206、S301-S306所述的部分或全部方法。存储器210还可以存储数据,例如:存储处理器220在执行过程中产生的中间数据或结果数据,例如,调试信息、预取距离、结构体成员、第二可执行文件等。
处理器220可以采用CPU、微处理器、专用集成电路(applicationspecificintegrated circuit,ASIC)、图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器220还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述编译优化装置100的部分或全部功能可以通过处理器220中的硬件的集成逻辑电路或者软件形式的指令完成。处理器220还可以是通用处理器、数据信号处理器(digital signalprocess,DSP)、现场可编程逻辑门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件,分立门或者晶体管逻辑器件,分立硬件组件,从而实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器210,处理器220读取存储器210中的信息,结合其硬件完成上述编译优化装置100的部分或全部功能。
通信接口230使用例如但不限于收发器一类的手法模块,来实现计算设备200与其他设备或通信网络之间的通信。例如,可以通过通信接口230获取第一可执行文件和程序源码,还可以通过通信接口230将编译后的第二可执行文件发送给其他设备。
总线240可以包括在计算设备400中的各个部件(例如,存储器210、处理器220、通信接口230)之间传送信息的通路。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详细描述的部分,可以参见其他流程的相关描述。
在上述实施例中,可以全部或部分地通过软件、硬件或者其组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。提供模型训练系统的计算机程序产品包括一个或多个由模型训练系统执行的计算指令,在计算机上加载和执行这些计算机程序指令时,全部或部分地产生按照本申请实施例图所述的流程或功能。
上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、双绞线或无线(例如,红外、无线、微波)等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质存储有提供模型训练系统的计算机程序指令。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))。
Claims (22)
1.一种程序源码的编译优化方法,其特征在于,包括:
运行第一可执行文件,采集硬件缓存事件,其中,所述第一可执行文件包括可执行程序和调试信息,所述可执行程序是对程序源码进行编译得到的,所述调试信息包括所述程序源码和所述可执行程序中的可执行指令之间的对应关系;
根据所述硬件缓存事件和所述调试信息,获得第一配置信息,所述第一配置信息包括所述程序源码的标识和所述标识对应的缓存缺失次数;
根据所述第一配置信息对所述程序源码进行编译,得到第二可执行文件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述硬件缓存事件和所述调试信息,获得第一配置信息,包括:
解析所述硬件缓存事件,获得所述可执行指令对应的缓存缺失次数;
根据所述可执行指令对应的缓存缺失次数和所述调试信息,确定所述可执行指令关联的源码对应的缓存缺失次数,从而得到所述第一配置信息。
3.根据权利要求1或2所述的方法,所述根据所述第一配置信息对所述程序源码进行编译,得到第二可执行文件,包括:
解析所述第一配置信息,确定所述程序源码中满足第一条件的源码,其中,所述第一条件包括:源码的缓存缺失次数大于第一阈值,且源码包括访存对象;
计算所述满足第一条件的源码的预取距离,所述预取距离表示将所述访存对象从内存搬运至缓存的提前量;
根据所述预取距离生成预取指令。
4.根据权利要求3所述的方法,其特征在于,所述计算所述满足第一条件的源码的预取距离,包括:
获取第一循环的控制流图CFG,所述第一循环是包括所述满足第一条件的源码的最内层循环,所述第一循环的CFG包括多个基本块BB和多条有向边,所述多条有向边用于指示所述多个BB之间的执行顺序;
确定所述每条有向边的执行概率;
根据所述每条有向边的执行概率计算所述第一循环的单次循环时间;
根据所述第一循环的单次循环时间计算所述满足第一条件的源码的预取距离。
5.根据权利要求4所述的方法,其特征在于,所述获取第一循环的CFG,包括:
解析所述第一配置信息,确定所述程序源码中满足第二条件的函数,其中,所述第二条件为函数的缓存缺失次数大于第二阈值,所述函数的缓存缺失次数为所述函数包括的源码的缓存缺失次数之和;
确定所述满足第二条件的函数中的第一循环,所述第一循环为所述满足第二条件的函数中的最内层循环,且所述第一循环迭代的执行概率大于第三阈值;
构建所述第一循环的CFG。
6.根据权利要求3或4所述的方法,其特征在于,所述根据所述每条有向边的执行概率计算所述第一循环的单次循环时间,包括:
确定与所述第一循环的循环层无关的BB和有向边;
对所述无关的BB和有向边进行裁剪,得到第二循环;
根据所述每条有向边的执行概率计算所述第二循环中的各个BB的执行概率,得到所述第一循环的单次循环时间,所述第一循环的单次循环时间为所述各个BB的执行概率与所述各个BB的执行时间的乘积之和。
7.根据权利要求1-5所述的方法,其特征在于,在所述根据第一配置信息对所述程序源码进行编译,得到第二可执行文件之前,所述方法还包括:
获取所述程序源码中的多个结构体,以及所述多个结构体中的成员;
所述根据第一配置信息对所述程序源码进行编译,得到第二可执行文件,包括:
解析所述第一配置信息,确定所述多个结构体中满足第三条件的结构体,所述第三条件包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于第四阈值;
对所述满足第三条件的结构体中的成员的排序进行调整,得到新的结构体;
利用所述新的结构体代替所述满足第三条件的结构体。
8.根据权利要求7所述的方法,其特征在于,所述每个结构体包括所述程序源码中的源码,所述解析所述第一配置信息,确定满足第三条件的结构体,包括:
解析所述第一配置信息,确定所述程序源码的标识和所述标识对应的缓存缺失次数;
根据所述程序源码的标识和所述标识对应的缓存缺失次数,获得所述每个结构体的缓存缺失次数,从而确定所述满足第三条件的结构体。
9.根据权利要求7或8所述的方法,其特征在于,所述对所述满足第三条件的结构体中的成员的排序进行调整,包括:
获取所述满足第三条件的结构体中多个成员的缓存缺失次数;
根据所述多个成员的缓存缺失次数的大小对所述多个成员的排序进行调整。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个成员的缓存缺失次数的大小对所述多个成员的排序进行调整,包括:
获取所述多个成员中每个成员的大小;
根据所述每个成员的大小以及所述每个成员的缓存缺失次数,对所述多个成员的排序进行调整。
11.一种程序源码的编译优化装置,其特征在于,所述装置包括:
运行单元,用于运行第一可执行文件,其中,所述第一可执行文件包括可执行程序和调试信息,所述可执行程序是对程序源码进行编译得到的,所述调试信息包括所述程序源码和所述可执行程序中的可执行指令之间的对应关系;
事件采集单元,用于采集硬件缓存事件;
解析单元,用于根据所述硬件缓存事件和所述调试信息,获得第一配置信息,所述第一配置信息包括所述程序源码的标识和所述标识对应的缓存缺失次数;
编译单元,用于根据所述第一配置信息对所述程序源码进行编译,得到第二可执行文件。
12.根据权利要求11所述的装置,其特征在于,所述解析单元具体用于:
解析所述硬件缓存事件,获得所述可执行指令对应的缓存缺失次数;
根据所述可执行指令对应的缓存缺失次数和所述调试信息,确定所述可执行指令关联的源码对应的缓存缺失次数,从而得到所述第一配置信息。
13.根据权利要求11或12所述的装置,所述编译单元具体用于:
解析所述第一配置信息,确定所述程序源码中满足第一条件的源码,其中,所述第一条件包括:源码的缓存缺失次数大于第一阈值,且源码包括访存对象;
计算所述满足第一条件的源码的预取距离,所述预取距离表示将所述访存对象从内存搬运至缓存的提前量;
根据所述预取距离生成预取指令。
14.根据权利要求13所述的装置,其特征在于,所述编译单元具体用于:
获取第一循环的控制流图CFG,所述第一循环是包括所述满足第一条件的源码的最内层循环,所述第一循环的CFG包括多个基本块BB和多条有向边,所述多条有向边用于指示所述多个BB之间的执行顺序;
确定所述多条中的每条有向边的执行概率;
根据所述每条有向边的执行概率计算所述第一循环的单次循环时间;
根据所述第一循环的单次循环时间计算所述满足第一条件的源码的预取距离。
15.根据权利要求14所述的装置,其特征在于,所述编译单元具体用于:
解析所述第一配置信息,确定所述程序源码中满足第二条件的函数,其中,所述第二条件为函数的缓存缺失次数大于第二阈值,所述函数的缓存缺失次数为所述函数包括的源码的缓存缺失次数之和;
确定所述满足第二条件的函数中的第一循环,所述第一循环为所述满足第二条件的函数中的最内层循环,且所述第一循环迭代的执行概率大于第三阈值;
构建所述第一循环的CFG。
16.根据权利要求13或14所述的装置,其特征在于,所述编译单元具体用于:
确定与所述第一循环的循环层无关的BB和有向边;
对所述无关的BB和有向边进行裁剪,得到第二循环;
根据所述每条有向边的执行概率计算所述第二循环中的各个BB的执行概率,得到所述第一循环的单次循环时间,所述第一循环的单次循环时间为所述各个BB的执行概率与所述各个BB的执行时间的乘积之和。
17.根据权利要求11-15所述的装置,其特征在于,所述编译单元还用于:
获取所述程序源码中的多个结构体,以及所述多个结构体中的成员;
所述编译单元还用于:
解析所述第一配置信息,确定所述多个结构体中满足第三条件的结构体,所述第三条件包括:结构体中的各个成员在使用上不存在顺序依赖,且结构体的缓存缺失次数大于第四阈值;
对所述满足第三条件的结构体中的成员的排序进行调整,得到新的结构体;
利用所述新的结构体代替所述满足第三条件的结构体。
18.根据权利要求17所述的装置,其特征在于,所述每个结构体包括所述程序源码中的源码,所述编译单元具体用于:
解析所述第一配置信息,确定所述可执行指令关联的源码对应的缓存缺失次数;
根据所述可执行指令关联的源码对应的缓存缺失次数,获得所述每个结构体的缓存缺失次数,从而确定所述满足第三条件的结构体。
19.根据权利要求17或18所述的装置,其特征在于,所述编译单元具体用于:
获取所述满足第三条件的结构体中多个成员的缓存缺失次数;
根据所述多个成员的缓存缺失次数的大小对所述多个成员的排序进行调整。
20.根据权利要求19所述的装置,其特征在于,所述编译单元具体用于:
获取所述多个成员中每个成员的大小;
根据所述每个成员的大小以及所述每个成员的缓存缺失次数,对所述多个成员的排序进行调整。
21.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述存储器存储计算机指令,所述处理器执行所述计算机指令,以使所述计算设备执行前述权利要求1-10任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算设备执行时,所述计算设备执行前述权利要求1-10任一项权利要求所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876986.9A CN115686522A (zh) | 2021-07-31 | 2021-07-31 | 一种程序源码的编译优化方法及相关产品 |
EP22851950.0A EP4369207A4 (en) | 2021-07-31 | 2022-07-25 | COMPILATION OPTIMIZATION METHODS FOR PROGRAM SOURCE CODE AND RELATED PRODUCT |
PCT/CN2022/107678 WO2023011236A1 (zh) | 2021-07-31 | 2022-07-25 | 一种程序源码的编译优化方法及相关产品 |
US18/427,128 US20240168738A1 (en) | 2021-07-31 | 2024-01-30 | Compilation Optimization Method for Program Source Code and Related Product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876986.9A CN115686522A (zh) | 2021-07-31 | 2021-07-31 | 一种程序源码的编译优化方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115686522A true CN115686522A (zh) | 2023-02-03 |
Family
ID=85059891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110876986.9A Pending CN115686522A (zh) | 2021-07-31 | 2021-07-31 | 一种程序源码的编译优化方法及相关产品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240168738A1 (zh) |
EP (1) | EP4369207A4 (zh) |
CN (1) | CN115686522A (zh) |
WO (1) | WO2023011236A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991428A (zh) * | 2023-09-28 | 2023-11-03 | 飞腾信息技术有限公司 | 一种编译方法、装置、编译器、计算设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483734B (zh) * | 2023-06-16 | 2024-03-19 | 荣耀终端有限公司 | 一种基于编译器的插桩方法、系统及相关电子设备 |
CN118012788B (zh) * | 2024-04-09 | 2024-06-28 | 北京壁仞科技开发有限公司 | 数据处理器、数据处理方法、电子设备和存储介质 |
CN118550549A (zh) * | 2024-07-30 | 2024-08-27 | 浙江大华技术股份有限公司 | 软件编译优化方法、设备以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933643A (en) * | 1997-04-17 | 1999-08-03 | Hewlett Packard Company | Profiler driven data prefetching optimization where code generation not performed for loops |
JP3156761B2 (ja) * | 1997-06-04 | 2001-04-16 | 日本電気株式会社 | ノンブロッキングキャッシュ対応のコードスケジューリング方式及びそのプログラムを記録した記憶媒体 |
US6951015B2 (en) * | 2002-05-30 | 2005-09-27 | Hewlett-Packard Development Company, L.P. | Prefetch insertion by correlation of cache misses and previously executed instructions |
US7124276B2 (en) * | 2003-04-14 | 2006-10-17 | Broadcom Corporation | Optimizing cache efficiency within application software |
CN108073525B (zh) * | 2016-11-08 | 2021-10-19 | 华为技术有限公司 | 预取数据的方法、装置和系统 |
CN116126333A (zh) * | 2018-06-20 | 2023-05-16 | 华为技术有限公司 | 自动化编译的系统和方法 |
-
2021
- 2021-07-31 CN CN202110876986.9A patent/CN115686522A/zh active Pending
-
2022
- 2022-07-25 WO PCT/CN2022/107678 patent/WO2023011236A1/zh active Application Filing
- 2022-07-25 EP EP22851950.0A patent/EP4369207A4/en active Pending
-
2024
- 2024-01-30 US US18/427,128 patent/US20240168738A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991428A (zh) * | 2023-09-28 | 2023-11-03 | 飞腾信息技术有限公司 | 一种编译方法、装置、编译器、计算设备及存储介质 |
CN116991428B (zh) * | 2023-09-28 | 2023-12-15 | 飞腾信息技术有限公司 | 一种编译方法、装置、编译器、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023011236A1 (zh) | 2023-02-09 |
US20240168738A1 (en) | 2024-05-23 |
EP4369207A4 (en) | 2024-10-09 |
EP4369207A1 (en) | 2024-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115686522A (zh) | 一种程序源码的编译优化方法及相关产品 | |
US9798528B2 (en) | Software solution for cooperative memory-side and processor-side data prefetching | |
US10949200B2 (en) | Methods and apparatus for executing data-dependent threads in parallel | |
US9027010B2 (en) | Runtime optimization using meta data for dynamic programming languages | |
US7401329B2 (en) | Compiling computer programs to exploit parallelism without exceeding available processing resources | |
US8677336B2 (en) | Block count based procedure layout and splitting | |
JP6331865B2 (ja) | プログラム最適化方法,プログラム最適化プログラム及びプログラム最適化装置 | |
US11636122B2 (en) | Method and apparatus for data mining from core traces | |
US7243195B2 (en) | Software managed cache optimization system and method for multi-processing systems | |
US7480768B2 (en) | Apparatus, systems and methods to reduce access to shared data storage | |
US20070150660A1 (en) | Inserting prefetch instructions based on hardware monitoring | |
EP3144814B1 (en) | Method and apparatus for generating a profile of a target program | |
US8359435B2 (en) | Optimization of software instruction cache by line re-ordering | |
CN107844380A (zh) | 一种支持指令预取的多核缓存wcet分析方法 | |
Landgraf et al. | Memory Efficient Scheduling of Query Pipeline Execution. | |
US6574713B1 (en) | Heuristic for identifying loads guaranteed to hit in processor cache | |
Youn et al. | A spill data aware memory assignment technique for improving power consumption of multimedia memory systems | |
US20220222177A1 (en) | Systems, apparatus, articles of manufacture, and methods for improved data transfer for heterogeneous programs | |
US9652208B2 (en) | Compiler and method for global-scope basic-block reordering | |
US20090037161A1 (en) | Methods for improved simulation of integrated circuit designs | |
CN118227446B (zh) | 高速缓存性能评估方法、装置、电子设备及可读存储介质 | |
Zhang et al. | Locality‐protected cache allocation scheme with low overhead on GPUs | |
Boström | Store prefetch policies: Analysis and new proposals | |
CN102955712A (zh) | 提供关联关系并执行代码优化的方法和装置 | |
Schönauer | Impact of garbage collection policies on load stalls on AArch64 in OpenJ9 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |