CN111045800A

CN111045800A - 一种基于短作业优先的优化gpu性能的方法及系统

Info

Publication number: CN111045800A
Application number: CN201911110570.5A
Authority: CN
Inventors: 魏雄; 胡倩; 王秋娴; 闫坤
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-04-21

Abstract

本发明涉及一种基于短作业优先的优化GPU性能的方法及系统，本发明通过首先对与要执行的函数，通过预处理，获取它们的执行时间，按照预执行时间递增对这些线程进行排序，提高系统响应时间。同时在线程队列中加入算子，在有新线程加入时，利用算子对线程队列进行重新排序，避免出现预执行时间长线程长期得不到响应问题。本发明的目的是使得在相同时间内，完成的作业次数最多，从而优化系统性能。与其他的GPU优化性能方法相比，本发明在提高系统吞吐量方面有明显的优势，本发明避免了长作业长时间得不到响应的问题，通过设置算子，可以提升长作业执行的顺序位置。

Description

一种基于短作业优先的优化GPU性能的方法及系统

技术领域

本发明属于GPU线程调度领域，特别涉及一种基于短作业优先的优化GPU性能的方法及系统。

背景技术

随着科技的进步，技术的发展，CPU作为计算机的处理核心，其主要功能在于控制逻辑运算、任务调度，而非大量数据的处理，而GPU最开始作为图形处理程序，功能单一，控制逻辑简单，芯片资源主要用于提升计算能力。近几年逐步发展，GPU在其他非图形处理方面显示出惊人的能力，例如人工智能，大数据分析等等，计算能力被不断地挖掘，也在不断的提升。GPU以其强大的计算能力和日益完善的软件环境吸引了众多来自非图形计算领域的学者的关注，在高性能计算、桌面计算甚至嵌入式计算领域都得到了广泛的应用。

随着GPU越来越通用，越来越多的应用程序需要GPU提供计算能力。然而，非图形应用程序对GPU的优化程度较低，从而导致芯片内资源的利用不足。新一代GPU体系架构表明，其集成的计算资源越来越多，遗憾的是，由于资源的利用率较低，GPU强大的计算能力并没有完全显现出来，同时由于GPU缺乏适当的体系架构来支持共享，需要软件或者硬件或者软硬件结合的方法，来使用其计算资源，由于当中的复杂性，目前的一些方法还是不能显示出GPU强大的能力。因此有关GPU性能优化的研究也得到了学术界和业界的持续关注。

大数据时代的到来使得计算任务加重，面对不同应用的不同资源需求，GPU的资源单核未充分利用。目前主要的调度算法有先到先服务(FCFS)算法、轮询(RR)算法、优先级调度(PSA)算法和最短作业优先(SJF)算法。为了解决GPU资源利用率不足的问题，提出了并发内核执行(CKE)来支持在GPU上并发运行多个内核。线程级并行性是一个很好的解决方向，但是大量并发线程会导致严重的带宽问题，甚至导致内存争用以及堵塞，而无法及时处理的内存请求有可能会导致流水线暂停，以致降低整体性能。多道程序设计也是为了让更多的应用在GPU内核上执行，提高作业处理速度以及效率，从而提高性能，但是多个应用在GPU中同一个SM上执行，有可能会进入死锁的状态，降低性能。针对GPU优化性能的方法可以分为以下几种：(1)通过对GPU片上资源的管理提高性能；(2)GPU多道程序设计；(3)缓存调度。

1.对GPU片上资源的管理

在CPU中，通过控制每个线程的空中指令数，可以很容易地调整物理寄存器和缓存的比例。然而，在GPU中，这种动态控制不可用，因为每个CTA一次获取其所有资源。一旦将CTA分配给SM，则必须静态分配寄存器文件和共享内存，并且在完成CTA之前不能释放。

在GPU的每个SM中，计算资源包括ALU(算术逻辑单元)、SFU(特殊函数单元)以及寄存器，片上内存资源包括只读纹理缓存和常量缓存、L1数据缓存(D-cache)和共享内存。因此，在GPU中，分配时间资源调度更为重要，更关注的是寄存器文件和共享内存分区，而不是缓存。通过对GPU片上资源的管理，更好的为所执行的kernel分配合理的资源。此外，由于GPU的一级缓存由数千个线程共享，因此GPU具有更小的一级缓存，命中率更低。

2.GPU上的多道程序设计

近年来，一些研究显示了硬件支持多道程序设计的新趋势。HSA基金会规范了硬件和软件，以在异构系统体系结构上运行多个应用程序。在规范中，它们还包括在同一个GPU中执行多个应用程序，该GPU使用多个同时应用程序队列，这些队列类似于Nvidia的Hyper-Q。以软件为中心的多道程序设计方法通过重构内核和重写应用程序代码可以显著提高了并发性和性能。但在许多情况下，修改每个应用程序以提高并发性可能是不可行的。而且，一旦内核被切片，切片后的内核的大小就不能在运行时进行调整，这可能会导致另一个效率低下的问题。

在GPU中，多线程被用来隐藏长时间的延迟并实现高吞吐量。在出现内存延迟的时候，尽可能完成计算指令，以计算操作掩盖内存的延迟，同时提高系统的吞吐量。在出现长作业时，从另一方面说，尽可能的提高作业的完成次数，也可提高系统的吞吐量。因此，对作业进行预处理，预估短作业的完成时间变得极为重要。另一方面，由于短作业优先调度算法本身的缺陷，会导致长作业长时间得不到响应，出现线程饿死的状态。线程饿死的出现会降低系统吞吐量，降低整体性能。

3.缓存调度

由于GPU复杂的存储层次结构导致的高访存请求延迟和低带宽问题显著地损害了应用程序的性能。为了缓解高访存请求延迟和低带宽问题，GPU引进了L1数据(L1 Data，L1D)缓存。L1D是非常重要的资源，目的是减少GPU复杂的存储层次结构导致的性能损失。

缓存调度策略通过分析缓存请求的数据访存行为问题，提出优化策略，从而提高GPU缓存的性能。GPU SIMT的执行模式倾向于运行尽可能多的线程以保证充分利用GPU的并行资源，然而，大量的线程并行执行导致的缓存竞争问题往往会降低性能提升。缓存竞争问题在内存访问模式不规则的应用程序上影响较大。近年来的研究缓存绕过方法是解决缓存竞争问题的有效方法。

衡量调度算法的准则包括多个方面，第一是公平性，调度算法在选择下一个运行的线程时，要考虑到同等地位的线程必须有相同的机会获得处理器执行权；第二是有效利用时间，只要有进程或线程还在等待执行，就不能让计算核处于空闲状态。另外，不同类型的操作系统对于调度算法会有不同的需求。

发明内容

本发明的所要解决的技术问题是提供一种基于短作业优先的优化GPU性能的方法及系统，本发明以线程调度为核心，提高线程调度次数，提升系统吞吐量来优化GPU性能。基于SJF算法，对kernel预执行，再通过设置算子，提升等待时间长的线程位置。

本发明解决上述技术问题的技术方案如下：

基于短作业优先的优化GPU性能的方法，包括以下步骤：

步骤1、对于所有待执行的线程进行预处理，获得每个待执行线程的执行时间,设第i个待执行线程的执行时间为t_i，得到所有共M个待执行线程的执行时间t₁-t_M；

步骤2、按从小到大的顺序对t₁-t_M进行排序，并根据t₁-t_M的顺序将t₁-t_M对应的线程进行排序，得到队列Q；

步骤3、按顺序执行队列Q中的线程，直至队列Q中所有线程执行完毕；

在执行过程中，执行每一个线程之前，均需判断是否有新线程进入，若判断结果为是，则对根据新线程对队列Q中剩余未执行的线程进行更新，若判断结果为否，则保持队列Q中线程的顺序。

进一步的，所述步骤3中，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间t_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个T_p待执行线程的新的执行时间为执行时间为t_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和T_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

进一步的，所述k小于1。

基于短作业优先的优化GPU性能的系统，用于对于所有待执行的线程进行预处理，获得每个待执行线程的执行时间,设第i个待执行线程的执行时间为T_i，得到所有共M个待执行线程的执行时间t₁-t_M；

并按从小到大的顺序对t₁-t_M进行排序，并根据t₁-t_M的顺序将t₁-t_M对应的线程进行排序，得到队列Q；

再按顺序执行队列Q中的线程，直至队列Q中所有线程执行完毕；

进一步的，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间t_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个t_p待执行线程的新的执行时间为执行时间为t_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和t_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

进一步的，所述k小于1。

本发明的有益效果为：1、本发明在提高系统吞吐量方面有明显的优势；2、本发明避免了长作业长时间得不到调度的情况，通过设置算子，可以提升长作业执行的顺序位置。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于短作业优先的优化GPU性能的方法，包括以下步骤：

所述步骤3中，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间t_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个t_p待执行线程的新的执行时间为执行时间为T_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和t_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

实际操作中，k可以按经验设定，所述k小于1，本实施例中，k＝0.75。

一种基于短作业优先的优化GPU性能的系统，用于对于所有待执行的线程进行预处理，获得每个待执行线程的执行时间,设第i个待执行线程的执行时间为t_i，得到所有共M个待执行线程的执行时间t₁-t_M；

所述的基于短作业优先的优化GPU性能的系统，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间T_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个t_p待执行线程的新的执行时间为执行时间为t_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和t_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于短作业优先的优化GPU性能的方法，其特征在于，包括以下步骤：

步骤1、对于所有待执行的线程进行预处理，获得每个待执行线程的执行时间,设第i个待执行线程的执行时间为T_i；

步骤2、按执行时间从小到大的顺序对线程进行排序，并根据执行时间长短对线程进行排序，得到队列Q；

2.根据权利要求1所述的基于短作业优先的优化GPU性能的方法，其特征在于，所述步骤3中，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间t_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个t_p待执行线程的新的执行时间为执行时间为t_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和t_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

3.根据权利要求1所述的基于短作业优先的优化GPU性能的方法，其特征在于，所述k小于1。

4.一种基于短作业优先的优化GPU性能的系统，其特征在于，用于对于所有待执行的线程进行预处理，获得每个待执行线程的执行时间,设第i个待执行线程的执行时间为t_i，得到所有共M个待执行线程的执行时间t₁-t_M；

5.根据权利要求4所述的基于短作业优先的优化GPU性能的系统，其特征在于，根据新线程对队列Q进行更新的方法为：计算得到新线程的执行时间t_M+1，将队列Q中剩余未执行线程的执行时间乘以算子k，得到新的执行时间，即第p个t_p待执行线程的新的执行时间为执行时间为t_p’＝t_p*k，所述k为预先设定的算子，设队列Q中剩余未执行的线程为第p-第M个，则按从小到大的顺序对t_p’-t_M’和t_M+1进行排序，并根据t_p’-t_M’和t_M+1的顺序将t_p’-t_M’和t_M+1对应的线程进行排序，将新线程加入队列Q中剩余未执行的线程中，按照t_p’-t_M’和t_M+1的顺序对队列Q中剩余未执行的线程顺序进行更新，按顺序继续执行队列Q中剩余未执行的线程。

6.根据权利要求4所述的基于短作业优先的优化GPU性能的系统，其特征在于，所述k小于1。