CN117632520B

CN117632520B - 基于申威众核处理器的主从核监测交互的计算量调度方法

Info

Publication number: CN117632520B
Application number: CN202410100805.7A
Authority: CN
Inventors: 刘弢; 李玉辉; 任增辉; 秦晗; 郭莹
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-05-17
Anticipated expiration: 2044-01-25
Also published as: CN117632520A

Abstract

本发明涉及基于申威众核处理器的主从核监测交互的计算量调度方法，属于电子信息技术领域。包括：在计算量传输过程中，通过从核状态监测器SW‑CSM实现主核对从核状态的判断与监测；通过主从核协作交互器MCCI实现将计算量均匀分配到每个从核中，完成主从核监测交互的计算量调度。本发明根据单个核组内的资源配置情况，针对因计算量不同而导致的负载不均衡问题，解决了主从核交互过程中执行程序段中的计算量分配问题。该方法可以快捷、便利地实现申威众核处理器主从核交互过程中计算量的均匀分配问题，有效的降低程序执行的时间，从而提高应用程序的并行效率。该方法可以适用于申威系列众核处理器。

Description

基于申威众核处理器的主从核监测交互的计算量调度方法

技术领域

本发明涉及基于申威众核处理器的主从核监测交互的计算量调度方法，属于电子信息技术领域。

背景技术

高性能计算作为战略性、前沿性的高端技术，不仅是科技人才培养、创新体系建设的重要组成部分，同时也是竞争的战略目标。超级计算机代表了高性能计算系统的最先进水平，这不仅是科技能力在信息社会的重要体现，也是科技发展水平和综合国力的重要标志。超级计算机已开始建设和使用，为多个领域的科学计算应用软件提供了自主可控的并行计算平台，为各领域的数据模拟和科学研究提供了有力支持。

新一代高性能异构多核处理器SW26010pro的设计用于大规模下的线程和数据并行，并在并行工作负载上提供高性能计算能力。SW26010pro处理器包含6个核组，核组之间通过片上网络连接。与此同时，每个核组有65个核心，其中包括1个主核、64个从核和1个存储器，共计390核。64个从核通过8×8网格的形式排列。SW26010pro处理器的硬件架构如图1所示。SW26010pro处理器中从核阵列的架构如图2所示。

由于申威众核处理器架构的特殊性，在主核与从核交互的过程中，会出现每个从核所分配的计算量不同的情况，从而出现负载不均衡的问题，这就需要使用控制计算量的均匀分配的方法。

在主核与从核交互的过程中，对计算量的分配情况难以确定。由于计算量的分配是难以评估与界定的，这就导致每个从核所分配的计算量是不均匀、不统一的。对于计算量分配多的从核需要更多的时间完成并行程序的计算，从而会导致并行效率的下降；对于计算量分配少的从核所需更短的的时间，从而会导致资源的浪费。因此，由于计算量分配的难以界定，导致每个从核计算时间不确定性增加，从而会导致负载不均衡。

发明内容

针对现有技术的不足，本发明提供了一种基于新一代申威众核处理器的主从核监测与交互过程中计算量不同而导致负载不均衡的解决方法。

由上述情况可知，为了避免负载不均衡的问题，需要完成对于计算量的平均分配，在保证提高并行效率的同时，也要避免资源的浪费。因此，本发明根据单个核组内的资源配置情况，针对因计算量不同而导致的负载不均衡问题，解决了主从核交互过程中执行程序段中的计算量分配问题。该方法可以快捷、便利地实现申威众核处理器主从核交互过程中计算量的均匀分配问题，有效的降低程序执行的时间，从而提高应用程序的并行效率。该方法可以适用于申威系列众核处理器。

本发明的技术方案为：

基于申威众核处理器的主从核监测交互的计算量调度方法，包括：

在计算量传输过程中，通过从核状态监测器SW-CSM(Cpe Status Monitor) 实现主核对从核状态的判断与监测；

通过主从核协作交互器MCCI(Mpe-Cpe Collaborative Interactor)实现将计算量均匀分配到每个从核中，完成主从核监测交互的计算量调度。

根据本发明优选的，主核对从核状态的判断与监测，包括：根据从核号判断计算量的传输情况，实现由主存到本地局存的计算量传输。

根据本发明优选的，根据从核号判断计算量的传输情况，实现由主存到本地局存的计算量传输，包括：

从核状态的监测，包括：

在执行判断的过程中，主核根据计算量的传输情况将从核设置为三种状态变量：idle（空闲），busy（工作）和end（完成）；

在主核执行传输操作之前，对从核设置的三种状态进行检查并确保当前从核的状态为idle；在主核执行传输操作的过程中，更新从核的状态为busy，以体现对当前计算量的传输过程；在主核执行传输操作完毕后，再次对从核设置的三种状态进行检查并更新当前从核的状态为end；

待三种从核的状态变量均实现由idle→busy→end的周期过程后，则表示主核到从核计算量传输的结束；

主核对从核计算量的传输，包括：

通过异步的方式进行主核和从核阵列之间的计算量的传输，包括主核计算量的分配与从核计算量的获取；

主核计算量的分配，包括：主核根据从核的三种状态变量，在状态变量为idle时进行计算量的分配或资源的释放，在状态变量为end时结束计算量的传输过程；

从核计算量的获取，包括：从核在接收计算量的前处于被动的等待计算量的状态，在获取到主核分配的对应的计算量后，从核开始执行对应的计算操作，在计算完毕后判断对应的计算量操作是否完成，并更新自己的状态变量。

根据本发明优选的，根据应用程序的需求分为线程级交互模式与进程级交互模式。

根据应用程序的需求，主从核协作交互器MCCI包括线程级交互模式与进程级交互模式。

根据本发明优选的，线程级交互模式，包括：

单核组内由主核到从核计算量的分配过程中，确定从核执行状态为idle（空闲）后，通过主从核协作交互器MCCI控制的形式，以当前执行的计算量编号与总计算量的比较情况为基准，并设置目前执行的计算量编号大于总计算量时终止；

根据每个从核分配所得到计算量的平均情况设置对应的计算量平衡器k_amount，计算量平衡器k_amount为前一从核计算量的与后一从核计算量的比值；设置计算量平衡器k_amount的数值区间范围；当实际的k_amount小于计算量平衡器k_amount的数值区间范围时，加大下一从核的计算量传输；当实际的k_amount大于计算量平衡器k_amount的数值区间范围时，减少下一从核的计算量传输；当实际的k_amount在此区间范围内，继续后续从核计算的传输；

在单个从核完成相关的计算操作后，采用计算量更新器num_amount_set及时更新已完成计算量的计数与从核号，确保每个从核计算量均传输完毕；在判断所有计算量分配完毕后，以此确定该核组中所有从核执行完毕。

进一步优选的，计算量平衡器k_amount的数值区间范围为0.8~1.2。

根据本发明优选的，进程级交互模式，包括：

核组间的计算量的分配过程中，通过核组的主核上运行的进程来并行完成计算量的分配工作，在执行的过程中，计算量根据总体的分配情况分配到每个进程中，实现由进程级交互模式到线程级交互模式的转换，实现整个进程级交互模式。

进一步优选的，计算量根据总体的分配情况分配到每个进程中，包括：

进程级交互模式下，计算量的分配主要为核组间的进程级并行，其具体分配方式如下：

程序员以总计算量的需求以及应用程序并行编程框架提供的接口为依据，通过使用MPI进程号对每个进程所应分配的计算量进行预划分，并根据计算量的大小情况分为mpe_A、mpe_B、mpe_C三种划分规模以启用不同的从核组，由此来实现进程级计算量的传输工作；

程序员可根据自身需求定义进程级交互模式下三种规模mpe_A、mpe_B、mpe_C所启用的从核数组个数；

在进程级交互模式中，采用MCCI_athread_spawn进行从核组的启动工作，并采用MCCI_amount_allcoate( )进行进程级计算量的分配；

在进程级计算量分配结束后，开启由进程级交互模式到线程级交互模式的转换，并开启线程级交互模式的执行。

进一步优选的，通常情况下，mpe_A启用1个核组，mpe_B启用3个核组，mpe_C启用6个核组即全部核组。

根据本发明优选的，在进程级交互模式或线程级交互模式执行完毕后，确定计算量的遗漏情况，进行已完成计算量与总计算量的差值计算。在确定计算量无遗漏情况后，即可完成每个从核计算量的平均分配。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于申威众核处理器的主从核监测交互的计算量调度方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于申威众核处理器的主从核监测交互的计算量调度方法的步骤。

本发明的有益效果为：

本发明根据单个核组内的资源配置情况，针对因计算量不同而导致的负载不均衡问题，解决了主从核交互过程中执行程序段中的计算量分配问题。该方法可以快捷、便利地实现申威众核处理器主从核交互过程中计算量的均匀分配问题，有效的降低程序执行的时间，从而提高应用程序的并行效率。该方法可以适用于申威系列众核处理器。

附图说明

图1为SW26010pro处理器硬件架构示意图；

图2为SW26010pro处理器中从核阵列的架构示意图；

图3为计算量传输情况的判断过程示意图；

图4为线程级交互模式的实现过程示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

实施例2

根据实施例1所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其区别在于：

主核对从核状态的判断与监测，包括：根据从核号判断计算量的传输情况，实现由主存到本地局存的计算量传输。

根据从核号判断计算量的传输情况，实现由主存到本地局存的计算量传输，包括：

从核状态的监测，包括：

该监测过程主要体现在主核传输计算量到从核时，根据从核状态变量进行数据量的监测与更新的过程。在执行判断的过程中，主核根据计算量的传输情况将从核设置为三种状态变量：idle（空闲），busy（工作）和end（完成）；

待三种从核的状态变量均实现由idle→busy→end的周期过程后，则表示主核到从核计算量传输的结束；以1号从核的执行情况为例：当1号从核状态为idle时，启动主核对从核的计算量传输工作，同时将其状态更新为busy，并开始从核异步执行状态，在计算量传输完毕后，此时1号从核则被更新为end，即完成了由主核到1号从核计算量的传输工作。在1号从核计算量传输完毕后，会反馈相关信息告知自身的完成情况以实现主核的同步操作，并开启下一从核的计算量传输。其具体实施过程如图3所示。

主核对从核计算量的传输，包括：

从核计算量的获取，包括：从核在接收计算量的前处于被动的等待计算量的状态，在获取到主核分配的对应的计算量后，从核开始执行对应的计算操作，在计算完毕后判断对应的计算量操作是否完成，并更新自己的状态变量。在整个计算量传输的过程中，主核负责计算量的分配与资源释放，从核负责完成相关的计算任务与实时更新自身的状态变量。表1为从核状态监测器SW-CSM具体所需函数表。

表1

为了避免因计算量分配不均匀而导致的负载不均衡问题，本发明设计了主从核协作交互器MCCI(Mpe-Cpe Collaborative Interactor)。MCCI主要功能为使得计算量均匀分配到每个从核之中，根据应用程序的需求分为线程级交互模式与进程级交互模式。

线程级交互模式，包括：

根据每个从核分配所得到计算量的平均情况设置对应的计算量平衡器k_amount，计算量平衡器k_amount为前一从核计算量的与后一从核计算量的比值；k_amount的数值由程序员根据初始的总计算量total_amount决定，设置计算量平衡器k_amount的数值区间范围；当实际的k_amount小于计算量平衡器k_amount的数值区间范围时，加大下一从核的计算量传输；当实际的k_amount大于计算量平衡器k_amount的数值区间范围时，减少下一从核的计算量传输；当实际的k_amount在此区间范围内，继续后续从核计算的传输；

在单个从核完成相关的计算操作后，采用计算量更新器num_amount_set及时更新已完成计算量的计数与从核号，确保每个从核计算量均传输完毕；在判断所有计算量分配完毕后，以此确定该核组中所有从核执行完毕。上述过程可结束线程级交互模式。

计算量平衡器k_amount的数值区间范围为0.8~1.2。

具体步骤如图4所示，具体使用伪代码如下所示。

Input：

total_amount：计算量总数；

cur_amount_id:当前传输的计算量编号；

completed_amount:已传输完的计算量；

cpe_amount:每个从核所需处理的计算量；

k_amount:计算量平衡器；

cpe_id：从核编号

num_amount_set：计算量更新器

k_amount= cpe_i+1_ammount/cpe_i_amount

ifcur_amount_id<total_amountthen //判断程序的执行情况

cur_amount_id++

end if

ifcpe_amount_i+1/cpe_amount_i<=k_amountthen //判断单个从核计算量传输情况

completed_amount++

cpe_id= cpe_id+1

end if

for allcpe_iddo //分配每个从核所需处理的计算量

array[i].cpe.id=i；

array[i]. completed_amount= cpe_amount

end for

ifcompleted_amount= total_amountthen //判断计算量是否完全分配完成

completed

end if

进程级交互模式，包括：

计算量根据总体的分配情况分配到每个进程中，包括：

通常情况下，mpe_A启用1个核组，mpe_B启用3个核组，mpe_C启用6个核组即全部核组。

在进程级交互模式或线程级交互模式执行完毕后，确定计算量的遗漏情况，进行已完成计算量与总计算量的差值计算。在确定计算量无遗漏情况后，即可完成每个从核计算量的平均分配。表2为主从核协作交互器MCCI具体所需函数表。

表2

以上过程即可完成每个从核计算量的平均分配，以此解决因计算量分配不均而导致的负载不均衡问题。本发明能够快速、有效地解决主核与从核交互过程中的计算量分配问题，有效的缩短了运行时间，提升了应用程序的并行性能与加速效果。

稀疏矩阵向量乘SpMV(sparse matrix-vector multipliSW-CSMion)是科学与工程计算中一个非常重要的算法，其主要实现方式为把一个稀疏矩阵与一个向量相乘。作为一种通用的运算，该算法在科学应用、经济模型、数据挖掘、信息检索中广泛应用。稀疏矩阵向量乘SpMV程序在申威众核处理器中并行运行时，根据并行方法，采用6个计算结点以完成数据集的测试工作，以矩阵规模做为计算量的输入，并采用500、1000、2500、5000、10000五种计算量做为计算量的测试数量。表3为使用本发明方法测试的对比加速效果表。

表3

本发明将使用此算法的测试时间与未使用此算法的测试时间进行对比，该实验证明本发明方法具有明显的加速效果。本发明方法的实现，能够快速、有效地解决主核与从核交互过程中的计算量分配问题，有效的缩短了运行时间，提升了应用程序的并行性能与加速效果。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2所述的基于申威众核处理器的主从核监测交互的计算量调度方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1或2所述的基于申威众核处理器的主从核监测交互的计算量调度方法的步骤。

Claims

1.基于申威众核处理器的主从核监测交互的计算量调度方法，包括：

在计算量传输过程中，通过从核状态监测器SW-CSM实现主核对从核状态的判断与监测；

通过主从核协作交互器MCCI实现将计算量均匀分配到每个从核中，完成主从核监测交互的计算量调度；

主核对从核状态的判断与监测，包括：根据从核号判断计算量的传输情况，实现由主存到本地局存的计算量传输；

从核状态的监测，包括：

在执行判断的过程中，主核根据计算量的传输情况将从核设置为三种状态变量：idle，busy和end；

主核对从核计算量的传输，包括：

2.根据权利要求1所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，根据应用程序的需求，主从核协作交互器MCCI包括线程级交互模式与进程级交互模式。

3.根据权利要求2所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，线程级交互模式，包括：

单核组内由主核到从核计算量的分配过程中，确定从核执行状态为idle后，通过主从核协作交互器MCCI控制的形式，以当前执行的计算量编号与总计算量的比较情况为基准，并设置目前执行的计算量编号大于总计算量时终止；

4.根据权利要求3所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，计算量平衡器k_amount的数值区间范围为0.8～1.2。

5.根据权利要求2所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，进程级交互模式，包括：

6.根据权利要求5所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，计算量根据总体的分配情况分配到每个进程中，包括：

以总计算量的需求以及应用程序并行编程框架提供的接口为依据，通过使用MPI进程号对每个进程所应分配的计算量进行预划分，并根据计算量的大小情况分为mpe_A、mpe_B、mpe_C三种划分规模以启用不同的从核组，由此来实现进程级计算量的传输工作；

根据自身需求定义进程级交互模式下三种规模mpe_A、mpe_B、mpe_C所启用的从核数组个数；

在进程级交互模式中，采用MCCI_athread_spawn进行从核组的启动工作，并采用MCCI_amount_allcoate()进行进程级计算量的分配；

7.根据权利要求6所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，mpe_A启用1个核组，mpe_B启用3个核组，mpe_C启用6个核组即全部核组。

8.根据权利要求2-7任一所述的基于申威众核处理器的主从核监测交互的计算量调度方法，其特征在于，在进程级交互模式或线程级交互模式执行完毕后，确定计算量的遗漏情况，进行已完成计算量与总计算量的差值计算；在确定计算量无遗漏情况后，即完成每个从核计算量的平均分配。