CN116578425B

CN116578425B - 一种基于光栅化的负载均衡方法及系统

Info

Publication number: CN116578425B
Application number: CN202310844455.0A
Authority: CN
Inventors: 胡婷
Original assignee: Muxi Integrated Circuit Shanghai Co ltd
Current assignee: Muxi Integrated Circuit Shanghai Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-09-22
Anticipated expiration: 2043-07-11
Also published as: CN116578425A

Abstract

本发明涉及光栅化技术领域，特别是涉及一种基于光栅化的负载均衡方法及系统，其通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel，每个kernel的每层具有w个tile，通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置，根据回溯法遍历所有层的所有候选配置，得到同时满足层均衡条件和合法约束条件的候选配置序列集合，该方法通过设置层均衡约束条件和合法约束条件，能够得到所有满足条件的均衡配置，使得到的负载均衡的结果更加完备，同时由于在遍历的过程中加入了层均衡条件和合法约束条件，使得在获取候选配置序列集合的效率更高。

Description

一种基于光栅化的负载均衡方法及系统

技术领域

本发明涉及光栅化技术领域，特别是涉及一种基于光栅化的负载均衡方法及系统。

背景技术

光栅化是把顶点数据转换为片元的过程，具有将图转化为一个个栅格组成的图像的作用。在光栅化的过程中，会利用两个光栅化处理模块并行处理一个中心核kernel，其中每个kernel包括多个基本单元tile，每个光栅化处理模块包括多个计算单元。GPU将每个tile分配给光栅化处理模块中的一个计算单元进行处理。若随机给每个tile基本单元分配计算单元，会出现将处理同一三角形的连续的多个tile配置给同一个光栅化处理模块中的计算单元，另一个光栅化处理模块中的计算单元闲置，进而导致负载配置不均衡。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种基于光栅化的负载均衡方法，所述方法包括：

S100，获取第一光栅化处理模块中m个第一计算单元和第二光栅化处理模块中m个第二计算单元的配比r:c，r≤m且c≤m；提取r和c之间的公约数得到互质的r₀和c₀，根据 r₀和c₀将显示区域划分为K个长宽均为w=r₀+c₀的中心核kernel，其中，第k个kernel包括w层，每层具有w个基本单元tile，1≤k≤K。

S200，根据每个tile可配置的第一标签或第二标签，获取每层w个tile可配置第一计算单元和第二计算单元的I种候选配置；其中，第一标签为将tile配置给第一计算单元处理，第二标签为将tile配置给第二计算单元处理。

S300，通过回溯法遍历M层的所有候选配置，在层均衡条件和合法约束条件的约束下，得到满足条件的H个候选配置序列集合CC={CC₁,CC₂,…,CC_i,…,CC_H}，CC_i={CC_i,1,CC_i,2,…,CC_i,m,…,CC_i,M}，其中CC_i为层均衡条件和合法约束条件的第i个候选配置序列，CC_i,m为CC_i中第m层的候选配置，m的取值范围为1到M。

其中，层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足：1≤cont0≤thr且1≤cont1≤thr，thr为预设连续阈值且满足1≤thr≤w-1。

其中，合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足：used0≤w×r且used1≤w×c，且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。

此外，本发明实施例还提供了一种基于光栅化的负载均衡系统，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述基于光栅化的负载均衡方法。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种基于光栅化的负载均衡方法及系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供的一种基于光栅化的负载均衡方法及系统，其通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel，每个kernel的每层具有w个tile，通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置，根据回溯法遍历所有层的所有候选配置，得到同时满足层均衡条件和合法约束条件的候选配置序列集合，该方法巧妙的将每层作为回溯遍历的一个节点，将每层的候选配置作为节点可选择的路径，通过设置层均衡约束条件和合法约束条件，能够得到所有满足条件的均衡配置，使得到的负载均衡的结果更加完备。同时由于在遍历的过程中加入了层均衡条件和合法约束条件，使得在获取候选配置序列集合的效率更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于光栅化的负载均衡方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了一种基于光栅化的负载均衡方法流程图，所述方法包括：

需要说明的是，计算单元为GPU中的ALU。tile配置的形状由driver决定，driver配置第一光栅化处理模块和第二光栅化处理模块分别使用的计算单元ALU的比例。其中r:c即为driver配置的比例。

作为一个种优选实施例，候选配置为二进制数表示的配置。

其中，当tile配置第一计算单元进行处理时，该tile对应的第一标签为0；同理，当配置第二光栅化处理单元进行处理时，该tile的第二标签为1。也即由于每层包括w个tile，每个tile可配置标签为0或者1，因此每层的候选配置共计包括2^w个。作为一个示例，在中心核kernel中每层包括7个tile，第1层中的tile全部分配给第一光栅化处理单元中的第一计算单元处理，则第一层的候选配置对应的二进制数为“0000000”，若第一层中的第4个tile被分配给第二光栅化处理单元中的第二计算单元处理，则第一层的候选配置对应的二进制数为“0001000”，以此类推，获取每层对应的所有可能的配置组合，所有可能的配置组合为I=2⁷种候选配置。

S300，通过回溯法遍历M层的所有候选配置，在层均衡条件和合法约束条件的约束下，得到满足条件的H个候选配置序列集合CC={CC₁,CC₂,…,CC_i,…,CC_H}，CC_i={CC_i,1,CC_i,2,…,CC_i,m,…,CC_i,M}，其中CC_i为满足层均衡条件和合法约束条件的第i个候选配置序列，CC_i,m为CC_i中第m层的候选配置，m的取值范围为1到M。

具体的，解空间树的根节点为第一层的I种候选配置，I种候选配置的二进制数对应从0开始依次加1连续的I个十进制数的集合；解空间树中的任意一个第二层节点与根节点相同，对应第二层的I种候选配置，根节点到第二层节点的路径为满足层均衡条件和合法约束条件的第一层的候选配置；同理，解空间树中的任意一个第三层节点为第三层对应的I种候选配置，第二层节点到第三层节点的路径为满足层均衡条件和合法约束条件的第二层的候选配置，此时得到的路径为第一、二层的候选配置；依次类推，得到解空间树中所有路径为M层的候选配置。其中层均衡条件和合法约束条件具体为：

进一步，层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足：1≤cont0≤thr且1≤cont1≤thr，thr为预设连续阈值且满足1≤thr≤w-1。

其中，thr为用户指定的阈值，也可以是默认的初始阈值，默认的初始阈值为w-1。

可以理解的是，层均衡条件能够剪掉同一层中不符合均衡配置的候选配置，保留符合均衡配置的候选配置，减少计算复杂度，提高遍历效率。

作为一个优选实施例，判断第t个候选配置是否满足层均衡条件步骤为：当第t个候选配置中具有的L组连续出现的第一标签时，判断第l组中第一标签连续出现的数量cont0是否小于等于thr，若是，则将cont0清零；当第t个候选配置中具有的L组连续出现的第二标签时，判断第l组中第二标签连续出现的数量cont1是否小于等于thr，若是，则将cont1清零，1≤l≤L。例如，候选配置为“0001000”，其中连续出现的第一标签包括两组，前后两组均为连续出现3次，在对第一组计数结束后cont0小于thr时，则将cont0置为0，然后再对第二组进行再次计数，以此类推。

进一步，合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足：used0≤w×r且used1≤w×c，且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。

需要说明的是，used0为候选配置序列中第一标签出现的次数，不同于第一标签连续出现的数量，作为一个示例，候选配置为“0001000”，则第一标签出现的次数为6，第一标签连续出现的数量为3；同理used1为候选配置序列中1出现的次数。合法约束条件能够剪掉已遍历的m层候选配置序列中0或者1分配过多导致剩余层不可能达到均衡配置条件的候选配置序列，减少计算复杂度，提高遍历效率。

具体的，S300进一步包括：

S320，当遍历第m层对应的第t个候选配置且m＜M时，判断第t个候选配置是否同时满足层均衡条件和合法约束条件，若满足，则分别计算第t个候选配置中第一标签和第二标签出现的次数，根据第t个候选配置中第一标签出现的次数更新used0，同时根据第t个候选配置中第二标签出现的次数更新used1；将第t个候选配置放入CC_i中。

其中，对于不满足层均衡条件和/或合法约束条件的候选配置，不在进行后续的处理，减少计算复杂度。

需要说明的是，对每层的候选配置进行遍历时，从t=0开始遍历，t＜I为遍历的终止条件，每次遍历的步长为1。

可以理解的是，在遍历到第m层时，CC_i中具有从第1层的根节点到第m层节点的m个配置配置构成的候选配置序列。

作为一个优选实施例，更新used0的步骤为将更新前的used0与第t个候选配置中第一标签出现的次数相加得到更新后的used0。同理，更新used1。

S340，通过步骤S320对第m+1层对应的所有候选配置进行遍历；当遍历至第M层时，则判断CC_i是否符合列均衡条件，若符合，则得到满足层均衡条件和合法约束条件的候选配置序列。

需要说明的是，每层的遍历过程相同，当遍历至M层时，递归结束，得到符合均衡条件的候选配置序列。

作为一个优选实施例，列均衡条件为CC_i中M个候选配置对应的二进制数的相同列满足：1≤row0≤thr且1≤row1≤thr，其中row0为每列中第一标签连续出现的次数，row1为每列中第二标签连续出现的次数。需要说明的是，CC_i中对应的M个候选配置对应到kernel中，按照CC_i中的顺序依次对应每层的候选配置，kernel中的每列tile与二进制数的相应列对应，当M个二进制数的每列满足列均衡条件时，则CC_i为满足负载均衡条件的候选配置序列。

通过步骤S310-330得到所有满足负载均衡条件的候选配置序列。

优选的，在在芯片验证技术领域，需要给待验设计和参考模型相同的激励，并将待验设计的输出结果和参考模型进行比对，若待验设计的输出与参考模型的输出结果相同，则待验设计的验证通过，否则不通过。因此，本发明实施例还包括：S400，将CC分别输入待验设计和参考模型，验证输出结果是否一致，若一致则待验设计的验证通过，否则验证失败。

可选的，待验设计为Verilog硬件描述语言实现的电路模块。

其中，参考模型用于模拟待验设计的行为，并给出相应的参考结果，将参考结果与待验设计的输出结果相比对，进而判断待验设计的功能是否正确。

可选的，参考模型为通过高级语言实现的模型。

综上所述，本发明实施例提供了一种基于光栅化的负载均衡方法，通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel，每个kernel的每层具有w个tile，通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置，根据回溯法遍历所有层的所有候选配置，得到同时满足层均衡条件和合法约束条件的候选配置序列集合，该方法巧妙的将每层作为回溯遍历的一个节点，将每层的候选配置作为节点可选择的路径，通过设置层均衡约束条件和合法约束条件，能够得到所有满足条件的均衡配置，使得到的负载均衡的结果更加完备。同时由于在遍历的过程中加入了层均衡条件和合法约束条件，使得在获取候选配置序列集合的效率更高。

基于与上述方法实施例相同的发明构思，本发明还提供了一种基于光栅化的负载均衡系统，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现基于光栅化的负载均衡方法，其中基于光栅化的负载均衡方法已经在上述实施例中详细说明，不再赘述。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于光栅化的负载均衡方法，其特征在于，所述方法包括：

S100，获取第一光栅化处理模块中m个第一计算单元和第二光栅化处理模块中m个第二计算单元的使用数量配比r:c，r≤m且c≤m；提取r和c之间的公约数得到互质的r₀和c₀，根据r₀和c₀将显示区域划分为K个长宽均为w=r₀+c₀的中心核kernel，其中，第k个kernel包括w层，每层具有w个基本单元tile，1≤k≤K；

其中，计算单元为GPU中的ALU；tile配置的形状由driver决定，driver配置第一光栅化处理模块和第二光栅化处理模块分别使用的计算单元ALU的比例；其中使用数量配比r:c为driver配置的比例；

S200，根据每个tile可配置的第一标签或第二标签，获取每层w个tile可配置第一计算单元和第二计算单元的I种候选配置；其中，第一标签为将tile配置给第一计算单元处理，第二标签为将tile配置给第二计算单元处理；

S300，通过回溯法遍历M层的所有候选配置，在层均衡条件和合法约束条件的约束下，得到满足条件的H个候选配置序列集合CC={CC₁,CC₂,…,CC_i,…,CC_H}，CC_i={CC_i,1,CC_i,2,…,CC_i,m,…,CC_i,M}，其中CC_i为满足层均衡条件和合法约束条件的第i个候选配置序列，CC_i,m为CC_i中第m层的候选配置，m的取值范围为1到M；

其中，层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足：1≤cont0≤thr且1≤cont1≤thr，thr为预设连续阈值且满足1≤thr≤w-1；

合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足：used0≤w×r且used1≤w×c，且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。

2.根据权利要求1所述的方法，其特征在于，S300进一步包括：

S320，当遍历第m层对应的第t个候选配置且m＜M时，判断第t个候选配置是否同时满足层均衡条件和合法约束条件，若满足，则分别计算第t个候选配置中第一标签和第二标签出现的次数，根据第t个候选配置中第一标签出现的次数更新used0，同时根据第t个候选配置中第二标签出现的次数更新used1；将第t个候选配置放入CC_i中；

3.根据权利要求2所述的方法，其特征在于，所述列均衡条件为CC_i中M个候选配置对应的二进制数的相同列满足：1≤row0≤thr且1≤row1≤thr，其中row0为每列中第一标签连续出现的次数，row1为每列中第二标签连续出现的次数。

4.根据权利要求2所述的方法，其特征在于，更新used0的步骤为将更新前的used0与第t个候选配置中第一标签出现的次数相加得到更新后的used0。

5.根据权利要求1所述的方法，其特征在于，S200中的候选配置为二进制数表示的配置。

6.根据权利要求1所述的方法，其特征在于，判断第t个候选配置是否满足层均衡条件步骤为：当第t个候选配置中具有的L组连续出现的第一标签时，判断第l组中第一标签连续出现的数量cont0是否小于等于thr，若是，则将cont0清零；当第t个候选配置中具有的L组连续出现的第二标签时，判断第l组中第二标签连续出现的数量cont1是否小于等于thr，若是，则将cont1清零，1≤l≤L。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

S400，将CC分别输入待验设计和参考模型，验证输出结果是否一致，若一致则待验设计的验证通过，否则验证失败。

8.一种基于光栅化的负载均衡系统，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的方法。