CN116578425B - 一种基于光栅化的负载均衡方法及系统 - Google Patents
一种基于光栅化的负载均衡方法及系统 Download PDFInfo
- Publication number
- CN116578425B CN116578425B CN202310844455.0A CN202310844455A CN116578425B CN 116578425 B CN116578425 B CN 116578425B CN 202310844455 A CN202310844455 A CN 202310844455A CN 116578425 B CN116578425 B CN 116578425B
- Authority
- CN
- China
- Prior art keywords
- layer
- candidate configuration
- candidate
- configuration
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000013461 design Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 7
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明涉及光栅化技术领域,特别是涉及一种基于光栅化的负载均衡方法及系统,其通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel,每个kernel的每层具有w个tile,通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置,根据回溯法遍历所有层的所有候选配置,得到同时满足层均衡条件和合法约束条件的候选配置序列集合,该方法通过设置层均衡约束条件和合法约束条件,能够得到所有满足条件的均衡配置,使得到的负载均衡的结果更加完备,同时由于在遍历的过程中加入了层均衡条件和合法约束条件,使得在获取候选配置序列集合的效率更高。
Description
技术领域
本发明涉及光栅化技术领域,特别是涉及一种基于光栅化的负载均衡方法及系统。
背景技术
光栅化是把顶点数据转换为片元的过程,具有将图转化为一个个栅格组成的图像的作用。在光栅化的过程中,会利用两个光栅化处理模块并行处理一个中心核kernel,其中每个kernel包括多个基本单元tile,每个光栅化处理模块包括多个计算单元。GPU将每个tile分配给光栅化处理模块中的一个计算单元进行处理。若随机给每个tile基本单元分配计算单元,会出现将处理同一三角形的连续的多个tile配置给同一个光栅化处理模块中的计算单元,另一个光栅化处理模块中的计算单元闲置,进而导致负载配置不均衡。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种基于光栅化的负载均衡方法,所述方法包括:
S100,获取第一光栅化处理模块中m个第一计算单元和第二光栅化处理模块中m个第二计算单元的配比r:c,r≤m且c≤m;提取r和c之间的公约数得到互质的r0和c0,根据 r0和c0将显示区域划分为K个长宽均为w=r0+c0的中心核kernel,其中,第k个kernel包括w层,每层具有w个基本单元tile,1≤k≤K。
S200,根据每个tile可配置的第一标签或第二标签,获取每层w个tile可配置第一计算单元和第二计算单元的I种候选配置;其中,第一标签为将tile配置给第一计算单元处理,第二标签为将tile配置给第二计算单元处理。
S300,通过回溯法遍历M层的所有候选配置,在层均衡条件和合法约束条件的约束下,得到满足条件的H个候选配置序列集合CC={CC1,CC2,…,CCi,…,CCH},CCi={CCi,1,CCi,2,…,CCi,m,…,CCi,M},其中CCi为层均衡条件和合法约束条件的第i个候选配置序列,CCi,m为CCi中第m层的候选配置,m的取值范围为1到M。
其中,层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足:1≤cont0≤thr且1≤cont1≤thr,thr为预设连续阈值且满足1≤thr≤w-1。
其中,合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足:used0≤w×r且used1≤w×c,且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。
此外,本发明实施例还提供了一种基于光栅化的负载均衡系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述基于光栅化的负载均衡方法。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种基于光栅化的负载均衡方法及系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供的一种基于光栅化的负载均衡方法及系统,其通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel,每个kernel的每层具有w个tile,通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置,根据回溯法遍历所有层的所有候选配置,得到同时满足层均衡条件和合法约束条件的候选配置序列集合,该方法巧妙的将每层作为回溯遍历的一个节点,将每层的候选配置作为节点可选择的路径,通过设置层均衡约束条件和合法约束条件,能够得到所有满足条件的均衡配置,使得到的负载均衡的结果更加完备。同时由于在遍历的过程中加入了层均衡条件和合法约束条件,使得在获取候选配置序列集合的效率更高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于光栅化的负载均衡方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了一种基于光栅化的负载均衡方法流程图,所述方法包括:
S100,获取第一光栅化处理模块中m个第一计算单元和第二光栅化处理模块中m个第二计算单元的配比r:c,r≤m且c≤m;提取r和c之间的公约数得到互质的r0和c0,根据 r0和c0将显示区域划分为K个长宽均为w=r0+c0的中心核kernel,其中,第k个kernel包括w层,每层具有w个基本单元tile,1≤k≤K。
需要说明的是,计算单元为GPU中的ALU。tile配置的形状由driver决定,driver配置第一光栅化处理模块和第二光栅化处理模块分别使用的计算单元ALU的比例。其中r:c即为driver配置的比例。
S200,根据每个tile可配置的第一标签或第二标签,获取每层w个tile可配置第一计算单元和第二计算单元的I种候选配置;其中,第一标签为将tile配置给第一计算单元处理,第二标签为将tile配置给第二计算单元处理。
作为一个种优选实施例,候选配置为二进制数表示的配置。
其中,当tile配置第一计算单元进行处理时,该tile对应的第一标签为0;同理,当配置第二光栅化处理单元进行处理时,该tile的第二标签为1。也即由于每层包括w个tile,每个tile可配置标签为0或者1,因此每层的候选配置共计包括2w个。作为一个示例,在中心核kernel中每层包括7个tile,第1层中的tile全部分配给第一光栅化处理单元中的第一计算单元处理,则第一层的候选配置对应的二进制数为“0000000”,若第一层中的第4个tile被分配给第二光栅化处理单元中的第二计算单元处理,则第一层的候选配置对应的二进制数为“0001000”,以此类推,获取每层对应的所有可能的配置组合,所有可能的配置组合为I=27种候选配置。
S300,通过回溯法遍历M层的所有候选配置,在层均衡条件和合法约束条件的约束下,得到满足条件的H个候选配置序列集合CC={CC1,CC2,…,CCi,…,CCH},CCi={CCi,1,CCi,2,…,CCi,m,…,CCi,M},其中CCi为满足层均衡条件和合法约束条件的第i个候选配置序列,CCi,m为CCi中第m层的候选配置,m的取值范围为1到M。
具体的,解空间树的根节点为第一层的I种候选配置,I种候选配置的二进制数对应从0开始依次加1连续的I个十进制数的集合;解空间树中的任意一个第二层节点与根节点相同,对应第二层的I种候选配置,根节点到第二层节点的路径为满足层均衡条件和合法约束条件的第一层的候选配置;同理,解空间树中的任意一个第三层节点为第三层对应的I种候选配置,第二层节点到第三层节点的路径为满足层均衡条件和合法约束条件的第二层的候选配置,此时得到的路径为第一、二层的候选配置;依次类推,得到解空间树中所有路径为M层的候选配置。其中层均衡条件和合法约束条件具体为:
进一步,层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足:1≤cont0≤thr且1≤cont1≤thr,thr为预设连续阈值且满足1≤thr≤w-1。
其中,thr为用户指定的阈值,也可以是默认的初始阈值,默认的初始阈值为w-1。
可以理解的是,层均衡条件能够剪掉同一层中不符合均衡配置的候选配置,保留符合均衡配置的候选配置,减少计算复杂度,提高遍历效率。
作为一个优选实施例,判断第t个候选配置是否满足层均衡条件步骤为:当第t个候选配置中具有的L组连续出现的第一标签时,判断第l组中第一标签连续出现的数量cont0是否小于等于thr,若是,则将cont0清零;当第t个候选配置中具有的L组连续出现的第二标签时,判断第l组中第二标签连续出现的数量cont1是否小于等于thr,若是,则将cont1清零,1≤l≤L。例如,候选配置为“0001000”,其中连续出现的第一标签包括两组,前后两组均为连续出现3次,在对第一组计数结束后cont0小于thr时,则将cont0置为0,然后再对第二组进行再次计数,以此类推。
进一步,合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足:used0≤w×r且used1≤w×c,且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。
需要说明的是,used0为候选配置序列中第一标签出现的次数,不同于第一标签连续出现的数量,作为一个示例,候选配置为“0001000”,则第一标签出现的次数为6,第一标签连续出现的数量为3;同理used1为候选配置序列中1出现的次数。合法约束条件能够剪掉已遍历的m层候选配置序列中0或者1分配过多导致剩余层不可能达到均衡配置条件的候选配置序列,减少计算复杂度,提高遍历效率。
具体的,S300进一步包括:
S320,当遍历第m层对应的第t个候选配置且m<M时,判断第t个候选配置是否同时满足层均衡条件和合法约束条件,若满足,则分别计算第t个候选配置中第一标签和第二标签出现的次数,根据第t个候选配置中第一标签出现的次数更新used0,同时根据第t个候选配置中第二标签出现的次数更新used1;将第t个候选配置放入CCi中。
其中,对于不满足层均衡条件和/或合法约束条件的候选配置,不在进行后续的处理,减少计算复杂度。
需要说明的是,对每层的候选配置进行遍历时,从t=0开始遍历,t<I为遍历的终止条件,每次遍历的步长为1。
可以理解的是,在遍历到第m层时,CCi中具有从第1层的根节点到第m层节点的m个配置配置构成的候选配置序列。
作为一个优选实施例,更新used0的步骤为将更新前的used0与第t个候选配置中第一标签出现的次数相加得到更新后的used0。同理,更新used1。
S340,通过步骤S320对第m+1层对应的所有候选配置进行遍历;当遍历至第M层时,则判断CCi是否符合列均衡条件,若符合,则得到满足层均衡条件和合法约束条件的候选配置序列。
需要说明的是,每层的遍历过程相同,当遍历至M层时,递归结束,得到符合均衡条件的候选配置序列。
作为一个优选实施例,列均衡条件为CCi中M个候选配置对应的二进制数的相同列满足:1≤row0≤thr且1≤row1≤thr,其中row0为每列中第一标签连续出现的次数,row1为每列中第二标签连续出现的次数。需要说明的是,CCi中对应的M个候选配置对应到kernel中,按照CCi中的顺序依次对应每层的候选配置,kernel中的每列tile与二进制数的相应列对应,当M个二进制数的每列满足列均衡条件时,则CCi为满足负载均衡条件的候选配置序列。
通过步骤S310-330得到所有满足负载均衡条件的候选配置序列。
优选的,在在芯片验证技术领域,需要给待验设计和参考模型相同的激励,并将待验设计的输出结果和参考模型进行比对,若待验设计的输出与参考模型的输出结果相同,则待验设计的验证通过,否则不通过。因此,本发明实施例还包括:S400,将CC分别输入待验设计和参考模型,验证输出结果是否一致,若一致则待验设计的验证通过,否则验证失败。
可选的,待验设计为Verilog硬件描述语言实现的电路模块。
其中,参考模型用于模拟待验设计的行为,并给出相应的参考结果,将参考结果与待验设计的输出结果相比对,进而判断待验设计的功能是否正确。
可选的,参考模型为通过高级语言实现的模型。
综上所述,本发明实施例提供了一种基于光栅化的负载均衡方法,通过第一光栅化处理模块和第二光栅化处理模块中计算单元的配置比来划分kernel,每个kernel的每层具有w个tile,通过每个tile可配置的第一计算单元或者第二计算单元得到每层的候选配置,根据回溯法遍历所有层的所有候选配置,得到同时满足层均衡条件和合法约束条件的候选配置序列集合,该方法巧妙的将每层作为回溯遍历的一个节点,将每层的候选配置作为节点可选择的路径,通过设置层均衡约束条件和合法约束条件,能够得到所有满足条件的均衡配置,使得到的负载均衡的结果更加完备。同时由于在遍历的过程中加入了层均衡条件和合法约束条件,使得在获取候选配置序列集合的效率更高。
基于与上述方法实施例相同的发明构思,本发明还提供了一种基于光栅化的负载均衡系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现基于光栅化的负载均衡方法,其中基于光栅化的负载均衡方法已经在上述实施例中详细说明,不再赘述。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种基于光栅化的负载均衡方法,其特征在于,所述方法包括:
S100,获取第一光栅化处理模块中m个第一计算单元和第二光栅化处理模块中m个第二计算单元的使用数量配比r:c,r≤m且c≤m;提取r和c之间的公约数得到互质的r0和c0,根据r0和c0将显示区域划分为K个长宽均为w=r0+c0的中心核kernel,其中,第k个kernel包括w层,每层具有w个基本单元tile,1≤k≤K;
其中,计算单元为GPU中的ALU;tile配置的形状由driver决定,driver配置第一光栅化处理模块和第二光栅化处理模块分别使用的计算单元ALU的比例;其中使用数量配比r:c为driver配置的比例;
S200,根据每个tile可配置的第一标签或第二标签,获取每层w个tile可配置第一计算单元和第二计算单元的I种候选配置;其中,第一标签为将tile配置给第一计算单元处理,第二标签为将tile配置给第二计算单元处理;
S300,通过回溯法遍历M层的所有候选配置,在层均衡条件和合法约束条件的约束下,得到满足条件的H个候选配置序列集合CC={CC1,CC2,…,CCi,…,CCH},CCi={CCi,1,CCi,2,…,CCi,m,…,CCi,M},其中CCi为满足层均衡条件和合法约束条件的第i个候选配置序列,CCi,m为CCi中第m层的候选配置,m的取值范围为1到M;
其中,层均衡条件为遍历的第m层对应的第t个候选配置中第一标签连续出现的数量cont0和第二标签连续出现的数量cont1分别满足:1≤cont0≤thr且1≤cont1≤thr,thr为预设连续阈值且满足1≤thr≤w-1;
合法约束条件为遍历获取的前m层的候选配置序列中第一标签出现的次数used0和第二标签出现的次数used1分别满足:used0≤w×r且used1≤w×c,且满足(w×r-used0)≥(M-m)且(w×c-used1)≥(M-m)。
2.根据权利要求1所述的方法,其特征在于,S300进一步包括:
S320,当遍历第m层对应的第t个候选配置且m<M时,判断第t个候选配置是否同时满足层均衡条件和合法约束条件,若满足,则分别计算第t个候选配置中第一标签和第二标签出现的次数,根据第t个候选配置中第一标签出现的次数更新used0,同时根据第t个候选配置中第二标签出现的次数更新used1;将第t个候选配置放入CCi中;
S340,通过步骤S320对第m+1层对应的所有候选配置进行遍历;当遍历至第M层时,则判断CCi是否符合列均衡条件,若符合,则得到满足层均衡条件和合法约束条件的候选配置序列。
3.根据权利要求2所述的方法,其特征在于,所述列均衡条件为CCi中M个候选配置对应的二进制数的相同列满足:1≤row0≤thr且1≤row1≤thr,其中row0为每列中第一标签连续出现的次数,row1为每列中第二标签连续出现的次数。
4.根据权利要求2所述的方法,其特征在于,更新used0的步骤为将更新前的used0与第t个候选配置中第一标签出现的次数相加得到更新后的used0。
5.根据权利要求1所述的方法,其特征在于,S200中的候选配置为二进制数表示的配置。
6.根据权利要求1所述的方法,其特征在于,判断第t个候选配置是否满足层均衡条件步骤为:当第t个候选配置中具有的L组连续出现的第一标签时,判断第l组中第一标签连续出现的数量cont0是否小于等于thr,若是,则将cont0清零;当第t个候选配置中具有的L组连续出现的第二标签时,判断第l组中第二标签连续出现的数量cont1是否小于等于thr,若是,则将cont1清零,1≤l≤L。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
S400,将CC分别输入待验设计和参考模型,验证输出结果是否一致,若一致则待验设计的验证通过,否则验证失败。
8.一种基于光栅化的负载均衡系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310844455.0A CN116578425B (zh) | 2023-07-11 | 2023-07-11 | 一种基于光栅化的负载均衡方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310844455.0A CN116578425B (zh) | 2023-07-11 | 2023-07-11 | 一种基于光栅化的负载均衡方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116578425A CN116578425A (zh) | 2023-08-11 |
CN116578425B true CN116578425B (zh) | 2023-09-22 |
Family
ID=87536227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310844455.0A Active CN116578425B (zh) | 2023-07-11 | 2023-07-11 | 一种基于光栅化的负载均衡方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578425B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101940052A (zh) * | 2008-02-06 | 2011-01-05 | 皇家飞利浦电子股份有限公司 | 分配资源的方法 |
CN107621951A (zh) * | 2017-08-29 | 2018-01-23 | 口碑(上海)信息技术有限公司 | 一种视图层级优化的方法及装置 |
EP3385901A1 (en) * | 2017-04-09 | 2018-10-10 | INTEL Corporation | Machine learning sparse computation mechanism |
CN113114790A (zh) * | 2021-06-10 | 2021-07-13 | 武汉研众科技有限公司 | 一种基于区块链与边缘计算的负载均衡方法与系统 |
CN115168058A (zh) * | 2022-09-06 | 2022-10-11 | 深流微智能科技(深圳)有限公司 | 线程负载均衡方法、装置、设备及存储介质 |
CN115580585A (zh) * | 2022-11-17 | 2023-01-06 | 沐曦集成电路(南京)有限公司 | 一种基于仲裁器的均衡仲裁方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7262876B2 (en) * | 2003-06-27 | 2007-08-28 | Kabushiki Kaisha Toshiba | Pluggable RIP system |
US7868891B2 (en) * | 2004-09-16 | 2011-01-11 | Nvidia Corporation | Load balancing |
US20140092087A1 (en) * | 2012-09-28 | 2014-04-03 | Takayuki Kazama | Adaptive load balancing in software emulation of gpu hardware |
US20220035684A1 (en) * | 2020-08-03 | 2022-02-03 | Nvidia Corporation | Dynamic load balancing of operations for real-time deep learning analytics |
US20230094384A1 (en) * | 2021-09-28 | 2023-03-30 | Advanced Micro Devices, Inc. | Dynamic allocation of platform resources |
-
2023
- 2023-07-11 CN CN202310844455.0A patent/CN116578425B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101940052A (zh) * | 2008-02-06 | 2011-01-05 | 皇家飞利浦电子股份有限公司 | 分配资源的方法 |
EP3385901A1 (en) * | 2017-04-09 | 2018-10-10 | INTEL Corporation | Machine learning sparse computation mechanism |
CN107621951A (zh) * | 2017-08-29 | 2018-01-23 | 口碑(上海)信息技术有限公司 | 一种视图层级优化的方法及装置 |
CN113114790A (zh) * | 2021-06-10 | 2021-07-13 | 武汉研众科技有限公司 | 一种基于区块链与边缘计算的负载均衡方法与系统 |
CN115168058A (zh) * | 2022-09-06 | 2022-10-11 | 深流微智能科技(深圳)有限公司 | 线程负载均衡方法、装置、设备及存储介质 |
CN115580585A (zh) * | 2022-11-17 | 2023-01-06 | 沐曦集成电路(南京)有限公司 | 一种基于仲裁器的均衡仲裁方法 |
Non-Patent Citations (3)
Title |
---|
GPU-Hi:GPU RTL平台实现及效率分析;张立志 等;《 高技术通讯》;全文 * |
GPU-Hi:GPU RTL平台实现及效率分析;张立志 等;《高技术通讯》;全文 * |
光纤云平台终端接口的负载均衡性改进技术;段静波;;激光杂志(01) * |
Also Published As
Publication number | Publication date |
---|---|
CN116578425A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580377B2 (en) | Method and device for optimizing neural network | |
CN108701250B (zh) | 数据定点化方法和装置 | |
US20180260710A1 (en) | Calculating device and method for a sparsely connected artificial neural network | |
US11763156B2 (en) | Neural network compression based on bank-balanced sparsity | |
US8463820B2 (en) | System and method for memory bandwidth friendly sorting on multi-core architectures | |
CN109324827B (zh) | 用于处理用于访问数据的指令的装置、方法和系统 | |
US8676874B2 (en) | Data structure for tiling and packetizing a sparse matrix | |
US11216732B2 (en) | Systems and methods for generation of sparse code for convolutional neural networks | |
US8762655B2 (en) | Optimizing output vector data generation using a formatted matrix data structure | |
US8321492B1 (en) | System, method, and computer program product for converting a reduction algorithm to a segmented reduction algorithm | |
CN112668708B (zh) | 一种提高数据利用率的卷积运算装置 | |
US11775832B2 (en) | Device and method for artificial neural network operation | |
CN103177414A (zh) | 一种基于结构的图节点相似度并行计算方法 | |
CN110716751B (zh) | 高并行度计算平台、系统及计算实现方法 | |
CN116578425B (zh) | 一种基于光栅化的负载均衡方法及系统 | |
US20200134434A1 (en) | Arithmetic processing device, learning program, and learning method | |
US20220253709A1 (en) | Compressing a Set of Coefficients for Subsequent Use in a Neural Network | |
US9600446B2 (en) | Parallel multicolor incomplete LU factorization preconditioning processor and method of use thereof | |
CN115328440A (zh) | 一种基于2d脉动阵列的通用稀疏矩阵乘法实现方法及装置 | |
CN115546009B (zh) | 非极大值抑制算法的优化方法、装置以及设备、存储介质 | |
CN111582444A (zh) | 一种矩阵数据的处理、装置、电子设备及存储介质 | |
CN112464157B (zh) | 向量排序方法与排序系统 | |
US20220261652A1 (en) | Training a Neural Network | |
CN111061513B (zh) | 加速计算设备建模的方法、电子设备及可读存储介质 | |
CN111443947B (zh) | 基于众核平台上面向二代测序数据的序列比对方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |