CN113794709A - 一种用于二值稀疏矩阵的混合编码方法 - Google Patents
一种用于二值稀疏矩阵的混合编码方法 Download PDFInfo
- Publication number
- CN113794709A CN113794709A CN202111053106.4A CN202111053106A CN113794709A CN 113794709 A CN113794709 A CN 113794709A CN 202111053106 A CN202111053106 A CN 202111053106A CN 113794709 A CN113794709 A CN 113794709A
- Authority
- CN
- China
- Prior art keywords
- matrix
- dense
- vector
- sub
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 85
- 238000004364 calculation method Methods 0.000 claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 230000006835 compression Effects 0.000 description 16
- 238000007906 compression Methods 0.000 description 16
- 230000008901 benefit Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于二值稀疏矩阵的混合编码方法,包括:计算稀疏矩阵缩略图中连通域的数量,初步确定可能的稠密区域具体位置;根据每个稠密区域中黑色像素数占该区域边界矩形的比值判定稠密区域形状;将稀疏矩阵缩略图映射回原稀疏矩阵中,根据每个特定形状的稠密区域子矩阵中非零元占比,得到最终的稠密子矩阵;对稠密子矩阵进行反向编码;将原稀疏矩阵中其余零散分布的非零元组成一个超稀疏剩余子矩阵,并采用正向编码;将反向编码和正向编码结果求和,得到稀疏矩阵向量乘计算结果。采用混合编码方式充分压缩了稀疏矩阵的行列索引,减少了主机端和设备端的数据传输量。
Description
技术领域
本发明涉及二值稀疏矩阵的高效压缩技术领域,更具体的说是涉及一种用于二值稀疏矩阵的混合编码方法。
背景技术
稀疏矩阵最直观的一个特点是其非零元的数量要远远小于其元素总数,通常认为非零元数和矩阵元素总数的比值小于等于0.05的矩阵为稀疏矩阵,但这并非是一个严格的标准。稀疏矩阵几乎涉及到所有的大型科学工程计算领域中,比如计算流体动力学、统计物理、电路模拟、土木和机械工程、金融规划、气候模拟、医学图像、信息检索等。
二值稀疏矩阵是稀疏矩阵的一个特例,其非零元的取值都为1,这类稀疏矩阵常见于图计算相关的应用中,另外在稀疏矩阵和稀疏矩阵相乘的结果矩阵非零元数量预测中也会经常涉及到二值稀疏矩阵的计算。充分利用其非零元取值都为1的特点,往往能得到比通用稀疏矩阵压缩格式更高的压缩比和更优的计算性能。
随着通用图形处理器GPGPU(General-purpose computing on GraphicsProcessing Units)的快速发展和广泛应用,越来越多的研究人员聚焦于稀疏矩阵计算在GPU平台上的性能优化。稀疏矩阵计算在GPU上的实现基本由三个步骤组成:一是将稀疏编码的矩阵从主机端(CPU内存)传输到设备端(GPU内存),二是利用GPU众多的计算核心完成稀疏矩阵计算,三是将计算得到的结果从设备端传输到主机端。
(1)数据传输的时间开销
目前,许多研究人员提出的稀疏矩阵压缩格式都会考虑稀疏矩阵计算在并行体系架构上的任务划分和负载均衡问题,即目标导向为尽可能减少稀疏矩阵计算部分的时间开销。这是因为稀疏矩阵计算往往出现在稀疏线性系统的迭代求解中,且成百上千次迭代计算中的稀疏矩阵计算往往基于同一个稀疏的系数矩阵,所以从主机端到设备端的数据传输往往只需执行一次。但事实上,在基于GPU的稀疏矩阵计算中,主机端和设备端之间的数据传输的时间开销往往占据了总时间的较大比值。研究表明大部分稀疏矩阵对应的SpMV的数据传输时间占比分布在80%~100%之间,充分证明了压缩二值稀疏矩阵的必要性。
(2)二值稀疏矩阵的特点
二值稀疏矩阵所有非零元的取值均为1,但目前的稀疏矩阵编码格式中并没有充分利用这一特征。比如判断输入的稀疏矩阵为二值稀疏矩阵时,取消值数组从主机端到设备端的传输,或者利用该特征来压缩矩阵的行列索引数组。
因此,如何提供一种用于二值稀疏矩阵的混合编码方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种用于二值稀疏矩阵的混合编码方法,大幅度减少了稀疏矩阵的数据存储开销和主机端与设备端之间的数据传输开销,这在基于GPU的稀疏矩阵计算中具有绝对性优势。另一方面,通过此编码方案,能够大大简化稀疏矩阵计算在GPU端的实现,减少浮点计算的复杂度,从而加速稀疏矩阵计算及其广泛的科学计算应用。
为了实现上述目的,本发明采用如下技术方案:
一种用于二值稀疏矩阵的混合编码方法,包括:
计算稀疏矩阵缩略图中连通域的数量,初步确定可能的稠密区域具体位置;
根据每个稠密区域中黑色像素数占该区域边界矩形的比值判定稠密区域形状;
将稀疏矩阵缩略图映射回原稀疏矩阵中,根据每个特定形状的稠密区域子矩阵中非零元占比,得到最终的稠密子矩阵;
对稠密子矩阵进行反向编码;
将原稀疏矩阵中其余零散分布的非零元组成一个超稀疏剩余子矩阵,并采用正向编码;
将反向编码和正向编码结果传输到GPU上,根据输入向量X分别完成稀疏矩阵向量乘之后求和,得到稀疏矩阵向量乘计算结果。
优选的,稠密区域形状包括对角块状、矩形和三角形。
优选的,稠密子矩阵包括对角块稠密子矩阵、矩形块稠密子矩阵和三角块稠密子矩阵。
优选的,对稠密子矩阵进行反向编码具体包括:
假设稠密子矩阵中全是非零元,计算稠密子矩阵中所有元素均为非零元时稀疏矩阵向量乘结果;
将稠密子矩阵中所有零元采用CSR或其它压缩格式存储,并计算零元看作-1后对应的向量乘结果;
将非零元向量乘结果与零元向量乘结果相加即为稠密子矩阵的编码结果。
优选的,矩形块稠密子矩阵具体反向编码方法包括:
记录矩形块稠密子矩阵左上角位置(xr,yr),矩形块大小ar×br,以及矩形块中每一零元的行列索引信息;
假设矩形块稠密子矩阵中所有元素均为非零元,根据矩形块的位置、大小信息,以及输入向量x,计算矩形块稠密子矩阵所有元素均为非零元时对应的向量乘结果yrect,具体计算公式为:
其中,y_rect[i]表示向量y_rect的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值,是编程语言中的标记符号;
三角块稠密子矩阵具体反向编码方法包括:
记录三角块稠密子矩阵左上角位置(xt,yt),三角形块大小at×bt,以及三角形块中每一零元的行列索引信息;
假设三角块稠密子矩阵中所有元素均为非零元,根据三角形块的位置、大小信息,以及输入向量x,计算三角块稠密子矩阵所有元素均为非零元时对应的向量乘结果ytri,具体计算公式为:
其中,ytri[i]表示向量ytri的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值;
对角块稠密子矩阵具体反向编码方法包括:
记录对角块稠密子矩阵左上角的位置(xd,yd),对角块边界矩形的大小ad,bd,对角块的宽度wd,对角块中每一零元的行列索引信息;
假设对角块稠密子矩阵中所有元素均为非零元,根据对角块的位置和对角块的宽度计算出对角块中每一条对角线的偏移量,其偏移量的取值范围为[xd-(yd+wd),(xd+wd)-yd],计算每一条对角线与输入向量x的相乘结果,计算公式为:
将每一条对角线与向量x的相乘结果规约求和:
其中,ydia表示该对角块稠密子矩阵所有稠密对角线,ydia[i]表示该对角块稠密子矩阵和向量x相乘的结果向量的第i个元素;
将对角块稠密子矩阵、矩形块稠密子矩阵和三角块稠密子矩阵中所有零元像素采CSR或其它压缩格式存储,计算零元对应的向量乘结果为yzero;
所有稠密子矩阵的编码结果为:ydense=yrect+ytri+ydia-yzero。
优选的,正向编码采用CSR或其它压缩格式编码。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种用于二值稀疏矩阵的混合编码方法,提出了针对稠密子矩阵反向编码,稀疏子矩阵正向编码的混合编码方法。一方面充分压缩了稀疏矩阵的行列索引,减少了主机端和设备端的数据传输量;另一方面利用此编码方法可以将SpMV(稀疏矩阵向量乘)计算中的乘累加运算转换为最基本的加减运算,简化并减少了浮点计算,从而加快了核函数的执行。本发明可以应用到所有二值稀疏矩阵相关的应用中,用于加速其对应的稀疏计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明二值稀疏矩阵的混合编码方法整体流程图。
图2附图为不同形状子矩阵的边界信息,其中图2(a)表示矩形块稠密子矩阵边界信息,图2(b)表示三角块稠密子矩阵边界信息,图2(c)表示对角块稠密子矩阵边界信息。
图3附图为二值稀疏矩阵混合编码示例。
图4附图为稠密子矩阵与向量相乘的示例。
图5附图为稠密子矩阵的零元与向量相乘的示例。
图6附图为超稀疏剩余子矩阵与向量相乘的示例
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种用于二值稀疏矩阵的混合编码方法,如图1所示,包括:
对于给定的稀疏矩阵,将其缩略图作为输入,通过计算稀疏矩阵缩略图中连通域的数量初步得出可能的稠密区域的具体位置;
通过每个稠密区域中黑色像素数占该区域边界矩形的比值判定稠密区域形状:包括对角块状、矩形、三角形;
将稀疏矩阵缩略图映射回原稀疏矩阵,通过稠密区域在缩略图中的位置,得出该区域对应的子矩阵在原始矩阵中的位置,判断稠密区域中非零元数占比得到最终的稠密子矩阵,包括对角块稠密子矩阵、矩形块稠密子矩阵和三角块稠密子矩阵;在本实施例中,具体通过判定稠密区域子矩阵中非零元数是否大于该区域50%的占比得到最终的稠密子矩阵,在实际应用中也可以根据具体情况设计其余数值的具体占比;
对稠密子矩阵进行反向编码,即存储零元(稠密区域中白色像素)的索引信息:假设稠密子矩阵中全是非零元,计算稠密子矩阵中所有元素均为非零元时稀疏矩阵向量乘结果;将稠密子矩阵中所有零元采用CSR(Compressed Sparse Row)或其它压缩格式存储,并计算零元看作-1后对应的向量乘结果;将非零元向量乘结果与零元向量乘结果相加即为稠密子矩阵的编码结果;
稀疏矩阵往往会有少量非零元离散地分布在这些特定的形状之外,将原稀疏矩阵中其余零散分布的非零元组成一个超稀疏剩余子矩阵,并采用正向编码,即存储非零元的行列索引信息;
将反向编码和正向编码结果求和,得到稀疏矩阵向量乘计算结果。
进一步优化技术方案,对稠密子矩阵基于反向编码的SpMV具体包括:
矩形块稠密子矩阵:记录矩形块稠密子矩阵左上角位置(xr,yr),矩形块大小ar×br,以及矩形块中每一零元的行列索引信息,如图2(a)所示;
假设矩形块稠密子矩阵中所有元素均为非零元,根据矩形块的位置、大小信息,以及输入向量x,计算矩形块稠密子矩阵所有元素均为非零元时对应的向量乘结果,具体计算公式为:
其中,yrect[i]表示向量yrect的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值;
三角块稠密子矩阵:
记录三角块稠密子矩阵左上角位置(xt,yt),三角形块大小at×bt,以及三角形块中每一零元的行列索引信息,如图2(b)所示;
假设三角块稠密子矩阵中所有元素均为非零元,根据三角形块的位置、大小信息,以及输入向量x,计算三角块稠密子矩阵所有元素均为非零元时对应的向量乘结果,具体计算公式为:
其中,ytri[i]表示向量ytri的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值;
对角块稠密子矩阵:
记录对角块稠密子矩阵左上角的位置(xd,yd),对角块边界矩形的大小ad×bd,对角块的宽度wd,对角块中每一零元的行列索引信息,如图2(c)所示;
假设对角块稠密子矩阵中所有元素均为非零元,根据对角块的位置和对角块的宽度计算出对角块中每一条对角线的偏移量,其偏移量的取值范围为[xd-(yd+wd),(xd+wd)-yd],计算每一条对角线与对应的向量x的相乘结果,计算公式为:
将每一条对角线与向量x的相乘结果规约求和:
将稠密子矩阵中的所有零元的行列索引信息采用COO或CSR格式存储,计算其和向量x的相乘结果yzero,则ydense=yrect+ytri+ydia-yzero即为稠密区域的计算结果。
进一步优化技术方案,对于超稀疏剩余子矩阵,采用COO或CSR格式编码非零元的位置,即正向编码,采用基于COO或CSR格式的SpMV算法计算超稀疏剩余子矩阵对应的计算结果ysparse。
将反向编码和正向编码结果求和,得到稀疏矩阵向量乘计算结果为:y=ydense+ysparse。
图3展示了一个10×10的二值稀疏矩阵混和编码的示例。该矩阵由3个稠密块组成,分别为矩形块稠密子矩阵(包含10个非零元)、三角块稠密子矩阵(包含9个非零元)和对角块稠密子矩阵(包含15个非零元),以及一个超稀疏剩余子矩阵(包含5个非零元),共39个非零元。按照传统的稀疏矩阵压缩方法,即正向编码稀疏矩阵的非零元,则COO格式需要存储的数据量为39×2=78,CSR格式的数据量为11+39=50。而本发明提出的反向编码方法的数据量为13+10+10=33,针对COO格式的压缩比为78/33=2.36,针对CSR格式的压缩比为50/33=1.52。事实上,随着矩阵规模的增大,反向编码稠密子矩阵的收益更加明显,从而能够得到更高的压缩比。
以图3中的二值稀疏矩阵为例,图4、图5、图6介绍了该稀疏矩阵基于反向编码的SpMV计算流程。图4展示三个不同形状的稠密子矩阵与向量x相乘。即假设三个稠密子矩阵中的元素均为非零元,计算对应的结果向量yrect,ytri,ydia,三个结果向量的和记为yone。图5展示了稠密子矩阵中的零元和向量x相乘,结果为yzero,图6展示了超稀疏剩余子矩阵和向量x相乘,结果为ysparse。最终的混合编码SpMV计算结果为y=yone-yzero+ysparse。
相比于现有的稀疏格式压缩编码方案,本发明主要针对于二值稀疏矩阵的行列索引压缩。通过挖掘稀疏中有稠密,稠密中有稀疏的非零元分布信息,本发明提出了混和编码的压缩方案。对于稠密子矩阵,即非零元多于零元的子矩阵,我们对零元进行编码从而保证最少的数据量;利用稠密子矩阵所表现出的矩形、三角形和对角形的形态特征,本发明提出了特征驱动的压缩方案。而对于稀疏子矩阵,仍旧采用现有的正向稀疏编码方案。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种用于二值稀疏矩阵的混合编码方法,其特征在于,包括:
计算稀疏矩阵缩略图中连通域的数量,初步确定可能的稠密区域具体位置;
根据每个稠密区域中黑色像素数占该区域边界矩形的比值判定稠密区域形状;
将稀疏矩阵缩略图映射回原稀疏矩阵中,根据每个特定形状的稠密区域子矩阵中非零元占比,得到最终的稠密子矩阵;
对稠密子矩阵进行反向编码;
将原稀疏矩阵中其余零散分布的非零元组成一个超稀疏剩余子矩阵,并采用正向编码;
将反向编码和正向编码结果传输到GPU上,根据输入向量X分别完成稀疏矩阵向量乘之后求和,得到稀疏矩阵向量乘计算结果。
2.根据权利要求1所述的一种用于二值稀疏矩阵的混合编码方法,其特征在于,稠密区域形状包括对角块状、矩形和三角形。
3.根据权利要求1所述的一种用于二值稀疏矩阵的混合编码方法,其特征在于,稠密子矩阵包括对角块稠密子矩阵、矩形块稠密子矩阵和三角块稠密子矩阵。
4.根据权利要求3所述的一种用于二值稀疏矩阵的混合编码方法,其特征在于,对稠密子矩阵进行反向编码具体包括:
假设稠密子矩阵中全是非零元,计算稠密子矩阵中所有元素均为非零元时稀疏矩阵向量乘结果;
将稠密子矩阵中所有零元采用CSR格式存储,并计算将零元看作-1后对应的向量乘结果;
将非零元向量乘结果与零元向量乘结果相加即为稠密子矩阵的编码结果。
5.根据权利要求4所述的一种用于二值稀疏矩阵的混合编码方法,其特征在于,矩形块稠密子矩阵具体反向编码方法包括:
记录矩形块稠密子矩阵左上角位置(xr,yr),矩形块大小ar×br,以及矩形块中每一零元的行列索引信息;
假设矩形块稠密子矩阵中所有元素均为非零元,根据矩形块的位置、大小信息,以及输入向量x,计算矩形块稠密子矩阵所有元素均为非零元时对应的向量乘结果yrect,具体计算公式为:
其中,yrect[i]表示向量yrect的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值;
三角块稠密子矩阵具体反向编码方法包括:
记录三角块稠密子矩阵左上角位置(xt,yt),三角形块大小at×bt,以及三角形块中每一零元的行列索引信息;
假设三角块稠密子矩阵中所有元素均为非零元,根据三角形块的位置、大小信息,以及输入向量x,计算三角块稠密子矩阵所有元素均为非零元时对应的向量乘结果ytri,具体计算公式为:
其中,ytri[i]表示向量ytri的第i个元素,x[j]是向量x的第j个元素,i和j是向量的索引值;
对角块稠密子矩阵具体反向编码方法包括:
记录对角块稠密子矩阵左上角的位置(xd,yd),对角块边界矩形的大小ad×bd,对角块的宽度wd,对角块中每一零元的行列索引信息;
假设对角块稠密子矩阵中所有元素均为非零元,根据对角块的位置和对角块的宽度计算出对角块中每一条对角线的偏移量,其偏移量的取值范围为[xd-(yd+wd),(xd+wd)-yd],计算每一条对角线与输入向量x的相乘结果,计算公式为:
将每一条对角线与向量x的相乘结果规约求和:
其中,ydia表示该对角块稠密子矩阵所有稠密对角线,ydia[i]表示该对角块稠密子矩阵和向量x相乘的结果向量的第i个元素;
将对角块稠密子矩阵、矩形块稠密子矩阵和三角块稠密子矩阵中所有零元像素采用CSR格式存储,计算零元对应的向量乘结果为yzero;
所有稠密子矩阵和向量x相乘的计算结果为:ydense=yrect+ytri+ydia-yzero。
6.根据权利要求1所述的一种用于二值稀疏矩阵的混合编码方法,其特征在于,正向编码采用CSR格式编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111053106.4A CN113794709B (zh) | 2021-09-07 | 2021-09-07 | 一种用于二值稀疏矩阵的混合编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111053106.4A CN113794709B (zh) | 2021-09-07 | 2021-09-07 | 一种用于二值稀疏矩阵的混合编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113794709A true CN113794709A (zh) | 2021-12-14 |
CN113794709B CN113794709B (zh) | 2022-06-24 |
Family
ID=79182801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111053106.4A Active CN113794709B (zh) | 2021-09-07 | 2021-09-07 | 一种用于二值稀疏矩阵的混合编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113794709B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491404A (zh) * | 2022-01-28 | 2022-05-13 | 北京理工大学 | 应用于计算设备的混合精度SpMV优化系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033854A (zh) * | 2010-12-17 | 2011-04-27 | 中国科学院软件研究所 | 针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法 |
US20140372836A1 (en) * | 2013-06-13 | 2014-12-18 | Lsi Corporation | Systems and Methods for Data Processing Control |
CN104331913A (zh) * | 2014-11-19 | 2015-02-04 | 西安电子科技大学 | 基于稀疏k-svd的极化sar图像压缩方法 |
US20150363496A1 (en) * | 2012-07-01 | 2015-12-17 | Speedtrack, Inc. | Methods of providing fast search, analysis, and data retrieval of encrypted data without decryption |
CN107045493A (zh) * | 2016-02-05 | 2017-08-15 | 谷歌公司 | 矩阵处理装置 |
CN107239825A (zh) * | 2016-08-22 | 2017-10-10 | 北京深鉴智能科技有限公司 | 考虑负载均衡的深度神经网络压缩方法 |
CN107947838A (zh) * | 2017-10-12 | 2018-04-20 | 北京邮电大学 | 一种混合连接的混合波束赋形架构和编码器设计 |
CN108471325A (zh) * | 2018-03-23 | 2018-08-31 | 北京理工大学 | 一种稀疏射频/基带混合预编码方法 |
CN110855337A (zh) * | 2019-10-25 | 2020-02-28 | 无锡北邮感知技术产业研究院有限公司 | 混合预编码方法、基站、电子设备及存储介质 |
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
-
2021
- 2021-09-07 CN CN202111053106.4A patent/CN113794709B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033854A (zh) * | 2010-12-17 | 2011-04-27 | 中国科学院软件研究所 | 针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法 |
US20150363496A1 (en) * | 2012-07-01 | 2015-12-17 | Speedtrack, Inc. | Methods of providing fast search, analysis, and data retrieval of encrypted data without decryption |
US20140372836A1 (en) * | 2013-06-13 | 2014-12-18 | Lsi Corporation | Systems and Methods for Data Processing Control |
CN104331913A (zh) * | 2014-11-19 | 2015-02-04 | 西安电子科技大学 | 基于稀疏k-svd的极化sar图像压缩方法 |
CN107045493A (zh) * | 2016-02-05 | 2017-08-15 | 谷歌公司 | 矩阵处理装置 |
CN107239825A (zh) * | 2016-08-22 | 2017-10-10 | 北京深鉴智能科技有限公司 | 考虑负载均衡的深度神经网络压缩方法 |
CN107947838A (zh) * | 2017-10-12 | 2018-04-20 | 北京邮电大学 | 一种混合连接的混合波束赋形架构和编码器设计 |
CN108471325A (zh) * | 2018-03-23 | 2018-08-31 | 北京理工大学 | 一种稀疏射频/基带混合预编码方法 |
CN110855337A (zh) * | 2019-10-25 | 2020-02-28 | 无锡北邮感知技术产业研究院有限公司 | 混合预编码方法、基站、电子设备及存储介质 |
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
Non-Patent Citations (7)
Title |
---|
WANGDONG YANG,KENLI LI,ZEYAO MO,KEQIN LI: "Performance optimization using parititioned Spmv on GPU and Multicore CPUs", 《IEEE》 * |
WANGDONG YANG,KENLI LI,ZEYAO MO,KEQIN LI: "Performance optimization using parititioned Spmv on GPU and Multicore CPUs", 《IEEE》, 24 November 2014 (2014-11-24) * |
ZHAONIAN TAN,WEIXING JI, JIANHUA GAO, YUEYAN ZHAO, AKREM BENATIA: "MMSparse: 2D partitioning of sparse matrix based on mathematical morphology", 《ELSEVIER》 * |
ZHAONIAN TAN,WEIXING JI, JIANHUA GAO, YUEYAN ZHAO, AKREM BENATIA: "MMSparse: 2D partitioning of sparse matrix based on mathematical morphology", 《ELSEVIER》, 31 July 2020 (2020-07-31), pages 523 - 530 * |
查培等: "基于字典学习的毫米波大规模MIMO系统混合预编码", 《电讯技术》, no. 08, 28 August 2017 (2017-08-28) * |
谈兆年,计卫星,AKREM BENATIA,高建花,李安民,王一拙: "面向异构计算平台的SpMV划分优化算法研究", 《计算机工程与科学》 * |
谈兆年,计卫星,AKREM BENATIA,高建花,李安民,王一拙: "面向异构计算平台的SpMV划分优化算法研究", 《计算机工程与科学》, 30 April 2019 (2019-04-30) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491404A (zh) * | 2022-01-28 | 2022-05-13 | 北京理工大学 | 应用于计算设备的混合精度SpMV优化系统及方法 |
CN114491404B (zh) * | 2022-01-28 | 2022-12-06 | 北京理工大学 | 应用于计算设备的混合精度SpMV优化系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113794709B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200134460A1 (en) | Processing method and accelerating device | |
EP2387004B1 (en) | Lossless compression of a structured set of floating point numbers, particularly for CAD systems | |
CN110610237A (zh) | 模型的量化训练方法、装置及存储介质 | |
US7129962B1 (en) | Efficient video processing method and system | |
US20200389182A1 (en) | Data conversion method and apparatus | |
CN110109646B (zh) | 数据处理方法、装置和乘加器及存储介质 | |
CN113794709B (zh) | 一种用于二值稀疏矩阵的混合编码方法 | |
CN109784420A (zh) | 一种图像处理方法及装置、计算机设备和存储介质 | |
CN114615507B (zh) | 一种图像编码方法、解码方法及相关装置 | |
JPH0652214A (ja) | 逆離散余弦変換演算装置 | |
US11853897B2 (en) | Neural network training with decreased memory consumption and processor utilization | |
CN114418057A (zh) | 卷积神经网络的运算方法及相关设备 | |
CN112085154A (zh) | 用于神经网络的压缩和推断加速的非对称量化 | |
CN115309333A (zh) | 一种带状稀疏矩阵的数据存储格式及其乘法加速方法 | |
US20220044090A1 (en) | Computing device using sparsity data and operating method thereof | |
CN113256744A (zh) | 一种图像编码、解码方法及系统 | |
WO2022247368A1 (en) | Methods, systems, and mediafor low-bit neural networks using bit shift operations | |
CN116258782A (zh) | 图像压缩方法、图像编码方法、图像解码方法及装置 | |
CN115905546A (zh) | 基于阻变存储器的图卷积网络文献识别装置与方法 | |
CN117348837A (zh) | 浮点精度模型的量化方法、装置、电子设备以及存储介质 | |
CN113361700A (zh) | 生成量化神经网络的方法、装置、系统、存储介质及应用 | |
CN113835754B (zh) | 主动稀疏化向量处理器 | |
CN115174908B (zh) | 视频编码的变换量化方法、装置、设备以及存储介质 | |
CN113068033B (zh) | 一种多媒体的反量化处理方法、装置、设备及存储介质 | |
JP7506276B2 (ja) | 半導体ハードウェアにおいてニューラルネットワークを処理するための実装および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |