CN106407995A - 一种图像数据集的稀疏表示的加速方法以及装置 - Google Patents
一种图像数据集的稀疏表示的加速方法以及装置 Download PDFInfo
- Publication number
- CN106407995A CN106407995A CN201610203293.2A CN201610203293A CN106407995A CN 106407995 A CN106407995 A CN 106407995A CN 201610203293 A CN201610203293 A CN 201610203293A CN 106407995 A CN106407995 A CN 106407995A
- Authority
- CN
- China
- Prior art keywords
- gpu
- image
- block
- matrix
- block group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明实施例公开一种图像数据集的稀疏表示的加速方法,所述方法包括:获得图像数据集S;将S中每个图像转换为图像块;将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;在GPU中,通过m个CPU线程并行计算IK‑SVD算法对所述m个块组的稀疏表示,所述GPU支持Hyper‑Q功能与动态并行功能。由于采用了将图像数据集S中每个图像转换为图像块,并将S中的图像块分为m个块组,最后在GPU中通过m个CPU线程并行技术IK‑SVD算法对m个块组的稀疏表示的技术方案,其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK‑SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK‑SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种图像数据集的稀疏表示的加速方法以及装置。
背景技术
图像数据集的稀疏表示包括自学习方法,自学习方法不需任何预定的形式获取超完备字典,自学习方法的基本假设是:复杂的非相干特性的结构可以直接从数据提取,而不是使用一个数学表达描述。例如,给定一组图像向量,K-SVD(全称:K-Singular ValueDecomposition;中文:K-奇异值分解)方法能在严格的稀疏约束下寻找导致在该组中每个成员表示最好的字典。非参数贝叶斯字典学习使用一个截断的β-伯努利过程来学习相匹配的图像块的字典。
在当前大数据的时代,图像数据集的大小已经呈爆炸式的增长,而自学习的方法不能有效的处理非常大的数据集,因为每次学习迭代都需要访问整个数据集,处理速度较慢。
因此,现有技术中存在对图像数据集的稀疏表示的处理速度较慢的技术问题。
发明内容
本发明实施例通过提供一种图像数据集的稀疏表示的加速方法以及装置,用以解决现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
本发明实施例提供了一种图像数据集的稀疏表示的加速方法,所述方法包括:
获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
将S中每个图像转换为图像块;
将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
在GPU中,通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,所述GPU支持Hyper-Q功能与动态并行功能。
可选地,所述将S中每个图像转换为图像块,具体为:
针对S中任一图像Y∈S,将Y分为Pi个块,
可选地,所述通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,具体包括:
所述m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
可选地,所述计算稀疏系数,具体包括:
通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1;
根据块组中的剩余图像块对所述超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
可选地,所述在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,包括:
通过和 选取所述新的原子;以及
通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新;以及
通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。
本发明实施例第二方面还提供一种图像数据集的稀疏表示的加速装置,其特征在于,所述装置包括:
获得单元,用于获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
转换单元,用于将S中每个图像转换为图像块;
分组单元,用于将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
计算单元,用于在GPU中,通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,所述GPU支持Hyper-Q功能与动态并行功能。
可选地,所述转换单元具体用于针对S中任一图像Y∈S,将Y分为Pi个块,
可选地,所述计算单元具体用于所述m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
可选地,所述计算单元具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1,并根据块组中的剩余图像块对所述超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
可选地,所述计算单元具体用于通过 和选取所述新的原子,以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新,以及通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了将图像数据集S中每个图像转换为图像块,并将S中的图像块分为m个块组,最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案,其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK-SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高,解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
附图说明
图1为本发明实施例提供的图像数据集的稀疏表示的加速方法的流程图;
图2为本发明实施例提供的图像数据集的稀疏表示的加速方法的过程示意图;
图3为本发明实施例提供的BRC格式矩阵的表示示意图;
图4为本发明实施例提供的图像数据集的稀疏表示的加速装置的模块图。
具体实施方式
本发明实施例通过提供一种图像数据集的稀疏表示的加速方法以及装置,用以解决现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
本发明实施例中的技术方案解决上述技术问题,总体思路如下:
本发明实施例提供一种图像数据集的稀疏表示的加速方法,方法包括:
首先,获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
接着,将S中每个图像转换为图像块;
然后,将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
最后,在GPU中,通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示,GPU支持Hyper-Q功能与动态并行功能。Hyper-Q技术允许多个CPU内核与同一个单一GPU同时开展工作,从而大大提高了GPU的利用率,大幅降低了CPU的空闲时间,而动态并行功能使得GPU线程可以自动刷新新线程,减少了CPU控制GPU刷新线程的时间,从而简化了并行操作。
可以看出,由于采用了将图像数据集S中每个图像转换为图像块,并将S中的图像块分为m个块组,最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案,其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK-SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高,解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
请参考图1,图1为本发明实施例提供的图像数据集的稀疏表示的加速方法的流程图,如图1所示,该方法包括:
S1:获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};在本实施例中,图像数据集S可以为大规模图像数据集,例如,在本实施例中,S内可以包括10000张图片;
S2:将S中每个图像转换为图像块;
S3:将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
S4:在GPU中,通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示,GPU支持Hyper-Q功能与动态并行功能。
请继续参考图2,图2为本发明实施例提供的图像数据集的稀疏表示的加速方法的过程图。
请同时参考图1和图2,在本实施例中,将S中每个图像转换为图像块,具体为:针对S中任一图像Y∈S,将Y分为Pi个块,
在具体实施过程中,可以根据S中的图像大小,将每个图像分为合适数目的图像块,例如在S中图像中最小图片的大小为1Mb的情况下,可以将S中每张图片按照100kb/块的大小进行分块,当然,此处的100kb/块仅仅是一个举例,通过本实施例的介绍,本领域所属的技术人员能够根据实际情况,选择其他合适的数值来对图像进行分块,以满足实际情况的需要,在此就不再赘述了。
请同时参考图1和图2,在本实施例中,通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示,具体包括:m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
在具体实施过程中,如图2所示,在GPU中,m个CPU线程执行对应的m个块组的计算稀疏系数的任务,并且由于各个m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK-SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高,解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
在具体实施过程中,计算稀疏系数,具体包括:
通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1;
根据块组中的剩余图像块对超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
在具体实施过程中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,包括:
通过和 选取新的原子;以及
通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新;以及
通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新。
在具体实施过程中,通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新,具体为:
通过GPU计算Ln-1←K(Solve{Ln-1=KDKT}in parallel)。
在具体实施过程中,通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新,包括:
通过GPU计算A←Temp(Temp=AK-T in parallel)和B←TempTempT in parallel。
在具体实施过程中,在IK-SVD方法中存在大量的矩阵矩阵相乘(SpMM)和矩阵向量相乘(SpMV)。基于GPU的Batch-OMP算法也主要依赖于矩阵运算。由于Coordinate(COO)、Compressed Sparse Row(CSR)、ELLPACK(ELL)和hybrid(HYB)格式的矩阵稀疏格式存在线程发散、冗余计算、数据传输、缺乏适应性等问题。
本发明采用一种自适应的稀疏矩阵格式——blocked row-column(BRC)。给定矩阵M:其基于BRC格式的表示方法如图3所示。B1为相邻行分块,其值设置成一个warp的大小(例如32),块较长的行将会导致负载不平衡,然后对其进行列分块。每一个block具有相同的大小B1×T,具体可以通过以下两个公式进行限制: 其中C为一个常量,μ是每一行非零个数的平均值,σ为标准差,MaxNZ为最大非零个数的行。
通过上述部分可以看出,由于采用了将图像数据集S中每个图像转换为图像块,并将S中的图像块分为m个块组,最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案,其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK-SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高,解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
基于同一发明构思,本发明实施例第二方面还提供一种图像数据集的稀疏表示的加速装置,请参考图2,图2为本发明实施例提供的图像数据集的稀疏表示的加速装置的示意图,如图2所示,该装置包括:
获得单元401,用于获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
转换单元402,用于将S中每个图像转换为图像块;
分组单元403,用于将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
计算单元404,用于在GPU中,通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示,GPU支持Hyper-Q功能与动态并行功能。
在具体实施过程中,转换单元402具体用于针对S中任一图像Y∈S,将Y分为Pi个块,
在具体实施过程中,计算单元404具体用于m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
在具体实施过程中,计算单元404具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1,并根据块组中的剩余图像块对超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
在具体实施过程中,计算单元404具体用于通过 和选取新的原子,以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新,以及通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新。
在具体实施过程中,通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新,包括:
通过GPU计算A←Temp(Temp=AK-T in parallel)和B←TempTempT in parallel。
本发明实施例中的加速装置与前述部分介绍的加速方法是同一发明构思下的两个方面,在前述部分中已经详细地介绍了图像数据集的稀疏表示的加速方法的具体过程,本领域所属的技术人员能够根据前述部分的描述清楚地了解加速装置的结构以及处理过程,在此为了说明书的简洁,就不再赘述了。
上述本发明实施例中的技术方案,至少具有如下的技术效果或优点:
由于采用了将图像数据集S中每个图像转换为图像块,并将S中的图像块分为m个块组,最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案,其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响,同时IK-SVD算法需要多次执行稀疏编码,所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高,解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种图像数据集的稀疏表示的加速方法,其特征在于,所述方法包括:
获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
将S中每个图像转换为图像块;
将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
在GPU中,通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,所述GPU支持Hyper-Q功能与动态并行功能。
2.如权利要求1所述的方法,其特征在于,所述将S中每个图像转换为图像块,具体为:
针对S中任一图像Y∈S,将Y分为Pi个块,
3.如权利要求1所述的方法,其特征在于,所述通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,具体包括:
所述m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
4.如权利要求3所述的方法,其特征在于,所述计算稀疏系数,具体包括:
通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1;
根据块组中的剩余图像块对所述超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
5.如权利要求4所述的方法,其特征在于,所述在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,包括:
通过和选取所述新的原子;以及
通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新;以及
通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。
6.一种图像数据集的稀疏表示的加速装置,其特征在于,所述装置包括:
获得单元,用于获得图像数据集S,S={Yi|1≤i≤s^Yi∈Rn×N};
转换单元,用于将S中每个图像转换为图像块;
分组单元,用于将S中的图像块分为m个块组,其中m为最大数量的CPU线程数;
计算单元,用于在GPU中,通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示,所述GPU支持Hyper-Q功能与动态并行功能。
7.如权利要求6所述的装置,其特征在于,所述转换单元具体用于针对S中任一图像Y∈S,将Y分为Pi个块,
8.如权利要求6所述的装置,其特征在于,所述计算单元具体用于所述m个线程对m个块组并行执行:将局部数据传送到GPU存储器;计算稀疏系数;从GPU输出结果。
9.如权利要求8所述的装置,其特征在于,所述计算单元具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D1,并根据块组中的剩余图像块对所述超完备字典D1进行更新,其中,在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算,直到收敛。
10.如权利要求9所述的装置,其特征在于,所述计算单元具体用于通过和选取所述新的原子,以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵Ln-1更新,以及通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610203293.2A CN106407995A (zh) | 2016-04-01 | 2016-04-01 | 一种图像数据集的稀疏表示的加速方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610203293.2A CN106407995A (zh) | 2016-04-01 | 2016-04-01 | 一种图像数据集的稀疏表示的加速方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106407995A true CN106407995A (zh) | 2017-02-15 |
Family
ID=58007061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610203293.2A Pending CN106407995A (zh) | 2016-04-01 | 2016-04-01 | 一种图像数据集的稀疏表示的加速方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407995A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469870A (zh) * | 2021-07-23 | 2021-10-01 | 北京理工大学 | 一种适用于gpu的自适应多行折叠存储方法 |
CN115862014A (zh) * | 2023-02-27 | 2023-03-28 | 中国地质大学(武汉) | 矿区语义分割模型构建方法、装置及矿区语义分割方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102695040A (zh) * | 2012-05-03 | 2012-09-26 | 中兴智能交通(无锡)有限公司 | 基于gpu的并行高清视频车辆检测方法 |
US20140108481A1 (en) * | 2012-10-14 | 2014-04-17 | Microsoft Corporation | Universal fpga/asic matrix-vector multiplication architecture |
CN104063714A (zh) * | 2014-07-20 | 2014-09-24 | 詹曙 | 一种用于视频监控的、基于cuda并行计算与稀疏表示的快速人脸识别算法 |
-
2016
- 2016-04-01 CN CN201610203293.2A patent/CN106407995A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102695040A (zh) * | 2012-05-03 | 2012-09-26 | 中兴智能交通(无锡)有限公司 | 基于gpu的并行高清视频车辆检测方法 |
US20140108481A1 (en) * | 2012-10-14 | 2014-04-17 | Microsoft Corporation | Universal fpga/asic matrix-vector multiplication architecture |
CN104063714A (zh) * | 2014-07-20 | 2014-09-24 | 詹曙 | 一种用于视频监控的、基于cuda并行计算与稀疏表示的快速人脸识别算法 |
Non-Patent Citations (5)
Title |
---|
DEPENG YANG ET AL.: ""Compressed sensing and Cholesky decomposition on FPGAs and GPUs"", 《PARALLEL COMPUTING》 * |
LIZHE WANG ET AL.: ""IK-SVD: Dictionary Learning for Spatial Big Data via Incremental Atom Update"", 《COMPUTING IN SCIENCE & ENGINEERING》 * |
WEIJING SONG ET AL.: ""G-IK-SVD: parallel IK-SVD on GPUs for sparse representation of spatial big data"", 《SPRINGERLINK》 * |
唐吉卓: ""基于GPU平台的SVD并行计算研究与实现"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
张继贤 等: "《西部地形困难区域测图的原理与方法》", 31 January 2013 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469870A (zh) * | 2021-07-23 | 2021-10-01 | 北京理工大学 | 一种适用于gpu的自适应多行折叠存储方法 |
CN115862014A (zh) * | 2023-02-27 | 2023-03-28 | 中国地质大学(武汉) | 矿区语义分割模型构建方法、装置及矿区语义分割方法 |
CN115862014B (zh) * | 2023-02-27 | 2023-04-28 | 中国地质大学(武汉) | 矿区语义分割模型构建方法、装置及矿区语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886167B (zh) | 神经网络运算装置及方法 | |
Naveros et al. | A spiking neural simulator integrating event-driven and time-driven computation schemes using parallel CPU-GPU co-processing: a case study | |
US9606965B2 (en) | Semiconductor device | |
CN103617150A (zh) | 一种基于gpu的大规模电力系统潮流并行计算系统及其方法 | |
US9378533B2 (en) | Central processing unit, GPU simulation method thereof, and computing system including the same | |
US20230267357A1 (en) | Simulation method of quantum system, computing device and storage medium | |
US20190188569A1 (en) | Parallel Forward and Backward Propagation | |
CN105913063A (zh) | 一种图像数据集的稀疏表示的加速方法及装置 | |
US20220129753A1 (en) | Pre-training method of neural network model, electronic device and medium | |
US20230068450A1 (en) | Method and apparatus for processing sparse data | |
WO2019046727A1 (en) | PROVIDING FLEXIBLE MATRIX PROCESSORS FOR REALIZING NEURAL NETWORK CONVOLUTION IN MATRIX PROCESSOR-BASED DEVICES | |
US20170185380A1 (en) | Semiconductor device and information processing system | |
CN103177414A (zh) | 一种基于结构的图节点相似度并行计算方法 | |
CN106407995A (zh) | 一种图像数据集的稀疏表示的加速方法以及装置 | |
US11907825B2 (en) | Training neural networks using distributed batch normalization | |
JP2023092442A (ja) | 集積回路チップ検証方法、装置、電子デバイス及び記憶媒体 | |
He et al. | Parallel GMRES solver for fast analysis of large linear dynamic systems on GPU platforms | |
TWI740338B (zh) | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 | |
Qi et al. | Model order reduction based on general orthogonal polynomials in the time domain for coupled systems | |
CN111338974A (zh) | 用于矩阵数学指令集的图块化算法 | |
CN114723024A (zh) | 用于存算一体芯片的基于线性规划的神经网络映射方法 | |
Yu et al. | GPU-based JFNG method for power system transient dynamic simulation | |
JP4823928B2 (ja) | 連立一次方程式の並列求解装置 | |
WO2020149919A1 (en) | Inertial damping for enhanced simulation of elastic bodies | |
CN112734622A (zh) | 一种基于Tucker分解的图像隐写分析方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170215 |
|
RJ01 | Rejection of invention patent application after publication |