CN106407995A

CN106407995A - 一种图像数据集的稀疏表示的加速方法以及装置

Info

Publication number: CN106407995A
Application number: CN201610203293.2A
Authority: CN
Inventors: 邓泽; 王力哲; 陈小岛; 陈云亮; 杜波
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2017-02-15

Abstract

本发明实施例公开一种图像数据集的稀疏表示的加速方法，所述方法包括：获得图像数据集S；将S中每个图像转换为图像块；将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；在GPU中，通过m个CPU线程并行计算IK‑SVD算法对所述m个块组的稀疏表示，所述GPU支持Hyper‑Q功能与动态并行功能。由于采用了将图像数据集S中每个图像转换为图像块，并将S中的图像块分为m个块组，最后在GPU中通过m个CPU线程并行技术IK‑SVD算法对m个块组的稀疏表示的技术方案，其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响，同时IK‑SVD算法需要多次执行稀疏编码，所以在GPU中通过m个线程并行计算IK‑SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高。

Description

一种图像数据集的稀疏表示的加速方法以及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种图像数据集的稀疏表示的加速方法以及装置。

背景技术

图像数据集的稀疏表示包括自学习方法，自学习方法不需任何预定的形式获取超完备字典，自学习方法的基本假设是：复杂的非相干特性的结构可以直接从数据提取，而不是使用一个数学表达描述。例如，给定一组图像向量，K-SVD(全称：K-Singular ValueDecomposition；中文：K-奇异值分解)方法能在严格的稀疏约束下寻找导致在该组中每个成员表示最好的字典。非参数贝叶斯字典学习使用一个截断的β-伯努利过程来学习相匹配的图像块的字典。

在当前大数据的时代，图像数据集的大小已经呈爆炸式的增长，而自学习的方法不能有效的处理非常大的数据集，因为每次学习迭代都需要访问整个数据集，处理速度较慢。

因此，现有技术中存在对图像数据集的稀疏表示的处理速度较慢的技术问题。

发明内容

本发明实施例通过提供一种图像数据集的稀疏表示的加速方法以及装置，用以解决现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。

本发明实施例提供了一种图像数据集的稀疏表示的加速方法，所述方法包括：

获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；

将S中每个图像转换为图像块；

将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

在GPU中，通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示，所述GPU支持Hyper-Q功能与动态并行功能。

可选地，所述将S中每个图像转换为图像块，具体为：

针对S中任一图像Y∈S，将Y分为P_i个块，

可选地，所述通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示，具体包括：

所述m个线程对m个块组并行执行：将局部数据传送到GPU存储器；计算稀疏系数；从GPU输出结果。

可选地，所述计算稀疏系数，具体包括：

通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D₁；

根据块组中的剩余图像块对所述超完备字典D₁进行更新，其中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，直到收敛。

可选地，所述在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，包括：

通过和选取所述新的原子；以及

通过GPU计算递归Cholesky分解中矩阵的左上角矩阵L^n-1更新；以及

通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。

本发明实施例第二方面还提供一种图像数据集的稀疏表示的加速装置，其特征在于，所述装置包括：

获得单元，用于获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；

转换单元，用于将S中每个图像转换为图像块；

分组单元，用于将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

计算单元，用于在GPU中，通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示，所述GPU支持Hyper-Q功能与动态并行功能。

可选地，所述转换单元具体用于针对S中任一图像Y∈S，将Y分为P_i个块，

可选地，所述计算单元具体用于所述m个线程对m个块组并行执行：将局部数据传送到GPU存储器；计算稀疏系数；从GPU输出结果。

可选地，所述计算单元具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D₁，并根据块组中的剩余图像块对所述超完备字典D₁进行更新，其中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，直到收敛。

可选地，所述计算单元具体用于通过和选取所述新的原子，以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵L^n-1更新，以及通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了将图像数据集S中每个图像转换为图像块，并将S中的图像块分为m个块组，最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案，其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响，同时IK-SVD算法需要多次执行稀疏编码，所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高，解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。

附图说明

图1为本发明实施例提供的图像数据集的稀疏表示的加速方法的流程图；

图2为本发明实施例提供的图像数据集的稀疏表示的加速方法的过程示意图；

图3为本发明实施例提供的BRC格式矩阵的表示示意图；

图4为本发明实施例提供的图像数据集的稀疏表示的加速装置的模块图。

具体实施方式

本发明实施例中的技术方案解决上述技术问题，总体思路如下：

本发明实施例提供一种图像数据集的稀疏表示的加速方法，方法包括：

首先，获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；

接着，将S中每个图像转换为图像块；

然后，将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

最后，在GPU中，通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示，GPU支持Hyper-Q功能与动态并行功能。Hyper-Q技术允许多个CPU内核与同一个单一GPU同时开展工作，从而大大提高了GPU的利用率，大幅降低了CPU的空闲时间，而动态并行功能使得GPU线程可以自动刷新新线程，减少了CPU控制GPU刷新线程的时间，从而简化了并行操作。

可以看出，由于采用了将图像数据集S中每个图像转换为图像块，并将S中的图像块分为m个块组，最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案，其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响，同时IK-SVD算法需要多次执行稀疏编码，所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高，解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

请参考图1，图1为本发明实施例提供的图像数据集的稀疏表示的加速方法的流程图，如图1所示，该方法包括：

S1：获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；在本实施例中，图像数据集S可以为大规模图像数据集，例如，在本实施例中，S内可以包括10000张图片；

S2：将S中每个图像转换为图像块；

S3：将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

S4：在GPU中，通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示，GPU支持Hyper-Q功能与动态并行功能。

请继续参考图2，图2为本发明实施例提供的图像数据集的稀疏表示的加速方法的过程图。

请同时参考图1和图2，在本实施例中，将S中每个图像转换为图像块，具体为：针对S中任一图像Y∈S，将Y分为P_i个块，

在具体实施过程中，可以根据S中的图像大小，将每个图像分为合适数目的图像块，例如在S中图像中最小图片的大小为1Mb的情况下，可以将S中每张图片按照100kb/块的大小进行分块，当然，此处的100kb/块仅仅是一个举例，通过本实施例的介绍，本领域所属的技术人员能够根据实际情况，选择其他合适的数值来对图像进行分块，以满足实际情况的需要，在此就不再赘述了。

请同时参考图1和图2，在本实施例中，通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示，具体包括：m个线程对m个块组并行执行：将局部数据传送到GPU存储器；计算稀疏系数；从GPU输出结果。

在具体实施过程中，如图2所示，在GPU中，m个CPU线程执行对应的m个块组的计算稀疏系数的任务，并且由于各个m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响，同时IK-SVD算法需要多次执行稀疏编码，所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高，解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。

在具体实施过程中，计算稀疏系数，具体包括：

根据块组中的剩余图像块对超完备字典D₁进行更新，其中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，直到收敛。

在具体实施过程中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，包括：

通过和选取新的原子；以及

通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新。

在具体实施过程中，通过GPU计算递归Cholesky分解中矩阵的左上角矩阵L^n-1更新，具体为：

通过GPU计算L^n-1←K(Solve{L^n-1＝KDK^T}in parallel)。

在具体实施过程中，通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新，包括：

通过GPU计算A←Temp(Temp＝AK^-T in parallel)和B←TempTemp^T in parallel。

在具体实施过程中，在IK-SVD方法中存在大量的矩阵矩阵相乘(SpMM)和矩阵向量相乘(SpMV)。基于GPU的Batch-OMP算法也主要依赖于矩阵运算。由于Coordinate(COO)、Compressed Sparse Row(CSR)、ELLPACK(ELL)和hybrid(HYB)格式的矩阵稀疏格式存在线程发散、冗余计算、数据传输、缺乏适应性等问题。

本发明采用一种自适应的稀疏矩阵格式——blocked row-column(BRC)。给定矩阵M：其基于BRC格式的表示方法如图3所示。B1为相邻行分块，其值设置成一个warp的大小(例如32)，块较长的行将会导致负载不平衡，然后对其进行列分块。每一个block具有相同的大小B1×T,具体可以通过以下两个公式进行限制：其中C为一个常量，μ是每一行非零个数的平均值，σ为标准差，MaxNZ为最大非零个数的行。

通过上述部分可以看出，由于采用了将图像数据集S中每个图像转换为图像块，并将S中的图像块分为m个块组，最后在GPU中通过m个CPU线程并行技术IK-SVD算法对m个块组的稀疏表示的技术方案，其中m个CPU线程在GPU中计算m个块组的稀疏表示时各不影响，同时IK-SVD算法需要多次执行稀疏编码，所以在GPU中通过m个线程并行计算IK-SVD算法对m个块组的稀疏表示时的计算速度能够得到大大提高，解决了现有技术中存在的对图像数据集的稀疏表示的处理速度较慢的技术问题。

基于同一发明构思，本发明实施例第二方面还提供一种图像数据集的稀疏表示的加速装置，请参考图2，图2为本发明实施例提供的图像数据集的稀疏表示的加速装置的示意图，如图2所示，该装置包括：

获得单元401，用于获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；

转换单元402，用于将S中每个图像转换为图像块；

分组单元403，用于将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

计算单元404，用于在GPU中，通过m个CPU线程并行计算IK-SVD算法对m个块组的稀疏表示，GPU支持Hyper-Q功能与动态并行功能。

在具体实施过程中，转换单元402具体用于针对S中任一图像Y∈S，将Y分为P_i个块，

在具体实施过程中，计算单元404具体用于m个线程对m个块组并行执行：将局部数据传送到GPU存储器；计算稀疏系数；从GPU输出结果。

在具体实施过程中，计算单元404具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D₁，并根据块组中的剩余图像块对超完备字典D₁进行更新，其中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，直到收敛。

在具体实施过程中，计算单元404具体用于通过和选取新的原子，以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵L^n-1更新，以及通过GPU计算矩阵中子矩阵A和子矩阵B的顺序更新。

本发明实施例中的加速装置与前述部分介绍的加速方法是同一发明构思下的两个方面，在前述部分中已经详细地介绍了图像数据集的稀疏表示的加速方法的具体过程，本领域所属的技术人员能够根据前述部分的描述清楚地了解加速装置的结构以及处理过程，在此为了说明书的简洁，就不再赘述了。

上述本发明实施例中的技术方案，至少具有如下的技术效果或优点：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像数据集的稀疏表示的加速方法，其特征在于，所述方法包括：

获得图像数据集S，S＝{Y_i|1≤i≤s^Y_i∈R^n×N}；

将S中每个图像转换为图像块；

将S中的图像块分为m个块组，其中m为最大数量的CPU线程数；

2.如权利要求1所述的方法，其特征在于，所述将S中每个图像转换为图像块，具体为：

针对S中任一图像Y∈S，将Y分为P_i个块，

3.如权利要求1所述的方法，其特征在于，所述通过m个CPU线程并行计算IK-SVD算法对所述m个块组的稀疏表示，具体包括：

4.如权利要求3所述的方法，其特征在于，所述计算稀疏系数，具体包括：

5.如权利要求4所述的方法，其特征在于，所述在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，包括：

通过和选取所述新的原子；以及

通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。

6.一种图像数据集的稀疏表示的加速装置，其特征在于，所述装置包括：

转换单元，用于将S中每个图像转换为图像块；

7.如权利要求6所述的装置，其特征在于，所述转换单元具体用于针对S中任一图像Y∈S，将Y分为P_i个块，

8.如权利要求6所述的装置，其特征在于，所述计算单元具体用于所述m个线程对m个块组并行执行：将局部数据传送到GPU存储器；计算稀疏系数；从GPU输出结果。

9.如权利要求8所述的装置，其特征在于，所述计算单元具体用于通过IK-SVD算法训练对块组中的第一个图像块获得超完备字典D₁，并根据块组中的剩余图像块对所述超完备字典D₁进行更新，其中，在每一次更新时通过GPU计算递归Cholesky分解中的矩阵运算，直到收敛。

10.如权利要求9所述的装置，其特征在于，所述计算单元具体用于通过和选取所述新的原子，以及通过GPU计算递归Cholesky分解中矩阵的左上角矩阵L^n-1更新，以及通过GPU计算所述矩阵中子矩阵A和子矩阵B的顺序更新。