CN110363699B

CN110363699B - 一种基于OpenMP和CUDA的图像特征提取并行算法

Info

Publication number: CN110363699B
Application number: CN201910548763.2A
Authority: CN
Inventors: 王卓薇; 陈光明; 蓝嘉颖; 赵芝茵
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-11-04
Anticipated expiration: 2039-06-24
Also published as: CN110363699A

Abstract

本发明公开一种基于OpenMP和CUDA的图像特征提取并行算法，应用于利用内核原型分析算法的图像特征提取，针对图像本身的特点，即在图像处理算法中存在大量矩阵运算，对内核原型分析算法进行了优化。通过在采用FURTHESTSUM算法对内核原型分析算法进行初始化的过程中，使用了OpenMP多线程并行同时结合归约算法对其进行优化，随后在使用投影梯度法更新矩阵的过程中，使用OpenMP和CUDA在GPU中并行执行其中的矩阵乘法运算，使用OpenMP并行执行其中的矩阵减法运算，即通过多线程的计算解决了现有的内核原型分析算法中由于在进行最大值和矩阵运算的计算时使用串行方法计算，导致其计算速度慢，运行效率低等问题。

Description

一种基于OpenMP和CUDA的图像特征提取并行算法

技术领域

本发明涉及图像特征提取技术领域，尤其涉及一种基于OpenMP和CUDA的图像特征提取并行算法。

背景技术

原型分析算法(简称AA算法)是一种先驱无监督学习技术，该算法直接结合了矩阵分解和聚类的优点的灵活性，同时比常见的矩阵分解和聚类方法有着更好的可解释性，同时在预测任务方面有良好的结果。它被认为是PCA的替代方案，用于从高维数据中发现潜在因子，可应用到各种机器学习问题中。在图像特征提取应用中，与PCA相比，AA提取的特征代表更多不同的图像原型，揭示了可变性和图像的多样性。现有的算法将传统AA程序推广到KERNEL-AA，即内核原型分析算法，以便在潜在的无限希尔伯特空间中提取主凸包，并在原型不能表示为观测数据的凸组合时得到AA的松弛，AA算法采用K-Means的FURTHESTFIRST算法进行初始化，随后使用简单的投影梯度法计算并得到结果。

然而，由于图像本身的特点，图像处理算法中存在大量矩阵运算，内核原型分析算法中在进行最大值和矩阵运算的计算时使用串行方法计算，不能最大限度地将算法并行优化，其计算速度慢，运行效率低。

参考文献：Hansen L K.Archetypal analysis for machine learning and datamining[M].Elsevier Science Publishers B.V.2012.

发明内容

本发明为解决现有的内核原型分析算法中在进行最大值和矩阵运算的计算时使用串行方法计算，其计算速度慢，运行效率低等问题，提供了一种基于OpenMP和CUDA的图像特征提取并行算法。

为实现以上发明目的，而采用的技术手段是：

一种基于OpenMP和CUDA的图像特征提取并行算法，应用于利用内核原型分析算法的图像特征提取，包括以下步骤：

S1.获取待处理的图像，所述图像大小为m×n，则所述图像的矩阵为X(m×n)，对待处理矩阵进行计算得到核矩阵K(m×m)，K＝X^TX；并作为内核原型分析算法的输入；

S2.设置内核原型分析算法中的初始参数α、δ和原型个数D；

S3.采用FURTHESTSUM算法对内核原型分析算法进行初始化，使用OpenMP和CUDA在GPU中并行执行所述初始化中的候选点提取过程，根据归约算法求取各计算节点中候选点的最大值后得到最终提取的D个候选点；

S4.根据提取得到D个候选点初始化矩阵C(n×D)以及矩阵S(D×n)，其中矩阵S中每个元素的值随机生成；

S5.使用投影梯度法更新矩阵C、矩阵S以及矩阵αC得到计算结果；其中使用投影梯度法更新矩阵的过程中，使用OpenMP和CUDA在GPU中并行执行其中的矩阵乘法运算，使用OpenMP并行执行其中的矩阵减法运算；

S6.根据计算结果计算矩阵A＝XC即为对图像进行特征提取得到的特征矩阵。

上述方案中，通过在采用FURTHESTSUM算法对内核原型分析算法进行初始化的过程中，使用了OpenMP多线程并行同时结合归约算法对其进行优化，随后在使用投影梯度法更新矩阵的过程中，使用OpenMP和CUDA在GPU中并行执行其中的矩阵乘法运算，使用OpenMP并行执行其中的矩阵减法运算，即通过多线程的计算提高了算法的运行效率和运行速度。

优选的，步骤S1中所述的内核原型分析算法为：

arg min_C,SD(X|XCS)

s.t.|c_d|₁＝1,|s_n|₁＝1

C≥0，S≥0

其中C为原始输入数据的权重系数矩阵，S为原始输入数据变换后的比例系数矩阵，α、δ为针对无纯像元存在的情况引入的尺度变量。

优选的，所述步骤S3具体包括以下步骤：

S31.在所述核矩阵K＝X^TX中随机选择一个点j作为初始候选点，并放到集合N中；

S32.利用OpenMP开启多个线程：

当n≤2048时，开启2个线程；

当2048＜n≤10240时，开启4个线程；

当n＞10240时，开启8个线程；

当n达到千万级时，则使用CUDA在GPU开启1024个以上的线程；

S33.将除集合N外的点平均分到步骤S32得到的每个线程中，在每个线程计算线程中的点到集合N中候选点的距离，并选出其中的距离最大值；在所有线程的距离最大值中，再次选出最大值，并将该最大值对应的点加入集合N中作为候选点；

S34.重复步骤S33，直至选出D个候选点；

S35.删除步骤S31随机选出的初始候选点j，并通过步骤S33选出最后一个候选点；得到最终提取的D个候选点。

优选的，步骤S5中所述使用投影梯度法更新矩阵C得到计算结果的具体步骤包括：

S5.1.1计算矩阵C的梯度：

其中向量α为一维向量，其中的每个元素等于矩阵C每一列元素之和；矩阵diag(α)为以α的元素为对象线元素的矩阵；

等价于矩阵C；矩阵K为核矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

a.计算

使用OpenMP和CUDA并行执行以下步骤a1～a3，即使用OpenMP和CUDA并行执行矩阵乘法运算；

a1.计算

在显存中为矩阵K、矩阵

矩阵A₂分配空间，将矩阵K和矩阵

拷贝到分配的显存空间中，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₂；

a2.计算

在显存中为矩阵diag(α)、矩阵

矩阵A₃分配空间，将矩阵diag(α)和矩阵

得到矩阵A₃；

a3.计算

在显存中为矩阵A₄分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₄；

a4.计算A₅＝A₂A₃：在显存中为矩阵A₅分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₂A₃，得到矩阵A₅；

a5.计算A₁＝A₅A₄：在显存中为矩阵A₁分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₅A₄，得到矩阵A₁；

b.计算

b1.计算

在显存中为矩阵A₇分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₇；

b2.计算A₆＝A₇diag(α)：在显存中为矩阵A₆分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₇diag(α)，得到矩阵A₆；

c.计算

使用OpenMP开启4个线程，将计算得到的矩阵A₁和矩阵A₆平均分为4块分别交由4个线程执行矩阵减法运算，得到矩阵C的梯度；

S5.1.2.在梯度方向上更新矩阵C：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.1.3.通过线性搜索调整μ_C；

S5.1.4.重复执行步骤S5.1.1～S5.1.3直至收敛。

优选的，步骤S5中所述使用投影梯度法更新矩阵S得到计算结果的具体步骤包括：

S5.2.1计算矩阵S的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵X为图像矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

c.计算

使用OpenMP和CUDA并行执行以下步骤c1～c3，即使用OpenMP和CUDA并行执行矩阵乘法运算；

c1.计算

在显存中为矩阵

矩阵A₉分配空间，将矩阵

得到矩阵A₉；

c2.计算A₁₀＝X^┬X：在显存中为矩阵X、矩阵X^┬分配空间，将矩阵X、矩阵X^┬拷贝到分配的显存空间中，使用cuBLAS库中的cublasSgemm函数在GPU中计算X^┬X，得到矩阵A₁₀；

c3.计算

在显存中为矩阵

矩阵A₁₁分配空间，将矩阵

得到矩阵A₁₁；

使用OpenMP和CUDA并行执行步骤c4～c5，即使用OpenMP和CUDA并行执行矩阵乘法运算；

c4.计算A₁₂＝A₉A₁₀：在显存中为矩阵A₁₂分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₉A₁₀，得到矩阵A₁₂；

c5.计算

在显存中为矩阵A₁₃分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₁₃；

c6.计算A₈＝A₁₂A₁₃：在显存中为矩阵A₈分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₁₂A₁₃，得到矩阵A₈；

d.计算

d1.计算

在显存中为矩阵A₁₅分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₁₅；

d2.计算A₁₄＝A₁₅K：在显存中为矩阵A₁₄分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₁₅K，得到矩阵A₁₄；

e.计算

使用OpenMP开启4个线程，将计算得到的矩阵A₈和矩阵A₁₄平均分为4块分别交由4个线程执行矩阵减法运算，得到矩阵S的梯度；

S5.2.2.在梯度方向上更新矩阵S：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.2.3.通过线性搜索调整μ_S；

S5.2.4.重复执行步骤S5.2.1～S5.2.3直至收敛。

优选的，步骤S5中所述使用投影梯度法更新矩阵α_C得到计算结果的具体步骤包括：

S5.3.1计算矩阵α_C的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵

等价于矩阵S；

为归一化不变量；

f.计算

使用OpenMP和CUDA并行执行以下步骤f1～f2，即使用OpenMP和CUDA并行执行矩阵乘法运算；

f1.计算

在显存中为矩阵A₁₇分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₁₇；

f2.计算

在显存中为矩阵A₁₈分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₁₈；

f3.计算A19＝A₁₇A₁₈：在显存中为矩阵A₁₉分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₁₇A₁₈，得到矩阵A₁₉；

f4.计算A₁₆＝A₁₉S^┬：在显存中为矩阵A₁₆分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算A₁₉S^┬，得到矩阵A₁₆；

g.计算

在显存中为矩阵A₂₀分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₂₀；

h.计算A₂₁＝A₁₆-A₂₀：使用OpenMP开启4个线程，将计算得到的矩阵A₁₆和矩阵A₂₀平均分为4块分别交由4个线程执行矩阵减法运算，得到矩阵A₂₁；

i.计算矩阵A₂₁中每一列的元素之和：

j.计算

S5.3.2.在梯度方向上更新矩阵α_C：

α←α-μ_αg^α

S5.3.3.通过线性搜索调整μ_α；

S5.3.4.重复执行步骤S5.3.1～S5.3.3直至收敛。

优选的，所述步骤S6具体包括：根据步骤S5得到的计算结果，在显存中为矩阵X、矩阵C、矩阵A分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算XC，得到矩阵A，矩阵A即为对图像进行特征提取得到的特征矩阵。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法针对图像本身的特点，即在图像处理算法中存在大量矩阵运算，对内核原型分析算法进行了优化，通过在采用FURTHESTSUM算法对内核原型分析算法进行初始化的过程中，使用了OpenMP多线程并行同时结合归约算法对其进行优化，随后在使用投影梯度法更新矩阵的过程中，使用OpenMP和CUDA在GPU中并行执行其中的矩阵乘法运算，使用OpenMP并行执行其中的矩阵减法运算，即通过多线程的计算提高了算法的运行效率和运行速度，解决了现有的内核原型分析算法中由于在进行最大值和矩阵运算的计算时使用串行方法计算，导致其计算速度慢，运行效率低等问题。

附图说明

图1为本发明方法的总流程图。

图2为本发明使用OpenMP和CUDA在GPU中并行执行矩阵乘法运算的原理图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

一种基于OpenMP和CUDA的图像特征提取并行算法，应用于利用内核原型分析算法的图像特征提取，如图1所示，包括以下步骤：

S1.获取待处理的图像，所述图像大小为m×n，则所述图像的矩阵为X(m×n)，对待处理矩阵进行计算得到核矩阵K(m×m)，K＝X^TX；并作为内核原型分析算法的输入

S2.设置内核原型分析算法中的初始参数α、δ和原型个数D；

S5.使用投影梯度法更新矩阵C、矩阵S以及矩阵α_C得到计算结果；其中使用投影梯度法更新矩阵的过程中，使用OpenMP和CUDA在GPU中并行执行其中的矩阵乘法运算，使用OpenMP并行执行其中的矩阵减法运算；

其中本发明中使用OpenMP和CUDA在GPU中并行执行矩阵乘法运算的原理如下：

假设需要计算矩阵P_d＝M_d×N_d，其中矩阵M_d维数为a×b，矩阵N_d维数为b×c，则矩阵P_d维数为a×c；

如图2所示，每个线程块负责计算矩阵P_d中一TILE_WIDTH×TILE_WIDTH大小的区，TILE_WIDTH是瓦片的长和宽，线程块中每个线程负责计算该区域中的一个元素，其中图2中的1为一个线程块的示例，图2中的2为线程块中一个线程的示例。这样，该线程块需要加载的数据局限在矩阵M_d中的一块，其大小为TILE_WIDTH×矩阵M_d的宽度b，以及矩阵N_d中的一块，其大小为TILE_WIDTH×矩阵N_d的高度b；

加载数据时，每一个线程只从M_d、N_d中各加载一个对应于本线程在线程块中的位置的数据，并写入共享内存储存。使用算法，A中每个元素将被加载矩阵M_d的宽度b/TILE_WIDTH次，B中每个元素将被加载矩阵N_d的高度b/TILE_WIDTH次，共享内存储存的负担直接减小了TILE_WIDTH倍。

在每个线程块中，即在一个瓦片中的所有线程共享一块共享内存，所以为了提高计算效率，首先把这个瓦片需要的数据从两个输入矩阵中拷过来，即从全局内存拷贝到共享内存里，存入两个临时矩阵之中。在本发明的该算法选择的是大小为16×16的瓦片。

按矩阵相乘的计算方法，将加载进来的小矩阵进行乘加。计算完图2中TILE_WIDTH×TILE_WIDTH大小的第一块后，将矩阵Md中取元素的窗口向右滑动，将矩阵Nd中的窗口向下滑动，重复上述计算过程，将结果累加到上一次计算的结果中。至滑动完毕时，累加器中的数据即为对应位置的结果。如果输入矩阵不是方阵或宽高b不是瓦片尺寸的整倍数，在最后一次拷贝数据，有一部分元素会“越界”，在越界元素的位置填充0，便不影响计算结果。

实施例2

内核原型分析算法的公式为：

argmin_C,SD(X|XCS)

s.t.|c_d|₁＝1,|s_n|₁＝1

C≥0，S≥0

S2.设置内核原型分析算法中的初始参数α、δ和原型个数D；

S32.利用OpenMP开启多个线程：

当n≤2048时，开启2个线程；

当2048＜n≤10240时，开启4个线程；

当n＞10240时，开启8个线程；

当n达到千万级时，则使用CUDA在GPU开启1024个以上的线程；

S34.重复步骤S33，直至选出D个候选点；

S5.1.1计算矩阵C的梯度：

等价于矩阵C；矩阵K为核矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

a.计算

a1.计算

在显存中为矩阵K、矩阵

矩阵A₂分配空间，将矩阵K和矩阵

得到矩阵A₂；

a2.计算

在显存中为矩阵diag(α)、矩阵

矩阵A₃分配空间，将矩阵diag(α)和矩阵

得到矩阵A₃；

a3.计算

得到矩阵A₄；

b.计算

b1.计算

得到矩阵A₇；

c.计算

S5.1.2.在梯度方向上更新矩阵C：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.1.3.通过线性搜索调整μ_C；

S5.1.4.重复执行步骤S5.1.1～S5.1.3直至收敛。

S5.2.1计算矩阵S的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵X为图像矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

c.计算

c1.计算

在显存中为矩阵

矩阵A₉分配空间，将矩阵

得到矩阵A₉；

c3.计算

在显存中为矩阵

矩阵A₁₁分配空间，将矩阵

得到矩阵A₁₁；

c5.计算

得到矩阵A₁₃；

d.计算

d1.计算

得到矩阵A₁₅；

e.计算

S5.2.2.在梯度方向上更新矩阵S：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.2.3.通过线性搜索调整μ_S；

S5.2.4.重复执行步骤S5.2.1～S5.2.3直至收敛。

S5.3.1计算矩阵α_C的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵

等价于矩阵S；

为归一化不变量；

f.计算

f1.计算

得到矩阵A₁₇；

f2.计算

得到矩阵A₁₈；

g.计算

得到矩阵A₂₀；

i.计算矩阵A₂₁中每一列的元素之和：

j.计算

S5.3.2.在梯度方向上更新矩阵α_C：

α←α-μ_αg^α

S5.3.3.通过线性搜索调整μ_α；

S5.3.4.重复执行步骤S5.3.1～S5.3.3直至收敛。

S6.根据步骤S5得到的计算结果，在显存中为矩阵X、矩阵C、矩阵A分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算XC，得到矩阵A，矩阵A即为对图像进行特征提取得到的特征矩阵。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于OpenMP和CUDA的图像特征提取并行算法，应用于利用内核原型分析算法的图像特征提取，其特征在于，包括以下步骤：

S2.设置内核原型分析算法中的初始参数α、δ和原型个数D；

2.根据权利要求1所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，步骤S1中所述的内核原型分析算法为：

arg min_C,SD(X|XCS)

s.t.|c_d|₁＝1,|s_n|₁＝1

C≥0，S≥0

3.根据权利要求1所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，所述步骤S3具体包括以下步骤：

S32.利用OpenMP开启多个线程：

当n≤2048时，开启2个线程；

当2048＜n≤10240时，开启4个线程；

当n＞10240时，开启8个线程；

当n达到千万级时，则使用CUDA在GPU开启1024个以上的线程；

S34.重复步骤S33，直至选出D个候选点；

4.根据权利要求1所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，步骤S5中所述使用投影梯度法更新矩阵C得到计算结果的具体步骤包括：

S5.1.1计算矩阵C的梯度：

等价于矩阵C；矩阵K为核矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

a.计算

a1.计算

在显存中为矩阵K、矩阵

矩阵A₂分配空间，将矩阵K和矩阵

得到矩阵A₂；

a2.计算

在显存中为矩阵diag(α)、矩阵

矩阵A₃分配空间，将矩阵diag(α)和矩阵

得到矩阵A₃；

a3.计算

得到矩阵A₄；

b.计算

b1.计算

得到矩阵A₇；

c.计算

S5.1.2.在梯度方向上更新矩阵C：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.1.3.通过线性搜索调整μC；

S5.1.4.重复执行步骤S5.1.1～S5.1.3直至收敛。

5.根据权利要求4所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，步骤S5中所述使用投影梯度法更新矩阵S得到计算结果的具体步骤包括：

S5.2.1计算矩阵S的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵X为图像矩阵；矩阵

等价于矩阵S；

对上式展开括号得到：

c.计算

c1.计算

在显存中为矩阵

矩阵A₉分配空间，将矩阵

得到矩阵A₉；

c2.计算

在显存中为矩阵X、矩阵

分配空间，将矩阵X、矩阵

得到矩阵A₁₀；

c3.计算

在显存中为矩阵

矩阵A₁₁分配空间，将矩阵

得到矩阵A₁₁；

c5.计算

得到矩阵A₁₃；

d.计算

d1.计算

得到矩阵A₁₅；

e.计算

S5.2.2.在梯度方向上更新矩阵S：

其中

为归一化不变量，

为步长参数，

为梯度值；

S5.2.3.通过线性搜索调整μS；

S5.2.4.重复执行步骤S5.2.1～S5.2.3直至收敛。

6.根据权利要求5所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，步骤S5中所述使用投影梯度法更新矩阵α_C得到计算结果的具体步骤包括：

S5.3.1计算矩阵α_C的梯度：

等价于矩阵C；矩阵

为矩阵C的转置；矩阵K为核矩阵；矩阵

等价于矩阵S；

为归一化不变量；

f.计算

f1.计算

得到矩阵A₁₇；

f2.计算

得到矩阵A₁₈；

f4.计算

在显存中为矩阵A₁₆分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算

得到矩阵A₁₆；

g.计算

得到矩阵A₂₀；

i.计算矩阵A₂₁中每一列的元素之和：

j.计算

S5.3.2.在梯度方向上更新矩阵α_C：

α←α-μ_αg^α

S5.3.3.通过线性搜索调整μ_α；

S5.3.4.重复执行步骤S5.3.1～S5.3.3直至收敛。

7.根据权利要求1所述的基于OpenMP和CUDA的图像特征提取并行算法，其特征在于，所述步骤S6具体包括：根据步骤S5得到的计算结果，在显存中为矩阵X、矩阵C、矩阵A分配空间，使用cuBLAS库中的cublasSgemm函数在GPU中计算XC得到矩阵A，矩阵A即为对图像进行特征提取得到的特征矩阵。