CN110059290A

CN110059290A - 一种基于gpu的三阶低秩张量计算方法

Info

Publication number: CN110059290A
Application number: CN201910195942.2A
Authority: CN
Inventors: 张涛; 李海; 刘小洋
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-26
Also published as: US11620357B2; US20200293595A1

Abstract

本发明提供一种基于GPU的三阶低秩张量计算方法。本方法的操作步骤如下：CPU将三阶实数张量输入数据DATA1传输至GPU；GPU将DATA1进行傅里叶变换，得到三阶复数张量数据DATA2；GPU对DATA2进行矩阵运算，得到三阶复数张量数据DATA3；GPU对DATA3进行傅里叶逆变换，得到三阶实数张量输出数据DATA4；GPU将DATA4传输至CPU。本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比，计算效率有明显提高，能够在较短时间内完成相同的计算。

Description

一种基于GPU的三阶低秩张量计算方法

技术领域

本发明属于高性能计算领域，具体涉及一个基于GPU(图形处理器GraphicsProcessing Unit)的三阶低秩张量计算方法。

背景技术

在大数据处理、机器学习及物联网等众多科学领域中都需要高维数据计算。研究人员通常将真实世界的高维数据建模为低秩张量，以利用低秩性来减少数据的冗余。张量计算是高性能计算及人工智能的基础。

低秩张量模型已广泛应用于数据补全、MRI图像处理、二维字典学习、无线扫描成像等。因此，研究高性能的张量计算方法对于支持大规模、高维度、结构复杂的张量数据分析至关重要。然而，低秩张量操作是计算密集的，其计算的时间复杂度随张量的大小的增长成指数增长，传统的基于CPU的张量计算计算耗时较长，效率较低，不能满足现实应用的实时性需求，对大规模张量数据的分析分析不实用。

GPU具备众多的计算核以及高访存带宽，近年来越来越多地被用于加速并行计算。GPU的强大计算能力，为加速张量计算提供了强有力的基础。

发明内容

针对现有技术存在的问题，本发明提供一种基于GPU及低管型秩(Low-tubal-rank)张量模型的三阶低秩张量计算方法。与传统基于CPU的三阶低秩张量计算相比，计算效率可明显提高，能在较短时间内完成相同的计算。

为达到上述目的，本发明的技术方案如下：

一种基于GPU的三阶低秩张量计算方法，其特征在于，包括：

步骤1：CPU将三阶实数张量输入数据DATA1传输至GPU。

步骤2：GPU将DATA1进行傅里叶变换，得到三阶复数张量数据DATA2。

步骤3：GPU对DATA2进行矩阵运算，得到三阶复数张量数据DATA3。

步骤4：GPU对DATA3进行傅里叶逆变换，得到三阶实数张量输出数据DATA4。

步骤5：GPU将DATA4传输至CPU。

所述步骤1，包括：

步骤1.1：在GPU显存中分配空间；

步骤1.2：将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数，其值由具体张量运算所需要的输入张量个数决定且W≥1。

所述步骤2，包括：

步骤2.1：在GPU上，对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换：H＝fft(T,[],3)，得到W个三阶复数张量。其中，T∈R^m×n×k为三阶实数张量，R表示实数，m、n,、k分别为张量T的第一维、第二维、第三维的大小。H∈C^m×n×k为傅里叶变换后得到的三阶复数张量，C表示复数，m、n,、k分别为张量H的第一维、第二维、第三维的大小，fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换，即进行m×n个长度为k的数据的傅里叶变换。在显存能满足计算所需空间的情况下，此m×n个傅里叶变换在GPU上并行进行。

步骤2.2：将W个三阶复数张量保存到GPU显存中，得到三阶复数张量数据DATA2。

所述步骤3，包括：

步骤3.1：在GPU上，对显存中DATA2的W个三阶复数张量H进行矩阵运算：matrix_op(H₁,H₂,…,H_w)，得到Y个三阶张量。其中，matrix_op(H₁,H₂,…,H_w)表示沿着W个三阶复数张量(H₁,H₂,…,H_w)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵，第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片，记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时，是抽取各个张量的对应正面切片进行计算，即先抽取各个张量的H(:,:,1)进行矩阵计算，接着抽取各个张量的H(:,:,2)进行矩阵计算，…，最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算，以及Y的值均由具体的张量运算决定且Y≥1。在显存能满足计算所需空间的情况下，W个三阶复数张量的矩阵运算在GPU上并行进行。

步骤3.2：将矩阵运算后的Y个三阶张量保存到GPU显存中，得到三阶复数张量数据DATA3。

所述步骤4，包括：

步骤4.1：在GPU上，对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换：T＝ifft(H,[],3)，得到Y个三阶实数张量。其中，H∈C^m×n×k为三阶复数张量，C表示复数，m、n,、k分别为张量H的第一维、第二维、第三维的大小。T∈R^m×n×k为傅里叶逆变换后得到的三阶实数张量，R表示实数，m、n,、k分别为张量T的第一维、第二维、第三维的大小，ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换，即进行m×n个长度为k的数据的傅里叶逆变换。在显存能满足计算所需空间的情况下，此m×n个傅里叶逆变换在GPU上并行进行。

步骤4.2：将Y个三阶实数张量保存到GPU显存中，得到三阶实数张量数据DATA4。

所述步骤5，包括：

步骤5.1：在CPU内存中分配空间；

步骤5.2：将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比，计算效率有明显提高，能够在较短时间内完成相同的计算。

附图说明

图1是本发明的基于GPU的三阶低秩张量计算方法程序框图。

图2是三阶张量示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及优选实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

实施例一：

三阶张量如图2所示，其中张量的第一维也被称为行，其大小为m，第二维也被称为列，其大小为n，第三维大小为k，这样大小的实数张量可记为T∈R^m×n×k，复数张量可记为T∈C^m×n×k。T(i,j,l)代表张量T的第一、二、三维分别为i,j,l的元素,T(i,j,∶)代表由T(i,j,1),T(i,j,2),…,T(i,j,k)这k个元素构成的1维矢量，这个1维矢量是沿着第三维方向的。T(:,∶,l)代表张量T的第l个正面切片，其大小为m×n，是一个m行n列的矩阵。张量T∈R^m×n×k共有k个大小为m×n的正面切片。

一种基于GPU的三阶低秩张量计算方法，步骤如图1所示，包括：

步骤1：CPU将三阶实数张量输入数据DATA1传输至GPU。

步骤5：GPU将DATA4传输至CPU。

实施例二：本实施例与实施例一基本相同，特别之处如下：

所述步骤1，包括：

步骤1.1：在GPU显存中分配空间；

步骤1.2：将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数，其值由具体张量运算所需要的输入张量个数决定且W≥1。例如，对于张量乘法，W＝2。对于张量的奇异值分解(singular value decomposition，SVD)，W＝1。

所述步骤2，包括：

所述步骤3，包括：

步骤3.1：在GPU上，对显存中DATA2的W个三阶复数张量H进行矩阵运算：matrix_op(H₁,H₂,…,H_w)，得到Y个三阶张量。其中，matrix_op(H₁,H₂,…,H_w)表示沿着W个三阶复数张量(H₁,H₂,…,H_w)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵，第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片，记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时，是抽取各个张量的对应正面切片进行计算，即先抽取各个张量的H(:,:,1)进行矩阵计算，接着抽取各个张量的H(:,:,2)进行矩阵计算，…，最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算，以及Y的值均由具体的张量运算决定且Y≥1。例如，对于张量乘法，matrix_op所要进行的矩阵运算为矩阵乘法，且Y＝W/2。对于张量奇异值分解，matrix_op所要进行的矩阵运算为矩阵奇异值分解，且Y＝W*3。在显存能满足计算所需空间的情况下，W个三阶复数张量的矩阵运算在GPU上并行进行。

所述步骤4，包括：

所述步骤5，包括：

步骤5.1：在CPU内存中分配空间；

Claims

1.一种基于GPU的三阶低秩张量计算方法，其特征在于操作步骤如下：

步骤1：CPU将三阶实数张量输入数据DATA1传输至GPU；

步骤2：GPU将DATA1进行傅里叶变换，得到三阶复数张量数据DATA2；

步骤3：GPU对DATA2进行矩阵运算，得到三阶复数张量数据DATA3；

步骤4：GPU对DATA3进行傅里叶逆变换，得到三阶实数张量输出数据DATA4；

步骤5：GPU将DATA4传输至CPU。

2.根据权利要求1所述的基于GPU的三阶低秩张量计算方法，其特征在于所述步骤1详细操作步骤如下：

步骤1.1：在GPU显存中分配空间；

步骤1.2：将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间；W表示DATA1中三阶张量的个数，其值由具体张量运算所需要的输入张量个数决定且W≥1。

3.根据权利要求1所述的基于GPU的三阶低秩张量计算方法，其特征在于所述步骤2详细操作步骤如下：

步骤2.1：在GPU上，对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换：H＝fft(T,[],3)，得到W个三阶复数张量；其中，T∈R^m×n×k为三阶实数张量，R表示实数，m、n,、k分别为张量T的第一维、第二维、第三维的大小；H∈C^m×n×k为傅里叶变换后得到的三阶复数张量，C表示复数，m、n,、k分别为张量H的第一维、第二维、第三维的大小，fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换，即进行m×n个长度为k的数据的傅里叶变换；在显存能满足计算所需空间的情况下，此m×n个傅里叶变换在GPU上并行进行；

4.根据权利要求1所述的基于GPU的三阶低秩张量计算方法，其特征在于，所述步骤3详细操作步骤如下：

步骤3.1：在GPU上，对显存中DATA2的W个三阶复数张量H进行矩阵运算：matrix_op(H₁,H₂,…,H_w)，得到Y个三阶张量；其中，matrix_op(H₁,H₂,…,H_w)表示沿着W个三阶复数张量(H₁,H₂,…,H_w)的正面切片进行计算；正面切片是指沿着张量的第一维及第二维构成的矩阵，第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片，记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)；matrix_op在进行计算时，是抽取各个张量的对应正面切片进行计算，即先抽取各个张量的H(:,:,1)进行矩阵计算，接着抽取各个张量的H(:,:,2)进行矩阵计算，…，最后抽取各个张量的H(:,:,k)进行矩阵计算；matrix_op所要进行的矩阵计算，以及Y的值均由具体的张量运算决定且Y≥1；在显存能满足计算所需空间的情况下，W个三阶复数张量的矩阵运算在GPU上并行进行；

5.根据权利要求1所述的基于GPU的三阶低秩张量计算方法，其特征在于所述步骤4详细操作步骤如下：

步骤4.1：在GPU上，对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换：T＝ifft(H,[],3)，得到Y个三阶实数张量；其中，H∈C^m×n×k为三阶复数张量，C表示复数，m、n,、k分别为张量H的第一维、第二维、第三维的大小；T∈R^m×n×k为傅里叶逆变换后得到的三阶实数张量，R表示实数，m、n,、k分别为张量T的第一维、第二维、第三维的大小，ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换，即进行m×n个长度为k的数据的傅里叶逆变换；在显存能满足计算所需空间的情况下，此m×n个傅里叶逆变换在GPU上并行进行；

6.根据权利要求1所述的基于GPU的三阶低秩张量计算方法，其特征在于所述步骤5详细操作步骤如下：

步骤5.1：在CPU内存中分配空间；