CN110059290A - 一种基于gpu的三阶低秩张量计算方法 - Google Patents
一种基于gpu的三阶低秩张量计算方法 Download PDFInfo
- Publication number
- CN110059290A CN110059290A CN201910195942.2A CN201910195942A CN110059290A CN 110059290 A CN110059290 A CN 110059290A CN 201910195942 A CN201910195942 A CN 201910195942A CN 110059290 A CN110059290 A CN 110059290A
- Authority
- CN
- China
- Prior art keywords
- rank
- tensor
- gpu
- dimension
- tensors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 238000011017 operating method Methods 0.000 claims abstract 7
- 239000000284 extract Substances 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/06—Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
- G06F12/0646—Configuration or reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种基于GPU的三阶低秩张量计算方法。本方法的操作步骤如下:CPU将三阶实数张量输入数据DATA1传输至GPU;GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2;GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3;GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4;GPU将DATA4传输至CPU。本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比,计算效率有明显提高,能够在较短时间内完成相同的计算。
Description
技术领域
本发明属于高性能计算领域,具体涉及一个基于GPU(图形处理器GraphicsProcessing Unit)的三阶低秩张量计算方法。
背景技术
在大数据处理、机器学习及物联网等众多科学领域中都需要高维数据计算。研究人员通常将真实世界的高维数据建模为低秩张量,以利用低秩性来减少数据的冗余。张量计算是高性能计算及人工智能的基础。
低秩张量模型已广泛应用于数据补全、MRI图像处理、二维字典学习、无线扫描成像等。因此,研究高性能的张量计算方法对于支持大规模、高维度、结构复杂的张量数据分析至关重要。然而,低秩张量操作是计算密集的,其计算的时间复杂度随张量的大小的增长成指数增长,传统的基于CPU的张量计算计算耗时较长,效率较低,不能满足现实应用的实时性需求,对大规模张量数据的分析分析不实用。
GPU具备众多的计算核以及高访存带宽,近年来越来越多地被用于加速并行计算。GPU的强大计算能力,为加速张量计算提供了强有力的基础。
发明内容
针对现有技术存在的问题,本发明提供一种基于GPU及低管型秩(Low-tubal-rank)张量模型的三阶低秩张量计算方法。与传统基于CPU的三阶低秩张量计算相比,计算效率可明显提高,能在较短时间内完成相同的计算。
为达到上述目的,本发明的技术方案如下:
一种基于GPU的三阶低秩张量计算方法,其特征在于,包括:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU。
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2。
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3。
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4。
步骤5:GPU将DATA4传输至CPU。
所述步骤1,包括:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。
所述步骤2,包括:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量。其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小。H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行。
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
所述步骤3,包括:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量。其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1。在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行。
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
所述步骤4,包括:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量。其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小。T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行。
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
所述步骤5,包括:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:
本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比,计算效率有明显提高,能够在较短时间内完成相同的计算。
附图说明
图1是本发明的基于GPU的三阶低秩张量计算方法程序框图。
图2是三阶张量示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及优选实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
实施例一:
三阶张量如图2所示,其中张量的第一维也被称为行,其大小为m,第二维也被称为列,其大小为n,第三维大小为k,这样大小的实数张量可记为T∈Rm×n×k,复数张量可记为T∈Cm×n×k。T(i,j,l)代表张量T的第一、二、三维分别为i,j,l的元素,T(i,j,∶)代表由T(i,j,1),T(i,j,2),…,T(i,j,k)这k个元素构成的1维矢量,这个1维矢量是沿着第三维方向的。T(:,∶,l)代表张量T的第l个正面切片,其大小为m×n,是一个m行n列的矩阵。张量T∈Rm×n×k共有k个大小为m×n的正面切片。
一种基于GPU的三阶低秩张量计算方法,步骤如图1所示,包括:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU。
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2。
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3。
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4。
步骤5:GPU将DATA4传输至CPU。
实施例二:本实施例与实施例一基本相同,特别之处如下:
所述步骤1,包括:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。例如,对于张量乘法,W=2。对于张量的奇异值分解(singular value decomposition,SVD),W=1。
所述步骤2,包括:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量。其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小。H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行。
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
所述步骤3,包括:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量。其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1。例如,对于张量乘法,matrix_op所要进行的矩阵运算为矩阵乘法,且Y=W/2。对于张量奇异值分解,matrix_op所要进行的矩阵运算为矩阵奇异值分解,且Y=W*3。在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行。
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
所述步骤4,包括:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量。其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小。T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行。
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
所述步骤5,包括:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。
Claims (6)
1.一种基于GPU的三阶低秩张量计算方法,其特征在于操作步骤如下:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU;
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2;
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3;
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4;
步骤5:GPU将DATA4传输至CPU。
2.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤1详细操作步骤如下:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间;W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。
3.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤2详细操作步骤如下:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量;其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小;H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换;在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行;
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
4.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于,所述步骤3详细操作步骤如下:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量;其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算;正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k);matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算;matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1;在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行;
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
5.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤4详细操作步骤如下:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量;其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小;T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换;在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行;
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
6.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤5详细操作步骤如下:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195942.2A CN110059290A (zh) | 2019-03-15 | 2019-03-15 | 一种基于gpu的三阶低秩张量计算方法 |
US16/715,071 US11620357B2 (en) | 2019-03-15 | 2019-12-16 | GPU-based third-order low rank tensor calculation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195942.2A CN110059290A (zh) | 2019-03-15 | 2019-03-15 | 一种基于gpu的三阶低秩张量计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059290A true CN110059290A (zh) | 2019-07-26 |
Family
ID=67317120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910195942.2A Pending CN110059290A (zh) | 2019-03-15 | 2019-03-15 | 一种基于gpu的三阶低秩张量计算方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11620357B2 (zh) |
CN (1) | CN110059290A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559163A (zh) * | 2019-09-10 | 2021-03-26 | 华为技术有限公司 | 优化张量计算性能的方法及装置 |
CN115146226A (zh) * | 2022-08-31 | 2022-10-04 | 北京大学 | 基于张量压缩方法的流数据处理方法、装置及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182543B (zh) * | 2020-10-14 | 2024-04-30 | 桂林电子科技大学 | 一种视觉密码方法 |
CN114218141B (zh) * | 2021-04-30 | 2024-02-02 | 无锡江南计算技术研究所 | 一种针对深度学习半精度算子数据访存对界处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107007281A (zh) * | 2015-09-10 | 2017-08-04 | 东芝医疗系统株式会社 | 磁共振成像装置以及图像处理装置 |
CN107507253A (zh) * | 2017-08-15 | 2017-12-22 | 电子科技大学 | 基于高阶张量近似的多属性体数据压缩方法 |
CN109033030A (zh) * | 2018-07-09 | 2018-12-18 | 成都爱为贝思科技有限公司 | 一种基于gpu的张量分解及重构方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8848006B2 (en) * | 2012-01-25 | 2014-09-30 | Massachusetts Institute Of Technology | Tensor displays |
US10635739B1 (en) * | 2016-08-25 | 2020-04-28 | Cyber Atomics, Inc. | Multidimensional connectivity graph-based tensor processing |
EP3735658A1 (en) * | 2018-07-12 | 2020-11-11 | Huawei Technologies Co. Ltd. | Generating a compressed representation of a neural network with proficient inference speed and power consumption |
-
2019
- 2019-03-15 CN CN201910195942.2A patent/CN110059290A/zh active Pending
- 2019-12-16 US US16/715,071 patent/US11620357B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107007281A (zh) * | 2015-09-10 | 2017-08-04 | 东芝医疗系统株式会社 | 磁共振成像装置以及图像处理装置 |
CN107507253A (zh) * | 2017-08-15 | 2017-12-22 | 电子科技大学 | 基于高阶张量近似的多属性体数据压缩方法 |
CN109033030A (zh) * | 2018-07-09 | 2018-12-18 | 成都爱为贝思科技有限公司 | 一种基于gpu的张量分解及重构方法 |
Non-Patent Citations (3)
Title |
---|
DA XU ET AL.: "Efficient Tensor Sensing for RF Tomographic Imaging on GPUs", 《FUTURE INTERNET》 * |
徐文等: "基于张量奇异值分解的动态核磁共振图像重建", 《计算机应用研究》 * |
李铭: "基于GPU的张量分解及重构方法研究及应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559163A (zh) * | 2019-09-10 | 2021-03-26 | 华为技术有限公司 | 优化张量计算性能的方法及装置 |
CN112559163B (zh) * | 2019-09-10 | 2023-05-23 | 华为技术有限公司 | 优化张量计算性能的方法及装置 |
CN115146226A (zh) * | 2022-08-31 | 2022-10-04 | 北京大学 | 基于张量压缩方法的流数据处理方法、装置及设备 |
CN115146226B (zh) * | 2022-08-31 | 2022-12-06 | 北京大学 | 基于张量压缩方法的流数据处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
US11620357B2 (en) | 2023-04-04 |
US20200293595A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059290A (zh) | 一种基于gpu的三阶低秩张量计算方法 | |
Zhou et al. | Rethinking bottleneck structure for efficient mobile network design | |
Bai et al. | DecomVQANet: Decomposing visual question answering deep network via tensor decomposition and regression | |
Li et al. | Quantum supremacy circuit simulation on Sunway TaihuLight | |
CN106709441B (zh) | 一种基于卷积定理的人脸验证加速方法 | |
CN109033030B (zh) | 一种基于gpu的张量分解及重构方法 | |
Li et al. | A fast and memory saved GPU acceleration algorithm of convolutional neural networks for target detection | |
Liu et al. | Parallel processing of massive remote sensing images in a GPU architecture | |
Guo et al. | Study on a recurrent convolutional neural network based FDTD method | |
Huang et al. | Parallel compressive sampling matching pursuit algorithm for compressed sensing signal reconstruction with OpenCL | |
CN105243280A (zh) | 基于cpu与gpu混合异步并行方式的时域物理光学算法 | |
CN102013106A (zh) | 基于Curvelet冗余字典的图像稀疏表示方法 | |
CN114547938A (zh) | 一种基于有理Krylov子空间的三维多频可控源电磁反演方法及其系统 | |
WO2018213438A1 (en) | Apparatus and methods of providing efficient data parallelization for multi-dimensional ffts | |
Huang et al. | NUMA-aware FFT-based convolution on ARMv8 many-core CPUs | |
Ding et al. | An enhanced vision transformer with wavelet position embedding for histopathological image classification | |
Pang et al. | SOCDet: A lightweight and accurate oriented object detection network for satellite on-orbit computing | |
CN102903087B (zh) | 基于gpu编程的sar图像去噪方法 | |
CN112364989A (zh) | 一种基于快速傅里叶变换的卷积神经网络加速设计方法 | |
CN107818325A (zh) | 基于集成字典学习的图像稀疏表示方法 | |
Li et al. | Accelerating SAR imaging using vector extension on multi-core SIMD CPU | |
Su et al. | Parallel direct simulation Monte Carlo computation using CUDA on GPUs | |
Tan et al. | Parallel particle swarm optimization algorithm based on graphic processing units | |
Barina et al. | Accelerating discrete wavelet transforms on GPUs | |
Song et al. | Processing of SAR data based on the heterogeneous architecture of GPU and CPU |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |
|
RJ01 | Rejection of invention patent application after publication |