CN110059290A - 一种基于gpu的三阶低秩张量计算方法 - Google Patents

一种基于gpu的三阶低秩张量计算方法 Download PDF

Info

Publication number
CN110059290A
CN110059290A CN201910195942.2A CN201910195942A CN110059290A CN 110059290 A CN110059290 A CN 110059290A CN 201910195942 A CN201910195942 A CN 201910195942A CN 110059290 A CN110059290 A CN 110059290A
Authority
CN
China
Prior art keywords
rank
tensor
gpu
dimension
tensors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910195942.2A
Other languages
English (en)
Inventor
张涛
李海
刘小洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910195942.2A priority Critical patent/CN110059290A/zh
Publication of CN110059290A publication Critical patent/CN110059290A/zh
Priority to US16/715,071 priority patent/US11620357B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0646Configuration or reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于GPU的三阶低秩张量计算方法。本方法的操作步骤如下:CPU将三阶实数张量输入数据DATA1传输至GPU;GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2;GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3;GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4;GPU将DATA4传输至CPU。本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比,计算效率有明显提高,能够在较短时间内完成相同的计算。

Description

一种基于GPU的三阶低秩张量计算方法
技术领域
本发明属于高性能计算领域,具体涉及一个基于GPU(图形处理器GraphicsProcessing Unit)的三阶低秩张量计算方法。
背景技术
在大数据处理、机器学习及物联网等众多科学领域中都需要高维数据计算。研究人员通常将真实世界的高维数据建模为低秩张量,以利用低秩性来减少数据的冗余。张量计算是高性能计算及人工智能的基础。
低秩张量模型已广泛应用于数据补全、MRI图像处理、二维字典学习、无线扫描成像等。因此,研究高性能的张量计算方法对于支持大规模、高维度、结构复杂的张量数据分析至关重要。然而,低秩张量操作是计算密集的,其计算的时间复杂度随张量的大小的增长成指数增长,传统的基于CPU的张量计算计算耗时较长,效率较低,不能满足现实应用的实时性需求,对大规模张量数据的分析分析不实用。
GPU具备众多的计算核以及高访存带宽,近年来越来越多地被用于加速并行计算。GPU的强大计算能力,为加速张量计算提供了强有力的基础。
发明内容
针对现有技术存在的问题,本发明提供一种基于GPU及低管型秩(Low-tubal-rank)张量模型的三阶低秩张量计算方法。与传统基于CPU的三阶低秩张量计算相比,计算效率可明显提高,能在较短时间内完成相同的计算。
为达到上述目的,本发明的技术方案如下:
一种基于GPU的三阶低秩张量计算方法,其特征在于,包括:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU。
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2。
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3。
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4。
步骤5:GPU将DATA4传输至CPU。
所述步骤1,包括:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。
所述步骤2,包括:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量。其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小。H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行。
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
所述步骤3,包括:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量。其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1。在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行。
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
所述步骤4,包括:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量。其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小。T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行。
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
所述步骤5,包括:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:
本发明通过使用GPU来加速三阶低秩张量计算中高并发处理的计算任务以提高计算效率。与传统基于CPU的三阶低秩张量计算相比,计算效率有明显提高,能够在较短时间内完成相同的计算。
附图说明
图1是本发明的基于GPU的三阶低秩张量计算方法程序框图。
图2是三阶张量示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及优选实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
实施例一:
三阶张量如图2所示,其中张量的第一维也被称为行,其大小为m,第二维也被称为列,其大小为n,第三维大小为k,这样大小的实数张量可记为T∈Rm×n×k,复数张量可记为T∈Cm×n×k。T(i,j,l)代表张量T的第一、二、三维分别为i,j,l的元素,T(i,j,∶)代表由T(i,j,1),T(i,j,2),…,T(i,j,k)这k个元素构成的1维矢量,这个1维矢量是沿着第三维方向的。T(:,∶,l)代表张量T的第l个正面切片,其大小为m×n,是一个m行n列的矩阵。张量T∈Rm×n×k共有k个大小为m×n的正面切片。
一种基于GPU的三阶低秩张量计算方法,步骤如图1所示,包括:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU。
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2。
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3。
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4。
步骤5:GPU将DATA4传输至CPU。
实施例二:本实施例与实施例一基本相同,特别之处如下:
所述步骤1,包括:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间。W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。例如,对于张量乘法,W=2。对于张量的奇异值分解(singular value decomposition,SVD),W=1。
所述步骤2,包括:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量。其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小。H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行。
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
所述步骤3,包括:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量。其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算。正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k)。matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算。matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1。例如,对于张量乘法,matrix_op所要进行的矩阵运算为矩阵乘法,且Y=W/2。对于张量奇异值分解,matrix_op所要进行的矩阵运算为矩阵奇异值分解,且Y=W*3。在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行。
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
所述步骤4,包括:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量。其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小。T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换。在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行。
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
所述步骤5,包括:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。

Claims (6)

1.一种基于GPU的三阶低秩张量计算方法,其特征在于操作步骤如下:
步骤1:CPU将三阶实数张量输入数据DATA1传输至GPU;
步骤2:GPU将DATA1进行傅里叶变换,得到三阶复数张量数据DATA2;
步骤3:GPU对DATA2进行矩阵运算,得到三阶复数张量数据DATA3;
步骤4:GPU对DATA3进行傅里叶逆变换,得到三阶实数张量输出数据DATA4;
步骤5:GPU将DATA4传输至CPU。
2.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤1详细操作步骤如下:
步骤1.1:在GPU显存中分配空间;
步骤1.2:将CPU内存中的三阶实数张量输入数据DATA1传输至GPU显存中所分配空间;W表示DATA1中三阶张量的个数,其值由具体张量运算所需要的输入张量个数决定且W≥1。
3.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤2详细操作步骤如下:
步骤2.1:在GPU上,对显存中DATA1的W个三阶实数张量T逐个进行傅里叶变换:H=fft(T,[],3),得到W个三阶复数张量;其中,T∈Rm×n×k为三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小;H∈Cm×n×k为傅里叶变换后得到的三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小,fft(T,[],3)表示沿着张量T的第三维进行傅里叶变换,即进行m×n个长度为k的数据的傅里叶变换;在显存能满足计算所需空间的情况下,此m×n个傅里叶变换在GPU上并行进行;
步骤2.2:将W个三阶复数张量保存到GPU显存中,得到三阶复数张量数据DATA2。
4.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于,所述步骤3详细操作步骤如下:
步骤3.1:在GPU上,对显存中DATA2的W个三阶复数张量H进行矩阵运算:matrix_op(H1,H2,…,Hw),得到Y个三阶张量;其中,matrix_op(H1,H2,…,Hw)表示沿着W个三阶复数张量(H1,H2,…,Hw)的正面切片进行计算;正面切片是指沿着张量的第一维及第二维构成的矩阵,第一、二、三维大小分别为m、n,、k的三阶张量H共有k个大小为m行n列的正面切片,记为H(:,:,1),H(:,∶,2),…,H(:,∶,k);matrix_op在进行计算时,是抽取各个张量的对应正面切片进行计算,即先抽取各个张量的H(:,:,1)进行矩阵计算,接着抽取各个张量的H(:,:,2)进行矩阵计算,…,最后抽取各个张量的H(:,:,k)进行矩阵计算;matrix_op所要进行的矩阵计算,以及Y的值均由具体的张量运算决定且Y≥1;在显存能满足计算所需空间的情况下,W个三阶复数张量的矩阵运算在GPU上并行进行;
步骤3.2:将矩阵运算后的Y个三阶张量保存到GPU显存中,得到三阶复数张量数据DATA3。
5.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤4详细操作步骤如下:
步骤4.1:在GPU上,对显存中DATA3的Y个三阶复数张量H进行傅里叶逆变换:T=ifft(H,[],3),得到Y个三阶实数张量;其中,H∈Cm×n×k为三阶复数张量,C表示复数,m、n,、k分别为张量H的第一维、第二维、第三维的大小;T∈Rm×n×k为傅里叶逆变换后得到的三阶实数张量,R表示实数,m、n,、k分别为张量T的第一维、第二维、第三维的大小,ifft(H,[],3)表示沿着张量H的第三维进行傅里叶逆变换,即进行m×n个长度为k的数据的傅里叶逆变换;在显存能满足计算所需空间的情况下,此m×n个傅里叶逆变换在GPU上并行进行;
步骤4.2:将Y个三阶实数张量保存到GPU显存中,得到三阶实数张量数据DATA4。
6.根据权利要求1所述的基于GPU的三阶低秩张量计算方法,其特征在于所述步骤5详细操作步骤如下:
步骤5.1:在CPU内存中分配空间;
步骤5.2:将GPU显存中的三阶实数张量输出数据DATA4传输至CPU内存中所分配空间。
CN201910195942.2A 2019-03-15 2019-03-15 一种基于gpu的三阶低秩张量计算方法 Pending CN110059290A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910195942.2A CN110059290A (zh) 2019-03-15 2019-03-15 一种基于gpu的三阶低秩张量计算方法
US16/715,071 US11620357B2 (en) 2019-03-15 2019-12-16 GPU-based third-order low rank tensor calculation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910195942.2A CN110059290A (zh) 2019-03-15 2019-03-15 一种基于gpu的三阶低秩张量计算方法

Publications (1)

Publication Number Publication Date
CN110059290A true CN110059290A (zh) 2019-07-26

Family

ID=67317120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910195942.2A Pending CN110059290A (zh) 2019-03-15 2019-03-15 一种基于gpu的三阶低秩张量计算方法

Country Status (2)

Country Link
US (1) US11620357B2 (zh)
CN (1) CN110059290A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559163A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 优化张量计算性能的方法及装置
CN115146226A (zh) * 2022-08-31 2022-10-04 北京大学 基于张量压缩方法的流数据处理方法、装置及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182543B (zh) * 2020-10-14 2024-04-30 桂林电子科技大学 一种视觉密码方法
CN114218141B (zh) * 2021-04-30 2024-02-02 无锡江南计算技术研究所 一种针对深度学习半精度算子数据访存对界处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107007281A (zh) * 2015-09-10 2017-08-04 东芝医疗系统株式会社 磁共振成像装置以及图像处理装置
CN107507253A (zh) * 2017-08-15 2017-12-22 电子科技大学 基于高阶张量近似的多属性体数据压缩方法
CN109033030A (zh) * 2018-07-09 2018-12-18 成都爱为贝思科技有限公司 一种基于gpu的张量分解及重构方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8848006B2 (en) * 2012-01-25 2014-09-30 Massachusetts Institute Of Technology Tensor displays
US10635739B1 (en) * 2016-08-25 2020-04-28 Cyber Atomics, Inc. Multidimensional connectivity graph-based tensor processing
EP3735658A1 (en) * 2018-07-12 2020-11-11 Huawei Technologies Co. Ltd. Generating a compressed representation of a neural network with proficient inference speed and power consumption

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107007281A (zh) * 2015-09-10 2017-08-04 东芝医疗系统株式会社 磁共振成像装置以及图像处理装置
CN107507253A (zh) * 2017-08-15 2017-12-22 电子科技大学 基于高阶张量近似的多属性体数据压缩方法
CN109033030A (zh) * 2018-07-09 2018-12-18 成都爱为贝思科技有限公司 一种基于gpu的张量分解及重构方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DA XU ET AL.: "Efficient Tensor Sensing for RF Tomographic Imaging on GPUs", 《FUTURE INTERNET》 *
徐文等: "基于张量奇异值分解的动态核磁共振图像重建", 《计算机应用研究》 *
李铭: "基于GPU的张量分解及重构方法研究及应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559163A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 优化张量计算性能的方法及装置
CN112559163B (zh) * 2019-09-10 2023-05-23 华为技术有限公司 优化张量计算性能的方法及装置
CN115146226A (zh) * 2022-08-31 2022-10-04 北京大学 基于张量压缩方法的流数据处理方法、装置及设备
CN115146226B (zh) * 2022-08-31 2022-12-06 北京大学 基于张量压缩方法的流数据处理方法、装置及设备

Also Published As

Publication number Publication date
US11620357B2 (en) 2023-04-04
US20200293595A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
CN110059290A (zh) 一种基于gpu的三阶低秩张量计算方法
Zhou et al. Rethinking bottleneck structure for efficient mobile network design
Bai et al. DecomVQANet: Decomposing visual question answering deep network via tensor decomposition and regression
Li et al. Quantum supremacy circuit simulation on Sunway TaihuLight
CN106709441B (zh) 一种基于卷积定理的人脸验证加速方法
CN109033030B (zh) 一种基于gpu的张量分解及重构方法
Li et al. A fast and memory saved GPU acceleration algorithm of convolutional neural networks for target detection
Liu et al. Parallel processing of massive remote sensing images in a GPU architecture
Guo et al. Study on a recurrent convolutional neural network based FDTD method
Huang et al. Parallel compressive sampling matching pursuit algorithm for compressed sensing signal reconstruction with OpenCL
CN105243280A (zh) 基于cpu与gpu混合异步并行方式的时域物理光学算法
CN102013106A (zh) 基于Curvelet冗余字典的图像稀疏表示方法
CN114547938A (zh) 一种基于有理Krylov子空间的三维多频可控源电磁反演方法及其系统
WO2018213438A1 (en) Apparatus and methods of providing efficient data parallelization for multi-dimensional ffts
Huang et al. NUMA-aware FFT-based convolution on ARMv8 many-core CPUs
Ding et al. An enhanced vision transformer with wavelet position embedding for histopathological image classification
Pang et al. SOCDet: A lightweight and accurate oriented object detection network for satellite on-orbit computing
CN102903087B (zh) 基于gpu编程的sar图像去噪方法
CN112364989A (zh) 一种基于快速傅里叶变换的卷积神经网络加速设计方法
CN107818325A (zh) 基于集成字典学习的图像稀疏表示方法
Li et al. Accelerating SAR imaging using vector extension on multi-core SIMD CPU
Su et al. Parallel direct simulation Monte Carlo computation using CUDA on GPUs
Tan et al. Parallel particle swarm optimization algorithm based on graphic processing units
Barina et al. Accelerating discrete wavelet transforms on GPUs
Song et al. Processing of SAR data based on the heterogeneous architecture of GPU and CPU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726

RJ01 Rejection of invention patent application after publication