CN107085743A - 一种基于国产众核处理器的深度学习算法实现方法与平台 - Google Patents

一种基于国产众核处理器的深度学习算法实现方法与平台 Download PDF

Info

Publication number
CN107085743A
CN107085743A CN201710353067.7A CN201710353067A CN107085743A CN 107085743 A CN107085743 A CN 107085743A CN 201710353067 A CN201710353067 A CN 201710353067A CN 107085743 A CN107085743 A CN 107085743A
Authority
CN
China
Prior art keywords
core
deep learning
learning algorithm
domestic many
core processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710353067.7A
Other languages
English (en)
Inventor
王明清
刘姝
黄雪
董昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710353067.7A priority Critical patent/CN107085743A/zh
Publication of CN107085743A publication Critical patent/CN107085743A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于计算机信息处理领域,具体涉及一种基于国产众核处理器的深度学习算法实现方法与平台,给出了深度学习算法数据并行方式的设计与实现方式,接着阐述了深度学习算法核组间进程级并行与实现;之后说明了深度学习算法核组内线程级并行与实现方式;最后基于国产众核平台深度学习算法的优化方式与策略,设计了硬件平台搭建方案。充分利用硬件资源,大大缩短了对称正定线性方程组的求解时间,降低计算能耗,从而减少了机房构建、管理及运维成本。

Description

一种基于国产众核处理器的深度学习算法实现方法与平台
技术领域
本发明属于计算机信息处理领域,具体涉及一种基于国产众核处理器的深度学习算法实现方法与平台。
背景技术
深度学习算法是通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布是表示,并展现强大的从少数样本集中学习数据集本质特征的能力。深度学习的实质,是通过构建具有多隐层的机器学习模型和海量的数据训练,来学习更有用的特征,从而最终提升分类或预测的准确性。
申威国产众核处理器,是完全国产化的用于高性能并行计算的众核处理器,其主核为运算控制核心,其功能与通用的处理器相似,可执行通用处理器的工作;从核为计算核心,主要负责运算,作用类似于协处理器。
MPI(Message Passing Interface)是目前国际上最流行的并行编程环境之一,尤其是分布式存储的可缩放并行计算机和工作站网络以及机群的一种编程范例。其具有可移植性和易用性,有完备的异步通信功能,有正式和详细的精确定义。
鉴于在深度学习领域,算法的深度、复杂程度逐渐增加,以及训练过程中要处理的数据量十分庞大,深度学习的发展与应用需要强大的计算能力做支撑。若仅仅使用普通的处理器进行模型训练,需要耗费非常长的时间,或搭建非常大规模的集群,操作繁琐冗余。
因此,提供一种基于国产众核处理器的深度学习算法实现方法与平台,是十分必要的。
发明内容
本发明的目的在于解决上述现有技术中存在的普通处理器进行模型训练耗时长、搭建复杂等难题,提供一种基于国产众核处理器的深度学习算法实现方法与平台。
本发明是通过以下技术方案实现的:
一种基于国产众核处理器的深度学习算法实现方法,深度学习算法的数据并行方式通过主从模式完成,包括以下步骤
S1:将网络模型复制成n份,训练样本均分成n份;
S2:第i份网络模型利用第i个训练样本子集做迭代训练;
S3:每次迭代完成时,将参数梯度上传至参数服务器;
S4:下次迭代开始前从参数服务器下载参数集作为本次迭代的初始参数;
深度学习模型训练的过程需要大量的数据处理,本方案采取数据并行的方式,将资源池中的所有训练数据分片,将这些数据分别分配给不同的计算进程进行训练。在数据分片训练完成后,需要对权重进行同步规约操作,然后将规约后的权重发送给各进程,以便训练其他数据分片。
作为优选,集群中的其他计算资源负责不同数据分片的训练工作,计算出参数封信的梯度,传送给参数服务器更新模型参数。
作为优选,所述参数服务器由单个核组构成,负责merge操作。
上述的深度学习算法实现方法中,其深度学习算法核组间并行方式是由单个训练进程控制单个核组的计算,核组之间的信息交互通过MPI信息传递接口实现。
针对国产众核平台的硬件架构以及每个核组都有独立的操作系统这一特点,核组之间的并行通过MPI实现。
作为优选,所述MPI主进程控制参数服务器,其他计算核组由MPI从进程控制。
作为优选所述MPI的设计方式为各进程同步执行或不同进程异步执行。
其中,同步执行是指:每个计算进程读取一道数据进行训练,在权重更新阶段,所有的进程都要将各自计算的梯度发送给参数服务器(主进程),参数服务器将各计算进程发来的梯度进行规约更新,然后将更新后的值同时发送给各计算进程,以便各进程处理下一批样本。各进程同步执行时,各进程之间每次训练之前的权重和偏置是相同的。
异步执行是指:每个进程读取一个分片的数据样本进行训练,将其计算的梯度交由参数服务器进行merge更新,然后参数服务器立即将更新后的值发送给此计算进程,此计算进程利用更新后的值训练下一个数据分片样本。异步执行时,每一个数据分片样本训练之前的权重与偏置都是不一样的。
同步执行往往会导致当进程的数量变大时,收敛的速度越来越慢,基于此提出了计算进程之间异步执行的方案以加快收敛速度。
上述的深度学习算法实现方法中,其深度学习算法核组内数据并行是通过国产众核处理器中众核的核心数目并行加速热点函数的数据并行来实现的。
根据深度学习算法分析情况可知,深度算法中矩阵乘法、向量计算及激活函数的计算均是热点且满足数据并行的条件,适合应用共享的多线程编程模式实现并行。而国产众核处理器的每个核组中都有1个主核和64个从核,可以利用国产处理器中众核的核心数目并行加速热点函数的数据并行从而实现从核间的并行,本方案可以采用国产众核平台上的加速线程库(athread库)也可以采用OpenACC并行编程的方式完成从核上的多线程的计算。对于矩阵向量计算,可直接调用BLAS库完成加速。
一种基于上述深度学习算法的实现平台,包括硬件集群平台,所述硬件集群平台的各节点内配置相同,计算节点内采用核心数量及主频相同的国产众核处理器。
作为优选,所述国产众核处理器主存中存放的从核常用变量传输至从核局存中。
主核上定义的变量存放在主存中,无论是主核还是从核调用这些变量数据都需要直接访问主存。而从核访问主存的延迟比较高。若从核程序频繁地访问主存会导致很大的性能损耗。而国产众核平台上每个从核配有64K的局存,局存为每个从核所私有,访存速度快。因此,将主存中存放的从核常用变量首先传入从核局存中供从核私有,从而提高从核的访存速度。
作为优选,其中计算节点的互联、数据的传输采用万兆以太或Infiniband高度互联网络。由于平台缓存的大小为64K,远小于intel平台上的缓存,当计算的数组过大时,会带来很大的访存压力,因此需要根据平台上的缓存的大小将数组分段处理以减小cache过小造成的访存脱靶问题。
在硬件集群平台中,每个众核节点配置内存保持一致,采用同样类型、大小的DDR内存,避免内存读写速度差别造成的处理能力差距悬殊,导致整个节点处理能力低下。同时,计算节点内采用的国产众核处理器芯片相同,保证每个处理器芯片内的核心数量以及主频相同。此外,进程间的通信对节点间互联网络的要求较高,因此,计算节点的互联采用万兆以太或Infiniband高速互联网络,为避免由于带宽不一致信息阻塞,网络交换机采用全交换的方式。
与现有技术相比,本发明的有益效果是:
本发明的目的在于加速深度学习领域模型训练的速度,充分利用国产众核平台硬件资源,提高计算性能、降低能耗,从而减少模型训练的成本。本发明涉及了硬件架构的搭建以及并行算法的设计与实现,其中利用MPI实现了核组之间任务的分配及消息传递,利用国产众核处理器的计算核心实现深度学习算法模型训练的并行加速。此方案,充分利用硬件资源,大大缩短了对称正定线性方程组的求解时间,降低计算能耗,从而减少了机房构建、管理及运维成本。
此外,本发明方法原理可靠,步骤简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是本发明提供的一种基于国产众核处理器的深度学习算法实现方法中深度学习数据并行示意图。
图2是本发明提供的一种基于国产众核处理器的深度学习算法实现方法中深度学习数据并行主从模式示意图。
图3是本发明提供的一种基于国产众核处理器的深度学习算法实现方法中核组间数据并行方式示意图。
图4是本发明提供的一种基于国产众核处理器的深度学习算法实现方法中核组内数据并行方式示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
如图1至2所示,本发明提供的一种基于国产众核处理器的深度学习算法实现方法,其深度学习算法的数据并行方式通过主从模式完成,包括以下步骤
S1:将网络模型复制成n份,训练样本均分成n份;
S2:第i份网络模型利用第i个训练样本子集做迭代训练;
S3:每次迭代完成时,将参数梯度上传至参数服务器;
S4:下次迭代开始前从参数服务器下载参数集作为本次迭代的初始参数;
深度学习模型训练的过程需要大量的数据处理,本方案采取数据并行的方式,将资源池中的所有训练数据分片,将这些数据分别分配给不同的计算进程进行训练。在数据分片训练完成后,需要对权重进行同步规约操作,然后将规约后的权重发送给各进程,以便训练其他数据分片。在训练的过程中,多个训练过程相互独立训练的结果,即模型的变化量ΔW需要汇报给参数服务器,由参数服务器负责更新为最新的模型W’ = W – η ΔW,然后再将最新的模型W’分发给训练程序,以便从新的起点开始训练。
在本实施例中,集群中的其他计算资源负责不同数据分片的训练工作,计算出参数封信的梯度,传送给参数服务器更新模型参数。
在本实施例中,所述参数服务器由单个核组构成,负责merge操作。
如图3所示,上述的深度学习算法实现方法中,其深度学习算法核组间并行方式是由单个训练进程控制单个核组的计算,核组之间的信息交互通过MPI信息传递接口实现。
针对国产众核平台的硬件架构以及每个核组都有独立的操作系统这一特点,核组之间的并行通过MPI实现。
在本实施例中,所述MPI主进程控制参数服务器,其他计算核组由MPI从进程控制。
在本实施例中,所述MPI的设计方式为不同进程异步执行,在本发明的其他实施例中也可采用各进程同步执行的方式。
异步执行是指:每个进程读取一个分片的数据样本进行训练,将其计算的梯度交由参数服务器进行merge更新,然后参数服务器立即将更新后的值发送给此计算进程,此计算进程利用更新后的值训练下一个数据分片样本。异步执行时,每一个数据分片样本训练之前的权重与偏置都是不一样的。
同步执行是指:每个计算进程读取一道数据进行训练,在权重更新阶段,所有的进程都要将各自计算的梯度发送给参数服务器(主进程),参数服务器将各计算进程发来的梯度进行规约更新,然后将更新后的值同时发送给各计算进程,以便各进程处理下一批样本。各进程同步执行时,各进程之间每次训练之前的权重和偏置是相同的。
同步执行往往会导致当进程的数量变大时,收敛的速度越来越慢,基于此提出了计算进程之间异步执行的方案以加快收敛速度。
如图4所示,上述的深度学习算法实现方法中,其深度学习算法核组内数据并行是通过国产众核处理器中众核的核心数目并行加速热点函数的数据并行来实现的。
根据深度学习算法分析情况可知,深度算法中矩阵乘法、向量计算及激活函数的计算均是热点且满足数据并行的条件,适合应用共享的多线程编程模式实现并行。而国产众核处理器的每个核组中都有1个主核和64个从核,可以利用国产处理器中众核的核心数目并行加速热点函数的数据并行从而实现从核间的并行,本方案可以采用国产众核平台上的加速线程库(athread库)也可以采用OpenACC并行编程的方式完成从核上的多线程的计算。对于矩阵向量计算,可直接调用BLAS库完成加速。
一种基于上述深度学习算法的实现平台,包括硬件集群平台,所述硬件集群平台的各节点内配置相同,计算节点内采用核心数量及主频相同的国产众核处理器。
作为优选,所述国产众核处理器主存中存放的从核常用变量传输至从核局存中。
主核上定义的变量存放在主存中,无论是主核还是从核调用这些变量数据都需要直接访问主存。而从核访问主存的延迟比较高。若从核程序频繁地访问主存会导致很大的性能损耗。而国产众核平台上每个从核配有64K的局存,局存为每个从核所私有,访存速度快。因此,将主存中存放的从核常用变量首先传入从核局存中供从核私有,从而提高从核的访存速度。
作为优选,其中计算节点的互联、数据的传输采用万兆以太或Infiniband高度互联网络。由于平台缓存的大小为64K,远小于intel平台上的缓存,当计算的数组过大时,会带来很大的访存压力,因此需要根据平台上的缓存的大小将数组分段处理以减小cache过小造成的访存脱靶问题。
在硬件集群平台中,每个众核节点配置内存保持一致,采用同样类型、大小的DDR内存,避免内存读写速度差别造成的处理能力差距悬殊,导致整个节点处理能力低下。同时,计算节点内采用的国产众核处理器芯片相同,保证每个处理器芯片内的核心数量以及主频相同。此外,进程间的通信对节点间互联网络的要求较高,因此,计算节点的互联采用万兆以太或Infiniband高速互联网络,为避免由于带宽不一致信息阻塞,网络交换机采用全交换的方式。
本发明涉及了硬件架构的搭建以及并行算法的设计与实现,其中利用MPI实现了核组之间任务的分配及消息传递,利用国产众核处理器的计算核心实现深度学习算法模型训练的并行加速。此方案,充分利用硬件资源,大大缩短了对称正定线性方程组的求解时间,降低计算能耗,从而减少了机房构建、管理及运维成本。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (10)

1.一种基于国产众核处理器的深度学习算法实现方法,其特征在于:深度学习算法的数据并行方式通过主从模式完成,包括以下步骤:
S1:将网络模型复制成n份,训练样本均分成n份;
S2:第i份网络模型利用第i个训练样本子集做迭代训练;
S3:每次迭代完成时,将参数梯度上传至参数服务器;
S4:下次迭代开始前从参数服务器下载参数集作为本次迭代的初始参数。
2.如权利要求1所述的一种基于国产众核处理器的深度学习算法实现方法,其特征在于:集群中的其他计算资源负责不同数据分片的训练工作,计算出参数封信的梯度,传送给参数服务器更新模型参数。
3.如权利要求1或2所述的一种基于国产众核处理器的深度学习算法实现方法,其特征在于:所述参数服务器由单个核组构成,负责merge操作。
4.一种基于国产众核处理器的深度学习算法实现方法,其特征在于:深度学习算法核组间并行方式是由单个训练进程控制单个核组的计算,核组之间的信息交互通过MPI信息传递接口实现。
5.如权利要求4所述的一种基于国产众核处理器的深度学习算法实现方法,其特征在于:所述MPI主进程控制参数服务器,其他计算核组由MPI从进程控制。
6.如权利要求4或5所述的一种基于国产众核处理器的深度学习算法实现方法,其特征在于:所述MPI的设计方式为各进程同步执行或不同进程异步执行。
7.如权利要求6所述的一种基于国产众核处理器的深度学习算法实现方法,其特征在于:通过国产众核处理器中众核的核心数目并行加速热点函数的数据并行从而实现从核间的数据并行。
8.一种基于上述深度学习算法的实现平台,其特征在于:包括硬件集群平台,所述硬件集群平台的各节点内配置相同,计算节点内采用核心数量及主频相同的国产众核处理器。
9.如权利要求8所述的一种基于国产众核处理器的深度学习算法实现平台,其特征在于:所述国产众核处理器主存中存放的从核常用变量传输至从核局存中。
10.如权利要求8或9所述的一种基于国产众核处理器的深度学习算法实现平台,其特征在于:其中计算节点的互联、数据的传输采用万兆以太或Infiniband高度互联网络。
CN201710353067.7A 2017-05-18 2017-05-18 一种基于国产众核处理器的深度学习算法实现方法与平台 Pending CN107085743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710353067.7A CN107085743A (zh) 2017-05-18 2017-05-18 一种基于国产众核处理器的深度学习算法实现方法与平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710353067.7A CN107085743A (zh) 2017-05-18 2017-05-18 一种基于国产众核处理器的深度学习算法实现方法与平台

Publications (1)

Publication Number Publication Date
CN107085743A true CN107085743A (zh) 2017-08-22

Family

ID=59608716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710353067.7A Pending CN107085743A (zh) 2017-05-18 2017-05-18 一种基于国产众核处理器的深度学习算法实现方法与平台

Country Status (1)

Country Link
CN (1) CN107085743A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463448A (zh) * 2017-09-28 2017-12-12 郑州云海信息技术有限公司 一种深度学习权值更新方法和系统
CN108846095A (zh) * 2018-06-15 2018-11-20 联想(北京)有限公司 一种数据处理方法及装置
CN109828790A (zh) * 2019-01-31 2019-05-31 上海赜睿信息科技有限公司 一种基于申威异构众核处理器的数据处理方法和系统
CN110516194A (zh) * 2018-08-15 2019-11-29 北京航空航天大学 基于异构众核处理器的格点量子色动力学并行加速方法
CN110809757A (zh) * 2017-11-29 2020-02-18 谷歌有限责任公司 使得应用之间能够共享机器学习模型的设备上的机器学习平台
CN111667061A (zh) * 2020-04-17 2020-09-15 中国海洋大学 一种基于目标众核的深度学习框架移植与优化方法及系统
CN112559197A (zh) * 2019-09-10 2021-03-26 无锡江南计算技术研究所 基于异构众核处理器的卷积计算数据重用方法
CN114841345A (zh) * 2022-03-28 2022-08-02 武汉理工大学 一种基于深度学习算法的分布式计算平台及其应用
CN114970301A (zh) * 2022-07-29 2022-08-30 中国海洋大学 一种基于国产众核架构的分子动力学计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929588A (zh) * 2012-09-28 2013-02-13 无锡江南计算技术研究所 众核处理器虚实地址转换方法
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929588A (zh) * 2012-09-28 2013-02-13 无锡江南计算技术研究所 众核处理器虚实地址转换方法
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463448A (zh) * 2017-09-28 2017-12-12 郑州云海信息技术有限公司 一种深度学习权值更新方法和系统
CN110809757A (zh) * 2017-11-29 2020-02-18 谷歌有限责任公司 使得应用之间能够共享机器学习模型的设备上的机器学习平台
CN110809757B (zh) * 2017-11-29 2023-08-29 谷歌有限责任公司 使应用之间能共享机器学习模型的设备上机器学习平台
CN108846095A (zh) * 2018-06-15 2018-11-20 联想(北京)有限公司 一种数据处理方法及装置
CN110516194A (zh) * 2018-08-15 2019-11-29 北京航空航天大学 基于异构众核处理器的格点量子色动力学并行加速方法
CN110516194B (zh) * 2018-08-15 2021-03-09 北京航空航天大学 基于异构众核处理器的格点量子色动力学并行加速方法
CN109828790A (zh) * 2019-01-31 2019-05-31 上海赜睿信息科技有限公司 一种基于申威异构众核处理器的数据处理方法和系统
CN112559197A (zh) * 2019-09-10 2021-03-26 无锡江南计算技术研究所 基于异构众核处理器的卷积计算数据重用方法
CN111667061A (zh) * 2020-04-17 2020-09-15 中国海洋大学 一种基于目标众核的深度学习框架移植与优化方法及系统
CN111667061B (zh) * 2020-04-17 2023-04-18 中国海洋大学 一种基于目标众核的深度学习框架移植与优化方法及系统
CN114841345A (zh) * 2022-03-28 2022-08-02 武汉理工大学 一种基于深度学习算法的分布式计算平台及其应用
CN114970301A (zh) * 2022-07-29 2022-08-30 中国海洋大学 一种基于国产众核架构的分子动力学计算方法

Similar Documents

Publication Publication Date Title
CN107085743A (zh) 一种基于国产众核处理器的深度学习算法实现方法与平台
CN104461466B (zh) 基于MPI和OpenMP混合编程模型并行计算提高计算速度的方法
CN107330516A (zh) 模型参数训练方法、装置及系统
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
CN107341544A (zh) 一种基于可分割阵列的可重构加速器及其实现方法
CN104866374A (zh) 基于多任务的离散事件并行仿真及时间同步方法
CN103714009B (zh) 一种GPU上基于内存统一管理的MapReduce实现方法
CN111191728B (zh) 基于异步或同步的深度强化学习分布式训练方法及系统
CN105184385B (zh) 一种自动制造系统的分布式控制方法
CN106201720B (zh) 虚拟对称多处理虚拟机创建方法、数据处理方法及系统
CN104635258A (zh) 一种应用cpu-gpu平台进行地震波逆时偏移成像方法
CN110032450B (zh) 一种基于固态盘扩展内存的大规模深度学习方法及系统
CN107463448A (zh) 一种深度学习权值更新方法和系统
CN105574585A (zh) 基于多线程互斥的神经网络模型的样本训练方法
CN105468439A (zh) 在cpu-gpu异构框架下遍历固定半径内邻居的自适应并行算法
CN107943592A (zh) 一种面向gpu集群环境的避免gpu资源争用的方法
CN102722653B (zh) 一种基于MapReduce的射线跟踪加速算法
CN106990913B (zh) 一种大规模流式集合数据的分布式处理方法
CN105279007B (zh) 多核处理器的模拟方法及装置
CN106598688B (zh) 一种深度学习汇编优化中的寄存器冲突避免方法
CN111653317B (zh) 基因比对加速装置、方法及系统
CN110648768B (zh) 一种pom海洋模式优化方法及装置
CN109840306A (zh) 一种基于递归的并行快速傅里叶变换通信优化方法和系统
CN104463940B (zh) 一种基于gpu的混合树并行构建方法
CN110879753A (zh) 基于自动化集群资源管理的gpu加速性能优化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170822