CN111881408A - 基于预处理共轭梯度法的并行数据处理方法及处理系统 - Google Patents
基于预处理共轭梯度法的并行数据处理方法及处理系统 Download PDFInfo
- Publication number
- CN111881408A CN111881408A CN202010784852.XA CN202010784852A CN111881408A CN 111881408 A CN111881408 A CN 111881408A CN 202010784852 A CN202010784852 A CN 202010784852A CN 111881408 A CN111881408 A CN 111881408A
- Authority
- CN
- China
- Prior art keywords
- data processing
- parallel data
- conjugate gradient
- preprocessing
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/12—Simultaneous equations, e.g. systems of linear equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/72—Code refactoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于计算机数据处理技术领域,公开了一种基于预处理共轭梯度法的并行数据处理方法及处理系统,特殊矩阵处理模块用于预定义特殊矩阵M;计算模块,用于计算r0、z0、p0;残差处理模块,用于迭代计算残差。检测模块,用于检查处理后的数据进行正确性及精度验证本发明源代码是通过修改PAC2019决赛代码来进行优化。源程序为PCG算法的并行程序,本发明在这个基础上实现了CAPCG并行算法,特别是对解大型线性方程组中最难以并行的前推回代部分,提出了一种新的算法解决,也就是基于9点模板的预处理共轭梯度法进行算法结构改动,充分利用多核计算资源,时间相比于PCG算法的速度提升了2倍有余。
Description
技术领域
本发明属于计算机数据处理技术领域,尤其涉及一种基于预处理共轭梯度法的并行数据处理方法及处理系统。
背景技术
目前,线性方程组是线性代数的核心内容之一,其解法研究是现代数学中经典且重要的研究课题。线性方程组的直接解法有消元法,克拉默法则,直接三角形法,平方根法,追赶法等。线性方程组的直接解法是最早出现的求解方法,但是由于直接解法的存储量和计算量一般很大,所以迭代法在近年来越来越受到重视。迭代法有Jacobi迭代法,Gauss-Seidel迭代法,JGS迭代法,SOR迭代法,参数迭代法等。而对于求解大型线性方程组以共轭梯度法和变形共轭梯度法为主,其具有存储量少,计算量少等优点。共轭梯度法是最基本的Krylov子空间方法。共轭梯度法的收敛速度与系数矩阵的条件数紧密相关,条件数愈小,收敛性愈好,该算法可以在很少的几步就会获得高精度的近似解。但当系数矩阵的条件数很大时,收敛速度就很慢。于是出现了预处理共轭梯度法(简称PCG法),它是通过适当的预处理方法引入预处理矩阵M,使矩阵的特征值分布更为集中,降低矩阵条件数,以达到提高收敏速度的目的。
20世纪50年代,计算机科学领域开始向并行技术进行探索。2000年以来,分布主存并行技术发展迅速,同时共享主存并行机不断进步,特别是多处理机服务器的推广应用,増强了共享主存并行处理技术的生命力。目前,采用的主流并行编程技术有OpenMP、MPI、CPU/GPU及MapReduce等。OpenMP(OpenMulti-Processing)属于共享内存编程模型的技术。通过在源代码中加入制导性注释,称为编译制导指令的专用#pragma行来指明程序的并发属性。由于它基于编译制导,具有简单、移植性好、可扩展性髙以及支持增量并行化开发等优点,OpenMP己经成为共享存储系统中的并行编程标准。随着多核处理器的大量使用,OpenMP日益体现其重要性。
现有技术方案:
1952年M.R.Hestenes和E.Stiefel从极小化的观点来讨论代数方程组Ax=b的解,给出了著名的共轭梯度法(Conjugate Gradient,简称CG),若A是N阶对称正定实矩阵,记向量x和y的内积为(x,y),定义x的二次函数
则对于Ax=b的精确解x*有
由(1.1)和(1.2)可得
由A的正定性可知Q(x),Q(x*)非负且仅当x=x*时为零,因而x*是Q(x)的唯一极小点.为了在N维空间中逼近x*,CG法采用了搜索方向Pk,在该方向上选取xk的增量,使||xk+1-x*||达到极小.CG法的计算公式为下述的迭代形式。
其中ak的选择使||xk+apk-x*||A对所a达到极小,||y||A定义为),βk的选择使Pk+1与Pk为A正交,即(Pk+1,APk)=0.CG法所得到的搜索方向集合{Pk}是A正交系,余向量集合{rk}是正交系,从而可知,当k>N-1时必有rk=0,即在N次迭代以内得到精确解,因而CG法是具有迭代形式的精确解法。它还是完全向量化的算法,只们极少量的非向量运算.当A为l对角的稀阵时,CG法的每次迭代约需(l+5)N次乘法,(l+4)N个存储单元.
现有技术方案存在的不足:
然而,尽管CG法有不少突出的优点,在相当长的时间里它并未得到广泛的应用。主要是由于它的收敛速度慢,而且由于实际计算中舍入误差的积累,{rk}的正交性逐渐丧失.N阶的问题达代N次后并不能得到精确解,当N>1000时计算量就很大.既然CG法在实用中效率不高,尤其是五十年代至六十年代出现了一些效率较高的算法,如超松弛法(SOR),交替方向隐式法(ADI)和强隐式法(SIP)等等,人们的兴趣转向于其它方法,CG法则逐渐被人冷落,例如,在1971年国际稀阵及其应用会议的文集中竟然没有一篇论文是讨论CG法的,这种情形一直延续到70年代中期,终于发生了被某些数学家称为“突然的、戏剧性的变化”,预处理共轭梯度法出现了。
通过上述分析,现有技术存在的问题及缺陷为:(1)现有技术数据处理中,线性方程组直接解法的存储量和计算量很大。线性方程组求解算法是一种相对比较复杂、对计算资源要求相对较高的算法,无论是对计算时间还是对内存空间都有较高的要求。计算机行业的迅速发展,带来数据量的迅猛增长,且线性方程组求解的过程中常常涉及巨大的数据阵列和大规模的数据运算,这对大型矩阵算法的效率提出了更高要求。普通计算机己经不能承受单次数据处理计算量,通用的串行处理已不能满足日益増长的数据量与对数据的快速实时处理运算的要求。需要利用多核,当系数矩阵的条件数很大时,现有技术并没有通过并行方法,降低矩阵条件数,造成数据收敛速度满。
发明内容
为了解决现有技术存在的问题,本发明提供了一种基于预处理共轭梯度法的并行数据处理方法及处理系统。
本发明是这样实现的,一种基于预处理共轭梯度法的并行数据处理系统,应用于计算机,包括:
特殊矩阵处理模块,用于预定义特殊矩阵M;
计算模块,用于计算r0、z0、p0;
残差处理模块,用于迭代计算残差。
进一步,所述基于预处理共轭梯度法的并行数据处理系统进一步包括:
检测模块,用于检查处理后的数据进行正确性及精度验证。
本发明的另一目的在于提供一种基于预处理共轭梯度法的并行数据处理方法,运行在计算机上,包括:
步骤一,预定义特殊矩阵M;
步骤二,计算r0=b-Ax0,z0=M-1r0,p0=z0,k=0;
步骤三,迭代计算残差。
进一步,所述步骤一进一步包括:
M为预处理矩阵,M-1Ax=M-1b;
改写为:
x=(I-M-1A)x+M-1b;
迭代形式为
xk+1=(I-M-1A)xk+M-1b;
其中B=I-M-1A称为迭代矩阵,B的谱半径小I时迭代法收敛;{ui}是B的特征值集合,{9,i}是B的相应特征向量集合,如果ui都是单的,误差向量为ek=x*-xk且有
则ek满足
M-1A的特征值越接近于1,ui就越接近于0,于是ek收敛到零向量的速度越快。
进一步,所述步骤二进一步包括:
对(LLT)-1Ax=(LLT)-1b作CG,采用的计算公式为:
X0任意给定,r0=b-Ax0,p0=(LLT)-1r0,
若A是l1对角,L是l2对角,则每次迭代需(l1+2l2+5)N次乘除法;当A为对称的M阵时,i≠j时aij≤0,A非奇且A-1的元素均为非负,则有:
1)序列{xk}在N次选代以内收敛到x*;
2)设Ek(T)为T=(LLT)-1A的k次多项式集合,在全部形式为
xk=x0+Ek-1(T)·T(x*-x0);
使||xk-x*||A达到极小;
3)若c为T的条件数,即c=λmax(T)/λmin(T),则有
进一步,所述对(LLT)-1Ax=(LLT)-1b作CG中,(LLT)-1rk计算方法包括:
首先解Lwk=rk,采用脚标递增的次序算出wk的各分量;
再解LTyk=wk,采用脚标递减的次序算出yk的各分量。
进一步,所述步骤三迭代计算残差后,检查正确性及精度。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述的基于预处理共轭梯度法的并行数据处理方法,包括:
步骤1,预定义特殊矩阵M;
步骤2,计算r0=b-Ax0,z0=M-1r0,p0=z0,k=0;
步骤3,迭代计算残差。
步骤4,检查正确性及精度。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的基于预处理共轭梯度法的并行数据处理方法所述的方法。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的基于预处理共轭梯度法的并行数据处理方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明源代码是通过修改PAC2019决赛代码来进行优化。源程序为PCG算法的并行程序,本发明在这个基础上实现了CAPCG并行算法,特别是对解大型线性方程组中最难以并行的前推回代部分,提出了一种新的算法解决,也就是基于9点模板的预处理共轭梯度法进行算法结构改动,充分利用多核计算资源,时间相比于PCG算法的速度提升了2倍有余。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于预处理共轭梯度法的并行数据处理方法流程图。
图2是本发明实施例提供的则LT或U的元素模示意图;图中:(a)A的近似LU分解图;(b)无填入的L0分解图;(c)有三条非零对角线填入的L3分解图。
图4是本发明实施例提供的不同方法的比较图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术数据处理中,线性方程组直接解法的存储量和计算量很大。线性方程组求解算法是一种相对比较复杂、对计算资源要求相对较高的算法,无论是对计算时间还是对内存空间都有较高的要求。计算机行业的迅速发展,带来数据量的迅猛增长,且线性方程组求解的过程中常常涉及巨大的数据阵列和大规模的数据运算,这对大型矩阵算法的效率提出了更高要求。普通计算机己经不能承受单次数据处理计算量,通用的串行处理已不能满足日益増长的数据量与对数据的快速实时处理运算的要求。需要利用多核,当系数矩阵的条件数很大时,现有技术并没有通过并行方法,降低矩阵条件数,造成数据收敛速度满。
针对现有技术存在的问题,本发明提供了一种基于预处理共轭梯度法的并行数据处理方法及处理系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于预处理共轭梯度法的并行数据处理方法包括:
S101,预定义一个特殊矩阵M。
S102,计算r0=b-Ax0,z0=M-1r0,p0=z0,k=0。本步骤为后续循环求解作初始化准备。
S103,迭代计算残差。
S104,检查正确性及精度。
具体的,包括:
在CG法的计算中矩阵A是未经过加工的,一般说来其条件数都比较大。如果对A进行某种形式的加工改造,可以使它具有更适宜于迭代的特点,使迭代收敛速度大大提高。实际上,当L非奇时,Ax=b等价于(LLT)-1Ax=(LLT)-1b.若LLT是A的一个近似LU分解,则(LLT)- 1A应在某种模的意义下近似于单位阵1.若用它来作CG法,可以加速迭代的收敛。如求解下述椭圆型偏微分方程:
A=tridiag(-I,Di,-I);
显然,A具有弱对角优势,它的精确LU分解的对角线元素的绝对值分布具有单调性。若A=LU,L为下三角阵,U为上三角阵,则LT或U的元素模按图2所示的方向递降。这种单调性尚无理论证明,但已是众所周知的事实,从这种单调性出发,忽略那些绝对值较小的对角线,图2(a)可以得到A的近似LU分解,由此出发,引申出图2(b)无填入的L0和图2(c)有三条非零对角线填入的L3。
L0与A的下三角部分有同样的稀疏结构,而L3则比A的下三角部分多了三条非零对角线(以虚线表示)。用(L0L0 T)-1作预处理,使(L0L0 T)-1A的特征值比A的特征值更接近于1,而(L3L3 T)-1A又要比(L0L0 T)-1A更好。
至于L阵的各非零对角线的元素,则按下述方法来计算。以L3为例,L3L3 T是15对角的。除其中有4条对角线是不可避免的误差以外,有5条对角线与A的相应非零对角线相同,另外还有6条对角线可令其为零,这样共有11个条件,可以决定L3和L3 T的11条非零对角线。由于A对称,简化为6个条件决定L3的6条非零对角线。
对于N=36的一个算例,给出其特征值分布,如图3所示。
步骤S101中,特征值分布的这种变化,对于迭代法的收敛速度影响极大。以下述的一阶线性定常迭代法为例。设M为预处理矩阵,把
M-1Ax=M-1b (2.2)
改写成如下的形式:
x=(I-M-1A)x+M-1b (2.3)
其迭代形式为
xk+1=(I-M-1A)xk+M-1b (2.4)
其中B=I-M-1A称为迭代矩阵,当B的谱半径小I时迭代法(2.4)收敛。设{ui}是B的特征值集合,{9,i}是B的相应特征向量集合,假定ui都是单的。令误差向量为ek=x*-xk且有
则ek满足
由(2.6)可知,M-1A的特征值越接近于1,ui就越接近于0,于是ek收敛到零向量的速度就越快。
步骤S102中,对(LLT)-1Ax=(LLT)-1b作CG,它所采用的计算公式为:
X0任意给定,r0=b-Ax0,p0=(LLT)-1r0,
若A是l1对角的,L是l2对角的,则(2.7)每次迭代约需(l1+2l2+5)N次乘除法。当A为对称的M阵(i≠j时aij≤0,A非奇且A-1的元素均为非负)时:
1)序列{xk}在N次选代以内收敛到x*。
2)设Ek(T)为T=(LLT)-1A的k次多项式集合,则在全部形式为
xk=x0+Ek-1(T)·T(x*-x0)
的算法中,(2.7)使||xk-x*||A达到极小。
3)若c为T的条件数,即c=λmax(T)/λmin(T),则有
当x0为(0,2)内的随机向量时,取n=30,N=900,计算结果如图4所示。
在(2.7)的计算中有(LLT)-1rk出现。它的计算可以分成两步。先解Lwk=rk,由于L是下三角阵,采用脚标递增的次序即可算出wk的各分量。再解LTyk=wk,采用脚标递减的次序即可算出yk的各分量.这样就避免了直接计算(LLT)-1。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于预处理共轭梯度法的并行数据处理系统,搭载在计算机上,其特征在于,所述基于预处理共轭梯度法的并行数据处理系统包括:
特殊矩阵处理模块,用于预定义特殊矩阵M;
计算模块,用于计算r0、z0、p0;
残差处理模块,用于迭代计算残差。
2.如权利要求1所述的基于预处理共轭梯度法的并行数据处理系统,其特征在于,所述基于预处理共轭梯度法的并行数据处理系统进一步包括:
检测模块,用于检查处理后的数据进行正确性及精度验证。
3.一种基于预处理共轭梯度法的并行数据处理方法,运行在计算机上,其特征在于,所述基于预处理共轭梯度法的并行数据处理方法包括:
步骤一,预定义特殊矩阵M;
步骤二,计算r0=b-Ax0,z0=M-1r0,p0=z0,k=0;
步骤三,迭代计算残差。
5.如权利要求3所述的于预处理共轭梯度法的并行数据处理方法,其特征在于,所述步骤二进一步包括:
对(LLT)-1Ax=(LLT)-1b作CG,采用的计算公式为:
X0任意给定,r0=b-Ax0,p0=(LLT)-1r0,
若A是l1对角,L是l2对角,则每次迭代需(l1+2l2+5)N次乘除法;当A为对称的M阵时,i≠j时aij≤0,A非奇且A-1的元素均为非负,则有:
1)序列{xk}在N次选代以内收敛到x*;
2)设Ek(T)为T=(LLT)-1A的k次多项式集合,在全部形式为
xk=x0+Ek-1(T)·T(x*-x0);
使||xk-x*||A达到极小;
3)若c为T的条件数,即c=λmax(T)/λmin(T),则有
6.如权利要求3所述的于预处理共轭梯度法的并行数据处理方法,其特征在于,所述对(LLT)-1Ax=(LLT)-1b作CG中,(LLT)-1rk计算方法包括:
首先解Lwk=rk,采用脚标递增的次序算出wk的各分量;
再解LTyk=wk,采用脚标递减的次序算出yk的各分量。
7.如权利要求3所述的基于预处理共轭梯度法的并行数据处理方法,其特征在于,所述步骤三迭代计算残差后,检查正确性及精度。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求3~7任意一项所述的基于预处理共轭梯度法的并行数据处理方法,包括:
步骤1,预定义特殊矩阵M;
步骤2,计算r0=b-Ax0,z0=M-1r0,p0=z0,k=0;
步骤3,迭代计算残差。
步骤4,检查正确性及精度。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求3~7任意一项所述的基于预处理共轭梯度法的并行数据处理方法。
10.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求3~7任意一项所述的基于预处理共轭梯度法的并行数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784852.XA CN111881408A (zh) | 2020-08-06 | 2020-08-06 | 基于预处理共轭梯度法的并行数据处理方法及处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784852.XA CN111881408A (zh) | 2020-08-06 | 2020-08-06 | 基于预处理共轭梯度法的并行数据处理方法及处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881408A true CN111881408A (zh) | 2020-11-03 |
Family
ID=73210796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784852.XA Pending CN111881408A (zh) | 2020-08-06 | 2020-08-06 | 基于预处理共轭梯度法的并行数据处理方法及处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881408A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107069696A (zh) * | 2016-09-23 | 2017-08-18 | 四川大学 | 一种电力系统状态估计的并行计算方法 |
CN108225274A (zh) * | 2017-12-26 | 2018-06-29 | 中国科学院电子学研究所 | 基于不完全分解预处理的共轭梯度法光束法平差方法 |
-
2020
- 2020-08-06 CN CN202010784852.XA patent/CN111881408A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107069696A (zh) * | 2016-09-23 | 2017-08-18 | 四川大学 | 一种电力系统状态估计的并行计算方法 |
CN108225274A (zh) * | 2017-12-26 | 2018-06-29 | 中国科学院电子学研究所 | 基于不完全分解预处理的共轭梯度法光束法平差方法 |
Non-Patent Citations (1)
Title |
---|
雷光耀: "预处理技术与PCG算法", 数学进展, vol. 21, no. 2, pages 129 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pang et al. | Pseudorapidity distribution and decorrelation of anisotropic flow within the open-computing-language implementation CLVisc hydrodynamics | |
Mishra et al. | Multi-level Monte Carlo finite volume methods for nonlinear systems of conservation laws in multi-dimensions | |
Benson et al. | A framework for practical parallel fast matrix multiplication | |
Maruhn et al. | The tdhf code sky3d | |
Lee et al. | On the utility of graphics cards to perform massively parallel simulation of advanced Monte Carlo methods | |
Štěpán et al. | PORTA: A three-dimensional multilevel radiative transfer code for modeling the intensity and polarization of spectral lines with massively parallel computers | |
Beck et al. | Finding a global optimal solution for a quadratically constrained fractional quadratic problem with applications to the regularized total least squares | |
Cheng et al. | SPALS: Fast alternating least squares via implicit leverage scores sampling | |
Yamazaki et al. | Improving the performance of CA-GMRES on multicores with multiple GPUs | |
Calef et al. | Nonlinear Krylov acceleration applied to a discrete ordinates formulation of the k-eigenvalue problem | |
Caliari et al. | A μ-mode integrator for solving evolution equations in Kronecker form | |
Chen et al. | Parallel non-negative matrix tri-factorization for text data co-clustering | |
Rong et al. | Sparso: Context-driven optimizations of sparse linear algebra | |
Zhang et al. | High accuracy matrix computations on neural engines: A study of QR factorization and its applications | |
Winkelmann et al. | ChASE: Chebyshev Accelerated Subspace iteration Eigensolver for sequences of Hermitian eigenvalue problems | |
Zhang et al. | Tucker tensor decomposition on FPGA | |
Zeng et al. | GPU-based sparse power flow studies with modified Newton’s method | |
Williams-Young et al. | A parallel, distributed memory implementation of the adaptive sampling configuration interaction method | |
Franco et al. | Softmax parameterization of the occupation numbers for natural orbital functionals based on electron pairing approaches | |
Bischoff | Regularizing the molecular potential in electronic structure calculations. II. Many-body methods | |
Suzuki et al. | A dissection solver with kernel detection for symmetric finite element matrices on shared memory computers | |
Liu et al. | A divide-and-conquer approach for solving singular value decomposition on a heterogeneous system | |
Armentano et al. | A randomized homotopy for the Hermitian eigenpair problem | |
Ljungkvist et al. | Multigrid for matrix-free finite element computations on graphics processors | |
Zhang et al. | High accuracy low precision qr factorization and least square solver on gpu with tensorcore |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |