CN109948253B - 薄板无网格Galerkin结构模态分析的GPU加速方法 - Google Patents

薄板无网格Galerkin结构模态分析的GPU加速方法 Download PDF

Info

Publication number
CN109948253B
CN109948253B CN201910212831.8A CN201910212831A CN109948253B CN 109948253 B CN109948253 B CN 109948253B CN 201910212831 A CN201910212831 A CN 201910212831A CN 109948253 B CN109948253 B CN 109948253B
Authority
CN
China
Prior art keywords
matrix
data
gpu
node
thin plate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910212831.8A
Other languages
English (en)
Other versions
CN109948253A (zh
Inventor
龚曙光
许延坡
卢海山
谢桂兰
张建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201910212831.8A priority Critical patent/CN109948253B/zh
Publication of CN109948253A publication Critical patent/CN109948253A/zh
Application granted granted Critical
Publication of CN109948253B publication Critical patent/CN109948253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种薄板无网格Galerkin结构模态分析的GPU加速方法。本发明通过CPU读入薄板数据到主机内存,求取薄板内部和位移边界上积分点数据、节点影响域内积分点数据、积分点定义域内节点数据、交叉节点对数据,并复制至GPU全局存储器中;设定不同GPU线程块与线程数量,在GPU上并行计算节点形函数值、形函数一阶导数值及形函数二阶导数值和并行组装薄板总体刚度矩阵与质量矩阵;在GPU上根据边界条件对总体刚度矩阵进行修正,然后将修正后的刚度矩阵进行三角分解;在GPU中采用子空间迭代法进行模态分析,通过检查薄板结构频率残差来判断子空间迭代法是否结束及结果是否输出。本发明极大地缩短了薄板模态分析的计算耗时。

Description

薄板无网格Galerkin结构模态分析的GPU加速方法
技术领域
本发明属于计算机辅助工程中薄板的结构动力仿真分析技术领域,具体涉及一种薄板无网格Galerkin(伽辽金)结构模态分析的GPU(Graphic Processing Unit,图形处理器)加速方法。
背景技术
薄板具有二维结构的特性,且厚度薄、刚性好、重量轻、运输方便、加工简单等优点,被大量应用在众多工程领域,如汽车、轮船、家用电器等。然而,薄板容易振动这一特性,不仅会影响结构整体的强度,而且还会产生噪音,严重影响设备的性能及使用体验。因此,薄板振动已成为影响设备性能的一个重要因素,深入开展典型工程薄板结构的振动特性研究,对改善结构强度、减振降噪具有重要意义。
薄板模态分析可确定薄板的固有频率及振动特性,是薄板结构动力设计的基础。当前,薄板模态分析主要采用有限元法,但有限元法的前、后处理工作量大,且网格容易畸变、自适应性能差。无网格方法是目前计算力学领域研究的热点之一,而无网格Galerkin法是目前影响最大、应用最广的无网格计算方法。无网格Galerkin法采用移动最小二乘法构造形函数,从能量泛函的弱变分形式中得到控制方程,并用拉格朗日法、罚函数法等处理本质边界条件,从而得到偏微分方程的数值解,并具有计算精度高、前后处理简单、自适应性好等优点,现已在结构模态分析问题中得到应用。然而结构模态分析中,刚度矩阵、质量矩阵的组装和总体离散系统方程求解的过程复杂,计算量大、计算耗时长,严重限制了无网格Galerkin法在大规模复杂结构薄板模态分析问题中的应用。
近年来,随着计算技术和计算机技术的迅猛发展,并行计算已在多个领域内得到广泛应用,成为提高计算效率、节约计算成本的有效方法。然而由于并行机的规模大、维护成本高以及编程复杂等原因,导致其难以普及。相对于并行机,利用GPU进行大规模科学与工程计算的优点在于运算速度快、成本低廉。自从诞生之日起,GPU则以超越摩尔定律的速度快速发展,目前GPU已经随着技术发展演化成了高并行度、多线程和高存储器带宽的多核处理器,其运算能力和访存带宽都得到了不断的提升。因此研究薄板无网格Galerkin法结构模态分析的GPU加速方法,对于提高薄板无网格Galerkin法结构模态分析的计算效率具有重要意义。
发明内容
本发明的目的在于针对薄板无网格Galerkin法结构模态分析中存在的计算量大、耗时长等问题,提供一种薄板无网格Galerkin结构模态分析的GPU加速方法。
本发明方法包括如下顺序的步骤:
(1)将薄板的节点坐标、背景积分网格数据、边界条件数据、模态阶数、材料物理参数读取到主机内存中;
(2)通过CPU调用薄板的节点坐标、背景积分网格数据、边界条件数据,并在薄板的背景积分网格和边界上布置积分点,求得薄板内部和位移边界上的积分点数据;通过对节点、积分点循环搜索,确定每个节点影响域内的积分点数据,以及每个积分点定义域内的节点数据,再根据节点影响域半径,确定交叉节点对信息;然后将上述所求数据由主机内存复制到GPU全局存储器中;
(3)读取GPU全局存储器中薄板的节点坐标、积分点数据、积分点定义域内的节点数据,设置GPU中的线程块与线程的数量,并行加速计算节点的形函数值、形函数一阶导数值及形函数二阶导数值,然后建立GPU线程和组成交叉节点对的两个节点公共影响域内的积分点一一映射模式,并行加速组装总体刚度矩阵K、总体惩罚刚度矩阵Ka和总体质量矩阵M,并以按行压缩存储CSR格式存储于GPU全局存储器中;
(4)在GPU中读取GPU全局存储器中存储的总体刚度矩阵K和总体惩罚刚度矩阵Kα数据,对施加边界条件的刚度矩阵进行修正
Figure BDA0002001051700000031
其中,
Figure BDA0002001051700000032
为修正后的刚度矩阵;
(5)在GPU中对修正后的刚度矩阵
Figure BDA0002001051700000033
进行三角分解,即
Figure BDA0002001051700000034
其中,L为
Figure BDA0002001051700000035
三角分解后的下三角矩阵,LT
Figure BDA0002001051700000036
三角分解后的上三角矩阵;
(6)在CPU中给定初始向量矩阵X0,对于X0并不是单一向量组成,而是r个初始向量组成的矩阵,即X0=[(x1)0 (x2)0 … (xr)0],若需要求得系统的前p阶模态,则初始向量的个数r可取2*p和p+8中较小的数;初始向量(xi)0(i=1,2,…,r)可以任意选取,只要它们是相互独立的向量,且不和系统的前p个特征向量中的任一个正交;再把初始向量矩阵X0复制到GPU全局存储器中;
(7)求解第k(k=0,1,2,…)次迭代的薄板频率与振型;
(8)在CPU中赋值:
Figure BDA0002001051700000037
ΦI=Xk+1Φ*,输出数据ΩII,写入到输出文件中;其中,ΩI为薄板前r阶频率,ΦI为薄板前r阶频率所对应的振型,Xk+1为初始向量矩阵经过k+1次迭代的结果,
Figure BDA0002001051700000038
为等效刚度矩阵
Figure BDA0002001051700000039
与等效质量矩阵
Figure BDA00020010517000000310
组成的广义特征值问题中前r阶特征值,Φ*为等效刚度矩阵
Figure BDA00020010517000000311
与等效质量矩阵
Figure BDA00020010517000000312
组成的广义特征值问题中前r阶特征值所对应的特征向量。
具体的,步骤(7)包括如下过程:
(a)在GPU中读取总体质量矩阵M与向量矩阵Xk数据,计算求解并赋值:Y=MXk;其中,Xk为初始向量矩阵经过k次迭代的结果;
(b)在GPU中读取向量矩阵Y数据,解方程组LLTXk+1=Y,计算得到Xk+1;其中,Xk+1为初始向量矩阵经过k+1次迭代的结果;
(c)在GPU中读取向量矩阵Xk+1数据,计算等效刚度矩阵
Figure BDA0002001051700000041
等效质量矩阵
Figure BDA0002001051700000042
然后将所求的等效刚度矩阵
Figure BDA0002001051700000043
与等效质量矩阵
Figure BDA0002001051700000044
的数据复制到主机内存中;其中,
Figure BDA0002001051700000045
为Xk+1矩阵的转置;
(d)在CPU中读取等效刚度矩阵
Figure BDA0002001051700000046
与等效质量矩阵
Figure BDA0002001051700000047
数据,求解子空间上广义特征值问题
Figure BDA0002001051700000048
其中,
Figure BDA0002001051700000049
Figure BDA00020010517000000410
Figure BDA00020010517000000411
组成的广义特征值问题中前r阶特征值,Φ*
Figure BDA00020010517000000412
Figure BDA00020010517000000413
组成的广义特征值问题中前r阶特征值所对应的特征向量;
(e)检查
Figure BDA00020010517000000414
是否满足精度要求,
Figure BDA00020010517000000415
满足精度则转至步骤(8),否则赋值向量矩阵Xk=Xk+1Φ*,并把向量矩阵Xk复制到GPU的全局存储器中,返回步骤(a);其中,
Figure BDA00020010517000000416
为k次迭代后第i个特征值,er为收敛精度,
Figure BDA00020010517000000417
为k+1次迭代后第i个特征值。
本发明与现有技术相比,具有如下有益效果:
(1)本发明采用无网格Galerkin法,不需要网格,对薄板模态分析结果具有较高的精度,而且本发明方法可广泛适用于二维任意几何形状的薄板模态分析问题。
(2)本发明对薄板的总体质量矩阵和总体刚度矩阵同时并行组装,以及刚度矩阵的修正、修正后刚度矩阵的三角分解和子空间迭代法模态分析等全部都在GPU上实现,极大地提高了计算效率。
附图说明
图1为本发明方法的主流程框图。
图2为本发明实施例的薄板示意图。
图3为图2所示实施例的薄板节点示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细的描述。
参见图1,本发明薄板无网格Galerkin结构模态分析的GPU加速方法,包括如下顺序的步骤:
(1)将薄板的节点坐标、背景积分网格数据、边界条件数据、模态阶数、材料物理参数读取到主机内存中;
(2)通过CPU调用薄板的节点坐标、背景积分网格数据、边界条件数据,并在薄板的背景积分网格和边界上布置积分点,求得薄板内部和位移边界上的积分点数据;通过对节点、积分点循环搜索,确定每个节点影响域内的积分点数据,以及每个积分点定义域内的节点数据,再根据节点影响域半径,确定交叉节点对信息;然后将上述所求数据由主机内存复制到GPU全局存储器中;
(3)读取GPU全局存储器中薄板的节点坐标、积分点数据、积分点定义域内的节点数据,设置GPU中的线程块与线程的数量,并行加速计算节点的形函数值、形函数一阶导数值及形函数二阶导数值,然后建立GPU线程和组成交叉节点对的两个节点公共影响域内的积分点一一映射模式,并行加速组装总体刚度矩阵K、总体惩罚刚度矩阵Ka和总体质量矩阵M,并以按行压缩存储CSR格式存储于GPU全局存储器中;
(4)在GPU中读取GPU全局存储器中存储的总体刚度矩阵K和总体惩罚刚度矩阵Kα数据,对施加边界条件的刚度矩阵进行修正
Figure BDA0002001051700000051
其中,
Figure BDA0002001051700000052
为修正后的刚度矩阵;
(5)在GPU中对修正后的刚度矩阵
Figure BDA0002001051700000061
进行三角分解,即
Figure BDA0002001051700000062
其中,L为
Figure BDA0002001051700000063
三角分解后的下三角矩阵,LT
Figure BDA0002001051700000064
三角分解后的上三角矩阵;
(6)在CPU中给定初始向量矩阵X0,对于X0并不是单一向量组成,而是r个初始向量组成的矩阵,即X0=[(x1)0 (x2)0 … (xr)0],若需要求得系统的前p阶模态,则初始向量的个数r可取2*p和p+8中较小的数;初始向量(xi)0(i=1,2,…,r)可以任意选取,只要它们是相互独立的向量,且不和系统的前p个特征向量中的任一个正交;再把初始向量矩阵X0复制到GPU全局存储器中;
(7)求解第k(k=0,1,2,…)次迭代的薄板频率与振型;
具体包括如下过程:
(a)在GPU中读取总体质量矩阵M与向量矩阵Xk数据,计算求解并赋值:Y=MXk;其中,Xk为初始向量矩阵经过k次迭代的结果;
(b)在GPU中读取向量矩阵Y数据,解方程组LLTXk+1=Y,计算得到Xk+1;其中,Xk+1为初始向量矩阵经过k+1次迭代的结果;
(c)在GPU中读取向量矩阵Xk+1数据,计算等效刚度矩阵
Figure BDA0002001051700000065
等效质量矩阵
Figure BDA0002001051700000066
然后将所求的等效刚度矩阵
Figure BDA0002001051700000067
与等效质量矩阵
Figure BDA0002001051700000068
的数据复制到主机内存中;其中,
Figure BDA0002001051700000069
为Xk+1矩阵的转置;
(d)在CPU中读取等效刚度矩阵
Figure BDA00020010517000000610
与等效质量矩阵
Figure BDA00020010517000000611
数据,求解子空间上广义特征值问题
Figure BDA00020010517000000612
其中,
Figure BDA00020010517000000613
Figure BDA00020010517000000614
Figure BDA00020010517000000615
组成的广义特征值问题中前r阶特征值,Φ*
Figure BDA00020010517000000616
Figure BDA00020010517000000617
组成的广义特征值问题中前r阶特征值所对应的特征向量;
(e)检查
Figure BDA00020010517000000618
是否满足精度要求,
Figure BDA00020010517000000619
满足精度则转至步骤(8),否则赋值向量矩阵Xk=Xk+1Φ*,并把向量矩阵Xk复制到GPU的全局存储器中,返回步骤(a);其中,
Figure BDA0002001051700000071
为k次迭代后第i个特征值,er为收敛精度,
Figure BDA0002001051700000072
为k+1次迭代后第i个特征值;
(8)在CPU中赋值:
Figure BDA0002001051700000073
ΦI=Xk+1Φ*,输出数据ΩII,写入到输出文件中;其中,ΩI为薄板前r阶频率,ΦI为薄板前r阶频率所对应的振型。
下面是将本发明方法应用于工程上的一个实例:
参见图2,是一个边长为2m、厚度为0.1m的四边固定约束的方形薄板,材料的弹性模量E=2.0×1011Pa,泊松比μ=0.3,密度为ρ=7800kg/m3。无网格Galerkin法模态分析的薄板包括10000个节点,其分布如图3所示。本发明方法针对本实施例的具体实施步骤如下:
第一步:将已经准备好的薄板数据(包括薄板的节点坐标、背景积分网格顶点的编号和坐标、节点对中两节点的编号、边界信息、惩罚系数)、材料物理参数(包括材料弹性模量、泊松比、材料密度)、节点影响域系数、模态阶数,输入到input_Modal.txt文件中,在程序运行时,系统自动将以上数据读入到主机内存中。
一个标准的input_Modal.txt文件格式如下表一:
表一
Figure BDA0002001051700000074
Figure BDA0002001051700000081
第二步:在CPU中分别开辟9801(本实施例中背景积分网格个数)*4(每个四边形背景积分网格内布置的积分点数)*4*sizeof(double)字节与396(本实施例中位移边界节点对个数)*4(每个单元节点对上布置的积分点数)*4*sizeof(double)字节的存储空间用来存储薄板积分点数据与薄板边界上的积分点数据,然后读取主机内存中薄板背景积分网格的顶点坐标与编号,边界节点对中两节点的编号,分别在薄板内部与边界上布置积分点,求取薄板内部积分点与边界上积分点的坐标、权系数及雅可比系数,并分别保存至已开辟的存储空间中;
第三步:在CPU中开辟10000(模型节点的个数)*2(x、y两个方向)*sizeof(double)字节的存储空间,然后对薄板的节点进行循环,确定其它节点与该节点的最小距离rmin,利用公式:节点影响域半径=3.0(节点影响域系数)*rmin,求得该节点的影响域半径,并保存至已开辟的存储空间中,同理求得积分点的定义域半径。
第四步:在CPU中对薄板节点进行循环,根据节点影响域半径,确定影响域有重合区域的两两节点,组成交叉节点对,并将交叉节点对信息存储于主机内存中。
第五步:在CPU中读取薄板的节点坐标、积分点坐标、节点的影响域半径,求得每个节点影响域内的积分点数据,每个积分点定义域内的节点数据。
第六步:在GPU全局存储器中分配和主机内存中同样大小的存储空间,将薄板的节点坐标、薄板内部和位移边界的积分点数据、位移边界数据、节点影响域内的积分点数据、积分点定义域内的节点数据、交叉节点对信息的数据,由主机内存复制到GPU全局存储器中。
第七步:读取GPU全局存储器中存储的薄板的节点坐标、积分点数据、积分点定义域内的节点数据,建立线程与积分点一一映射模式,并行计算每个积分点定义域内节点的形函数值、形函数对应于各个坐标轴的二阶导数值,在本实施例中为形函数对x,y轴的二阶导数值。
第八步:在GPU中建立线程块和交叉节点对一一映射模式,线程和组成交叉节点对的两个节点公共影响域内的积分点一一映射模式,并行加速组装总体刚度矩阵K、总体惩罚刚度矩阵Kα和总体质量矩阵M,并以按行压缩存储CSR格式存储于GPU全局存储器中。
第九步:在GPU中,根据边界条件修正刚度矩阵
Figure BDA0002001051700000091
Figure BDA0002001051700000092
并对修正后的刚度矩阵
Figure BDA0002001051700000093
进行三角分解,即
Figure BDA0002001051700000094
第十步:在GPU中读取总体质量矩阵M与向量矩阵Xk数据,求解并赋值:Y=MXk
第十一步:在GPU中读取质量矩阵Y数据,解方程组LLTXk+1=Y,求得向量矩阵Xk+1
第十二步:在GPU中读取向量矩阵Xk+1的数据,求解等效刚度矩阵
Figure BDA0002001051700000101
和等效质量矩阵
Figure BDA0002001051700000102
并复制等效刚度矩阵
Figure BDA0002001051700000103
与等效质量矩阵
Figure BDA0002001051700000104
数据至主机内存中。
第十三步:在CPU中,读取等效刚度矩阵
Figure BDA0002001051700000105
与等效质量矩阵
Figure BDA0002001051700000106
的数据,求解子空间上广义特征值,并检查其精度是否满足要求,如果满足,则跳至第十四步,不满足则对向量矩阵Xk进行赋值,并复制向量矩阵Xk至GPU全局存储器中,跳至第十步。
第十四步:赋值:
Figure BDA0002001051700000107
ΦI=Xk+1Φ*,输出数据ΩII,写入输出文件。
本实施例薄板无网格Galerkin法结构模态分析结果如表二所示:
表二
频率 第一阶 第二阶 第三阶 第四阶 第五阶 第六阶 第七阶 第八阶 第九阶 第十阶
参考解 219.40 447.47 447.47 659.76 802.22 806.03 1005.9 1005.9 1283.5 1283.5
CPU 219.23 446.88 446.88 659.33 801.03 802.33 1005.0 1005.5 1279.1 1285.1
GPU 219.23 446.88 446.88 659.33 801.03 802.33 1005.0 1005.5 1279.1 1285.1
注:参考解为极细密网格下的有限元解。
采用以上求解方法,计算薄板模态,CPU与GPU程序的求解时间如表三所示:
表三
节点数 CPU GPU 加速比
10000 216.308 25.046 8.64
注:
Figure BDA0002001051700000108
虽然参考优先实施例对本发明进行描述,但以上所述并不限定本发明的保护范围,凡属于本发明思路下的技术方案均属于本发明的保护范围,任何在本发明的精神及原则内的修改、改进等,也应视为本发明的保护范围。

Claims (2)

1.一种薄板无网格Galerkin结构模态分析的GPU加速方法,其特征在于包括如下顺序的步骤:
(1)将薄板的节点坐标、背景积分网格数据、边界条件数据、模态阶数、材料物理参数读取到主机内存中;
(2)通过CPU调用薄板的节点坐标、背景积分网格数据、边界条件数据,并在薄板的背景积分网格和边界上布置积分点,求得薄板内部和位移边界上的积分点数据;通过对节点、积分点循环搜索,确定每个节点影响域内的积分点数据,以及每个积分点定义域内的节点数据,再根据节点影响域半径,确定交叉节点对信息;然后将上述所求数据由主机内存复制到GPU全局存储器中;
(3)读取GPU全局存储器中薄板的节点坐标、积分点数据、积分点定义域内的节点数据,设置GPU中的线程块与线程的数量,并行加速计算节点的形函数值、形函数一阶导数值及形函数二阶导数值,然后建立GPU线程和组成交叉节点对的两个节点公共影响域内的积分点一一映射模式,并行加速组装总体刚度矩阵K、总体惩罚刚度矩阵Ka和总体质量矩阵M,并以按行压缩存储CSR格式存储于GPU全局存储器中;
(4)在GPU中读取GPU全局存储器中存储的总体刚度矩阵K和总体惩罚刚度矩阵Kα数据,对施加边界条件的刚度矩阵进行修正
Figure FDA0002001051690000011
其中,
Figure FDA0002001051690000012
为修正后的刚度矩阵;
(5)在GPU中对修正后的刚度矩阵
Figure FDA0002001051690000013
进行三角分解,即
Figure FDA0002001051690000014
其中,L为
Figure FDA0002001051690000015
三角分解后的下三角矩阵,LT
Figure FDA0002001051690000016
三角分解后的上三角矩阵;
(6)在CPU中给定初始向量矩阵X0,对于X0并不是单一向量组成,而是r个初始向量组成的矩阵,即X0=[(x1)0 (x2)0 … (xr)0],若需要求得系统的前p阶模态,则初始向量的个数r可取2*p和p+8中较小的数;初始向量(xi)0(i=1,2,…,r)可以任意选取,只要它们是相互独立的向量,且不和系统的前p个特征向量中的任一个正交;再把初始向量矩阵X0复制到GPU全局存储器中;
(7)求解第k(k=0,1,2,…)次迭代的薄板频率与振型;
(8)在CPU中赋值:
Figure FDA0002001051690000021
ΦI=Xk+1Φ*,输出数据ΩII,写入到输出文件中;其中,ΩI为薄板前r阶频率,ΦI为薄板前r阶频率所对应的振型,Xk+1为初始向量矩阵经过k+1次迭代的结果,
Figure FDA0002001051690000022
为等效刚度矩阵
Figure FDA0002001051690000023
与等效质量矩阵
Figure FDA0002001051690000024
组成的广义特征值问题中前r阶特征值,Φ*为等效刚度矩阵
Figure FDA0002001051690000025
与等效质量矩阵
Figure FDA0002001051690000026
组成的广义特征值问题中前r阶特征值所对应的特征向量。
2.根据权利要求1所述薄板无网格Galerkin结构模态分析的GPU加速方法,其特征在于:步骤(7)包括如下过程:
(a)在GPU中读取总体质量矩阵M与向量矩阵Xk数据,计算求解并赋值:Y=MXk;其中,Xk为初始向量矩阵经过k次迭代的结果;
(b)在GPU中读取向量矩阵Y数据,解方程组LLTXk+1=Y,计算得到Xk+1;其中,Xk+1为初始向量矩阵经过k+1次迭代的结果;
(c)在GPU中读取向量矩阵Xk+1数据,计算等效刚度矩阵
Figure FDA0002001051690000027
等效质量矩阵
Figure FDA0002001051690000028
然后将所求的等效刚度矩阵
Figure FDA0002001051690000029
与等效质量矩阵
Figure FDA00020010516900000210
的数据复制到主机内存中;其中,
Figure FDA00020010516900000211
为Xk+1矩阵的转置;
(d)在CPU中读取等效刚度矩阵
Figure FDA00020010516900000212
与等效质量矩阵
Figure FDA00020010516900000213
数据,求解子空间上广义特征值问题
Figure FDA00020010516900000214
其中,
Figure FDA00020010516900000215
Figure FDA00020010516900000216
Figure FDA00020010516900000217
组成的广义特征值问题中前r阶特征值,Φ*
Figure FDA00020010516900000218
Figure FDA00020010516900000219
组成的广义特征值问题中前r阶特征值所对应的特征向量;
(e)检查
Figure FDA0002001051690000031
是否满足精度要求,
Figure FDA0002001051690000032
满足精度则转至步骤(8),否则赋值向量矩阵Xk=Xk+1Φ*,并把向量矩阵Xk复制到GPU的全局存储器中,返回步骤(a);其中,
Figure FDA0002001051690000033
为k次迭代后第i个特征值,er为收敛精度,
Figure FDA0002001051690000034
为k+1次迭代后第i个特征值。
CN201910212831.8A 2019-03-20 2019-03-20 薄板无网格Galerkin结构模态分析的GPU加速方法 Active CN109948253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212831.8A CN109948253B (zh) 2019-03-20 2019-03-20 薄板无网格Galerkin结构模态分析的GPU加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212831.8A CN109948253B (zh) 2019-03-20 2019-03-20 薄板无网格Galerkin结构模态分析的GPU加速方法

Publications (2)

Publication Number Publication Date
CN109948253A CN109948253A (zh) 2019-06-28
CN109948253B true CN109948253B (zh) 2022-11-29

Family

ID=67011212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212831.8A Active CN109948253B (zh) 2019-03-20 2019-03-20 薄板无网格Galerkin结构模态分析的GPU加速方法

Country Status (1)

Country Link
CN (1) CN109948253B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6769536B1 (ja) * 2019-09-30 2020-10-14 Jfeスチール株式会社 自動車のパネル部品の振動騒音低減解析方法及び解析装置
CN115995277B (zh) * 2023-03-22 2023-06-02 中国空气动力研究与发展中心计算空气动力研究所 一种材料动力学特性评估方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092748B2 (en) * 2000-02-18 2006-08-15 Centro Nacional De Investigaciones Cientificas (Cnic) System and method for the tomography of the primary electric current of the brain and of the heart
WO2015095785A1 (en) * 2013-12-19 2015-06-25 University Of Louisville Research Foundation, Inc. Multi-scale mesh modeling software products and controllers
CN103970960B (zh) * 2014-05-23 2016-11-23 湘潭大学 基于gpu并行加速的无网格伽辽金法结构拓扑优化方法
CN106845021B (zh) * 2017-02-28 2020-04-07 湘潭大学 基于无网格rkpm的各向异性材料热结构拓扑优化方法

Also Published As

Publication number Publication date
CN109948253A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
Wang et al. “Seen Is Solution” a CAD/CAE integrated parallel reanalysis design system
JP5255714B2 (ja) 三次元の流体シミュレーション方法
Karatarakis et al. GPU-acceleration of stiffness matrix calculation and efficient initialization of EFG meshless methods
Feng et al. Parallel on-chip power distribution network analysis on multi-core-multi-GPU platforms
CN109726441B (zh) 体和面混合gpu并行的计算电磁学dgtd方法
CN109948253B (zh) 薄板无网格Galerkin结构模态分析的GPU加速方法
Economon et al. Towards high-performance optimizations of the unstructured open-source SU2 suite
CN110955941B (zh) 基于向量场的复合材料结构优化设计方法及设备
CN109960865B (zh) 薄板无网格Galerkin结构动力响应分析的GPU加速方法
CN114792037B (zh) 一种超材料隔振器的序贯稳健性优化设计方法
Mostafazadeh Davani et al. Unsteady Navier-Stokes computations on GPU architectures
Sanfui et al. A two-kernel based strategy for performing assembly in FEA on the graphics processing unit
CN111859645A (zh) 冲击波求解的改进musl格式物质点法
CN109753682B (zh) 一种基于gpu端的有限元刚度矩阵模拟方法
CN113239591B (zh) 面向dcu集群的大规模有限元网格并行分区的方法及装置
Komatsu et al. Parallel processing of the Building-Cube Method on a GPU platform
Yamaguchi et al. Fast finite element analysis method using multiple GPUs for crustal deformation and its application to stochastic inversion analysis with geometry uncertainty
Liu et al. Massively parallel CFD simulation software: CCFD development and optimization based on Sunway TaihuLight
CN115146408A (zh) 一种基于三叉元结构的机床结构件正向设计方法
Sokolovskyy et al. Software and algorithmic support for finite element analysis of spatial heat-and-moisture transfer in anisotropic capillary-porous materials
Lou et al. OpenACC directive-based GPU acceleration of an implicit reconstructed discontinuous Galerkin method for compressible flows on 3D unstructured grids
Xue et al. Heterogeneous computing of CFD applications on CPU-GPU platforms using OpenACC directives
Wei et al. Acceleration of free-vibrations analysis with the Dual Reciprocity BEM based on ℋ-matrices and CUDA
Bogdanov et al. Adaptation and optimization of basic operations for an unstructured mesh CFD algorithm for computation on massively parallel accelerators
Lin et al. A Scalable Hybrid Total FETI Method for Massively Parallel FEM Simulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant