CN103324780B

CN103324780B - 颗粒流动仿真系统和方法

Info

Publication number: CN103324780B
Application number: CN201310195595.6A
Authority: CN
Inventors: 杨磊; 齐记; 田园; 高笑菲
Original assignee: Institute of Modern Physics of CAS
Current assignee: Institute of Modern Physics of CAS
Priority date: 2012-12-20
Filing date: 2013-05-22
Publication date: 2016-03-16
Anticipated expiration: 2033-05-22
Also published as: WO2014094410A1; CN103324780A; GB2523640A; US10007742B2; US20150213163A1; GB2523640B; GB201500658D0; JP6009075B2; JP2015530636A

Abstract

本发明公开了基于GPU的颗粒流动仿真系统及方法，包括：根据客户端输入的颗粒建模信息生成颗粒信息，并且生成几何体信息；接收颗粒信息和几何体信息，根据颗粒的数目及各个计算节点中空闲的GPU数目，确定使用哪些计算节点中的哪些GPU，然后根据确定的GPU的数目及颗粒在空间中的分布情况确定哪些颗粒由哪个计算节点的哪个GPU进行计算，并根据确定结果进行分配；在多个GPU中并行计算颗粒碰撞导致的每个颗粒的受力，进而计算出加速度，以仿真颗粒流动；展示仿真结果。根据本发明实施例，能够实现高密度颗粒虚拟实验仿真，并在降低能耗的同时提高运算效率。

Description

颗粒流动仿真系统和方法

技术领域

本发明涉及颗粒流动仿真技术领域，具体地，涉及一种可应用于颗粒物质或固体结构研究的基于GPU的颗粒仿真系统和方法。

背景技术

颗粒系统一直是人们关注的研究内容。在工业领域如：食品控制、化学、土木工程、油气、采矿、制药、粉末冶金、能源等领域都有大量应用；在理论研究方面，如何堆积能达到最密集堆积、沙堆在什么情况下坍塌以研究雪崩等问题。为研究相关颗粒系统，人们需要搭建大型实验用颗粒系统，费时费力。并且某些颗粒系统由于成本高，需要在极端的条件下运行，不可能通过实验搭建完成，而基于虚拟实验的仿真系统则不存在类似的问题。

目前颗粒系统模拟的计算方法主要以DEM(离散单元算法)方法为主。DEM方法是继有限元法、计算流体力学(CFD)之后，用于分析物质系统问题的又一种数值计算方法。DEM方法通过建立微元体系的参数化模型，进行颗粒行为模拟和分析，为解决众多涉及颗粒、结构、流体与电磁及其耦合等综合问题提供了一个平台，已成为科学过程分析、产品设计优化和研发的一种强有力的工具。目前DEM方法除了在科学研究中运用，也在科技应用和工业领域逐渐成熟，并已从颗粒物质研究、岩土工程和地质工程等科学及应用拓展至工业过程与工业产品的设计、研发领域，在诸多工业领域取得了重要成果。

DEM方法的特点是仿真精度高，但计算量大。当前，DEM方法的实现以CPU为主，这些方法由于CPU计算能力不足导致计算规模不足，在可以接受的机时内只能计算很小的空间尺寸和时间尺寸；或者因建设成本高，需要建设大规模甚至超大规模的CPU计算机集群，而且耗电量过大，使用和维护成本极高。此外，目前用CPU实现的DEM方法要么颗粒数较少，要么是低密集颗粒碰撞，无法完全实现高密度大量颗粒碰撞模拟。

使用GPU(图形处理器，GraphicsProcessingUnit)进行通用计算的技术越来越成熟，如当今两大显卡制造商nVIDIA和AMD均支持GPU通用计算。鉴于上述问题，本申请发明人提出了基于GPU的颗粒流动仿真系统和方法。

发明内容

根据本发明，提出一种基于GPU的颗粒流动仿真系统及方法，能够实现高密度颗粒虚拟实验仿真，并降低能耗的同时提高运算效率。

根据本发明一方面，提出了一种基于GPU的颗粒流动仿真方法，其在并行的多个GPU上执行离散单元算法(DEM)方法来进行颗粒流动仿真，该方法包括以下步骤：

a、使用DEM方法对颗粒建模，并将建立的DEM模型分配为多个粒子，将该多个粒子分配给多个计算节点进行处理，每个计算节点的CPU和GPU分别分配有内存空间，并在CPU中进行初始化数据，将初始化后的数据从CPU内存空间拷贝入所述GPU的内存空间中；

b、上述每个计算节点的GPU对每个粒子进行处理，其中每个计算节点的GPU的每个流处理器负责处理一个粒子，并更新粒子存储在GPU内存空间中的坐标及粒子速度；

c、在步骤b的处理过程中，确定每个计算节点控制的粒子，将每个计算节点控制的粒子个数拷贝至CPU内存空间中，并根据GPU内存空间中的粒子数进行动态划分，以按照均衡负载原则动态地确定出每个计算节点计算哪些粒子；

d、利用MPI(MessagePassingInterface)接口协议把上述进行数据动态划分后的粒子在每个计算节点间迁移；

e、根据步骤c得到的每个计算节点控制的粒子，在GPU中计算重叠区域，并将数据拷入CPU内存，而后通过MPI接口协议进行数据交换；

f、每个计算节点的GPU中的每个流处理器根据每个粒子的坐标，计算每个粒子所在GPU内存空间中网格的编号；

g、每个计算节点的GPU中的每个流处理器处理计算每个粒子运动中的受力和加速度；

h、每个计算节点的GPU中的每个流处理器处理每个粒子速度；

i、回到步骤b直至达到指定步数；

j、释放主控节点和计算节点的内存空间。

在一个实施例中，步骤b、步骤f、步骤g和步骤h利用GPU对每个粒子进行并行数据处理，即每个GPU对粒子的处理是同步进行的。

在一个实施例中，步骤d中所述粒子在各节点间迁移利用粒子在节点间传输迁移的方法，即用MPI接口发送和接收函数，实现粒子各物理量的发送和接收，进而实现了粒子在节点间的传输迁移。

在一个实施例中，在步骤e中，所述在GPU中计算重叠区域(Overlap区)包括：利用在GPU计算Overlap区，GPU的一个流处理器处理一个网格。在三维情况下，每个网格有26个网格与之相邻，判断相邻网格是否在当前计算节点中，如果不是，则算作overlap区，从其他节点迁移获得。

根据本发明另一方面，提出了一种基于GPU的颗粒流动仿真方法，包括：

建模步骤，确定颗粒材料、颗粒参数、边界条件和几何体形状，以及颗粒初始分布的区域，并根据预定的颗粒分布区域和数量生成颗粒；

任务管理步骤，根据颗粒总数和多个计算节点上空闲GPU的数目，确定最优GPU数目，并结合最优GPU数目和当前空闲GPU数目确定参与计算的GPU，并将参与计算的GPU状态设置为非空闲；以及

计算步骤，包括

初始化各计算节点的参与计算的GPU，并向各GPU发送计算所需的颗粒信息，

各GPU并行更新预定速度，对接收的颗粒信息排序以生成各自的排序元胞列表，

各GPU并行计算当前各自进程中非零网格编号及网格中颗粒数目，并发送至所述多个计算节点之中的主控节点，由主控节点依照每个GPU最优颗粒数目进行动态划分网格，确定每个GPU并行计算的网格数目和编号，

根据主控节点的确定结果，各GPU并行发送和接收颗粒信息，并在各GPU中重新生成各自的排序元胞列表，

在各GPU中生成当前时刻的碰撞列表，

根据当前时刻的碰撞列表以及前一时刻的碰撞列表和切向相对位移，在各GPU中并行调整切向相对位移的位置，使其与当前碰撞列表保持一致，

根据HM(Hertz-Mindlin)接触力学模型，在各GPU中并行计算每个颗粒的受力和加速度，

存储当前计算结果；

如果计算没有完成，就返回至各GPU并行更新预定速度的步骤，否则计算步骤结束。

在一个实施例中，所述方法还包括展示步骤，包括：确定边界条件，将几何体边界用透明曲面做出；根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出；以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

在一个实施例中，保存所有的颗粒的物理信息至外部存储装置。

在一个实施例中，各GPU并行计算相关物理统计量。

在一个实施例中，根据预定的颗粒分布区域和数量生成颗粒包括：在较小的空间内生成若干颗粒，再将这些颗粒平移复制填充至其它空间，直至满足颗粒数量要求。

在一个实施例中，排序元胞列表对所有颗粒按照颗粒所在网格进行排序。

在一个实施例中，采用动态划分方法，由GPU并行计算非零网格编号及网格中粒子数目。

在一个实施例中，在每个GPU中采用一个线程对应一个颗粒的方式来进行计算。

在一个实施例中，计算切向相对位移包括：记录上一时刻的切向相对位移，并根据当前时刻的碰撞列表对其进行更新。

在一个实施例中，使用拷贝或指针交换技术将当前计算结果存储至数组中。

根据本发明又一方面，提出了一种基于GPU的颗粒流动仿真系统，包括：

建模模块，配置为确定颗粒材料、颗粒参数、边界条件和几何体形状，以及颗粒初始分布的区域，并根据预定的颗粒分布区域和数量生成颗粒；

任务管理模块，配置为根据颗粒总数和多个计算节点上空闲GPU的数目，确定最优GPU数目，并结合最优GPU数目和当前空闲GPU数目确定参与计算的GPU，并将参与计算的GPU状态设置为非空闲；以及

计算模块，配置为

各GPU并行更新预定的速度和坐标，对接收的颗粒信息排序以生成各自的排序元胞列表，

各GPU并行计算当前各自进程中非零网格编号及网格中颗粒数目，并发送至主控节点，由主控节点依照每个GPU最优颗粒数目进行动态划分网格，确定每个GPU并行计算的网格数目和编号，

在各GPU中生成当前时刻的碰撞列表，根据当前时刻的碰撞列表以及前一时刻的碰撞列表和切向相对位移，在各GPU中并行调整切向相对位移的位置，

根据接触力学模型，在各GPU中并行计算每个颗粒的受力和加速度，

存储当前计算结果，和

如果计算没有完成，就返回至各GPU并行更新预定速度和坐标的步骤，否则计算结束。

在一个实施例中，所述系统还包括展示模块，配置为：确定边界条件，将几何体边界用透明曲面做出；根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出；以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

根据本发明再一方面，提出了一种基于GPU的颗粒流动仿真系统，包括：

前端服务器，配置为根据客户端输入的颗粒建模信息生成颗粒信息，并且生成几何体信息；

管理节点，配置为从前端服务器接收颗粒信息和几何体信息，根据颗粒的数目及各个计算节点中空闲的GPU数目，确定使用哪些计算节点中的哪些GPU，然后根据确定的GPU的数目及颗粒在空间中的分布情况确定哪些颗粒由哪个计算节点的哪个GPU进行计算，并根据确定结果进行分配；

多个计算节点，各自包括多个GPU，配置为在多个GPU中并行计算颗粒碰撞导致的每个颗粒的受力，进而计算出加速度，以仿真颗粒流动；

后端服务器，配置为展示仿真结果。

在一个实施例中，前端服务器通过将几何体分解成有限的曲面，并对这些曲面编号，来生成几何体信息。

在一个实施例中，后端服务器在展示的仿真结果中将几何体边界用透明曲面做出，根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出，以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

在一个实施例中，前端服务器、管理节点、计算节点和后端服务器通过IB(InfiniBand)网路通信。

根据本发明，实现了基于多个GPU的从建模到结果展示的仿真系统，并结合多GPU的硬件特点，实现了多GPU的颗粒流动仿真方法。根据本发明实施例，利用GPU的超强浮点运算能力、高带宽及多轻量计算核心的特点，充分利用GPU内众多流处理器，将分子动力学中的加速算法合理引入DEM算法，使得DEM算法更适合GPU硬件架构。在多GPU实现时，该算法采用动态划分数据以实现负载均衡的方法，减小了Overlap区及通讯量，极大地提高了GPU和CPU的利用率及运算效率。在可以接受的能耗和时间条件下，取得了非常好的计算效果，达到了在能耗小、维修成本低的同时提高运算效率的效果。

附图说明

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。附图中：

图1是根据本发明实施例的基于GPU的颗粒流动仿真系统的结构示意图；

图2是根据本发明一个实施例的基于GPU的颗粒流动仿真方法的流程图；

图3是根据本发明另一个实施例的基于GPU的颗粒流动仿真系统的模块结构示意图；以及

图4是根据本发明实施例的计算模块的操作流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是根据本发明实施例的基于GPU的颗粒流动仿真系统的结构示意图。如图1所示，该系统包括前端服务器10、后端服务器20、管理节点30、多个计算节点40-1，...，40N(N是大于1的整数)、IB交换机50和以太网交换机60。此外，图1还示出了该系统包括客户端和存储设备。客户端可以经由互联网与前端服务器10通信，这使得现场实验人员能够远程进行颗粒流动仿真实验。例如，用户可以在客户端上输入建模所需信息或参数，例如颗粒的数目、大小、材料等信息(杨氏模量、泊松(Poisson)比、密度、恢复系数等)及颗粒的分布范围、摩擦系数、边界条件等参数，并给出与颗粒球接触的几何体的材料信息，将这些信息或参数传入前端服务器中。该外部的存储设备可以存储例如各个计算节点的计算结果，以防止死机、断电等意外情况发生导致数据丢失。这里，客户端和外部存储设备是可选的，例如用户可以直接在前端服务器上进行输入，或者计算节点的计算结果可以存储到前端或后端服务器等中。

在图1中，前端服务器10、后端服务器20和计算节点40之间经由IB交换机50连接，并且前端服务器10、管理节点30和计算节点40之间经由以太网交换机60连接。然而，本发明实施例也可以采用其他任何适当的连接方式。在一个实施例中，计算节点40可以是有GPU加速卡的高性能集群。在一个实施例中，每个计算节点都具有GF110核心以上的NVIDIA通用计算卡。在一个实施例中，计算节点使用40Gb的IB(InfiniBand)网路连接。在一个实施例中，前后端服务器各自为一台具有Quadrio6000显卡的图形工作站。例如，工作站内存大于32G，并具有IB网卡。

在本发明实施例的基于GPU的颗粒流动仿真系统中，前端服务器10根据客户端输入的颗粒建模信息生成颗粒信息，并且生成几何体信息。例如，前端服务器10可以接收有关颗粒的尺寸、材料及几何构型的输入，也可通过交互方式增、删颗粒，并移动颗粒的位置。前端服务器10可以通过将几何体分解成有限的曲面，并对这些曲面编号，来生成几何体信息。管理节点30可以任意查看当前各计算节点的运行状态、GPU的工作状态、存储情况等，并可中止提交的任务，保证各任务之间不产生冲突。例如，管理节点30从前端服务器10接收颗粒信息和几何体信息，根据颗粒的数目及各个计算节点中空闲的GPU数目，确定使用哪些计算节点中的哪些GPU，然后根据确定的GPU的数目及颗粒在空间中的分布情况确定哪些颗粒由哪个计算节点的哪个GPU进行计算，并根据确定结果进行分配。各个计算节点40构成整个计算模块，能够处理复杂的边界问题，并行运行多个GPU，具有中断功能(如断电)，可接着中断前状态继续运算，该计算模块使用数据的动态划分方法及指针交换技术，以保证数据的动态平衡。例如，各个计算节点40在各自GPU中并行计算颗粒碰撞导致的每个颗粒的受力，进而计算出加速度，以仿真颗粒流动。后端服务器20展示仿真结果，例如动态展示颗粒当前的构型、温度场、流场、压强场等参数，也可通过交互方式调整观察角度，任意缩放颗粒群组。例如，后端服务器20可以包括显示器等输出设备。后端服务器20可以将几何体边界用透明曲面做出，根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出，以及用灰度图显示温度场等标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出流场、压强场等向量场。

以上系统仅仅是本发明基本构思的一种实现。本领域技术人员可以理解，上述各个部件的功能可以进行再分配或组合，以形成其他的系统构架。此外，如果功能足够强大，上述各个部件的功能可以集成到单个计算机或工作站中。

图2是可以在本发明实施例的仿真系统上执行的基于GPU的颗粒流动仿真方法的流程图。如图2所示，该仿真方法包括如下步骤。

201、使用DEM方法对颗粒建模，并将建立的DEM模型分配为多个粒子，将该多个粒子分配给多个计算节点进行处理，每个计算节点的CPU和GPU分别分配有内存空间，并在CPU中进行初始化数据，将初始化后的数据从CPU内存空间拷贝入所述GPU的内存空间中。

202、上述每个计算节点的GPU对每个粒子进行处理，其中每个计算节点的GPU的每个流处理器负责处理一个粒子，并更新粒子存储在GPU内存空间中的坐标及粒子速度。

203、由于存储在GPU内存空间中的粒子的坐标会发生改变，为保证负载均衡，因此每次计算中各个节点计算的粒子不相同，首先，每个计算节点的GPU计算出该节点控制的粒子，并将每个GPU控制的粒子个数拷贝至CPU内存空间中，并根据GPU内存空间中的网格中粒子数进行数据的动态划分，即按照均衡负载的原则，计算出每个节点计算哪些粒子。

204、利用MPI接口协议把上述进行数据动态划分后的粒子在每个计算节点间迁移。

205、根据步骤203得到的每个计算节点控制的粒子，在GPU中计算重叠区域，并将数据拷入CPU内存，而后通过MPI接口协议进行数据交换。

206、每个计算节点的GPU中的每个流处理器根据每个粒子的坐标，计算出每个粒子所在GPU内存空间中网格的编号。

207、每个计算节点的GPU中的每个流处理器处理计算每个粒子运动中的受力和加速度。

208、每个计算节点的GPU中的每个流处理器处理每个粒子速度。

209、回到步骤202直至达到指定步数，完成DEM方法。

210、释放主控节点和计算节点的内存空间。

其中所述步骤202、步骤206、步骤207和步骤208利用GPU对每个粒子进行并行数据处理，即每个GPU对粒子的处理是同步进行的。

步骤204中所述粒子在各节点间迁移利用粒子在节点间传输迁移的方法，即用MPI接口发送和接收函数，实现粒子各物理量的发送和接收，进而实现了粒子在节点间的传输迁移。接受函数为：MPI_Send()和MPI_Recv()函数。

步骤205中，所述在GPU中计算重叠区域(Overlap区)，利用在GPU计算Overlap区的方法，即GPU的一个流处理器处理一个网格，在三维情况下，每个网格有26个网格与之相邻，接着判断相邻网格是否在当前计算节点中，如果不是，则算作overlap区，则从其他节点迁移获得。

其具体如下：

步骤1，每个计算节点在CPU和GPU中分别开辟内存空间，于CPU中初始化数据，并拷贝入GPU中；

步骤2，

计算节点GPU的每个流处理器处理一个粒子，并行更新一步粒子坐标及半步长粒子速度。包含CUDA的Kernel函数：

在调用的时候，根据CUDA的语法要求，采用如下方式调用：

这两个函数的block和grid均采用一维方式，针对不同粒子数，block和grid的值可以调整，对计算机时有一定影响。

步骤3，在每个计算节点的GPU中，计算出该节点控制的粒子，并拷贝至CPU，根据网格内粒子数进行数据的动态划分。

在计算过程中，由于粒子会在不同节点之间迁移，为避免负载不均的情况，本发明使用动态划分数据的方式，以平衡每个节点的计算量。

初始状态下，假设有M个网格，每个网格中粒子数X相同，M个网格(G₀～G_M-1)被平均划分为N段，分别交给N个节点(P₀～P_N-1)处理，则每个节点计算的粒子数为(M/N)*X。经过迭代计算后，各个节点Pi所计算的网格范围内的粒子总数发生改变，可通过调整每个节点计算网格的范围来改变计算粒子的总数。动态数据划分的实现如下：

(1)每个节点维护一个与全局网格数量M相同的int型数组iCellCount，调用CUDA内核函数calcParticleNumPerCel()l计算出每个网格中粒子个数，将其保存到iCellCount中。此时iCellCount中的粒子个数只是局部的，仅仅记录了当前节点计算粒子所在各个网格中的个数。

(2)令PID＝0的节点为ROOT节点，调用MPI归约函数MPI_Reduce()，以加法操作将所有节点iCellCount中的信息收集到ROOT节点下的iGlobalCellCount数组中。此时iGlobalCellCount数组中记录的各个网格中粒子个数是全局的，是所有粒子所在各个网格中的个数。

(3)使用iGlobalCellCount数组对各个节点计算网格范围进行划分，划分采用CPU+GPU方式。划分步骤如下：

根据节点个数N将数组iGlobalCellCount平均分为N段并假设每个节点计算的网格范围相同，将各个节点计算网格范围保存在数组iDividedResult中，初始状态下iDividedResult中各元素值为节点i的范围可根据iDividedResult[i*2]和iDividedResult[i*2+1]得到。

调用CUDA内核函数dReducePerSeg()函数分别求出每个段中的粒子个数，并保存在数组iParticlesCountPerSeg＝{X₀，X₁，...，X_N-1}中。

由CPU根据iDividedResult、iParticlesCountPerSeg和iGlobalCellCount来确定最终的划分结果。首先给定理想情况下每个节点计算粒子的个数iParticlesPerNodeIdeal，并读取iParticlesCountPerSeg[0]的值，若iParticlesCountPerSeg[0]＞iParticlesPerNodeIdeal，说明节点0处理的范围过大，则

重复上述过程直到iParticlesCountPerSeg[0]与iParticlesPerNodeIdeal相等或接近。若iParticlesCountPerSeg[0]＜iParticlesPerNodeIdeal说明节点0处理的范围过小，则对上述过程向相反方向处理。当iParticlesCountPerSeg[0]与iParticlesPerNodeIdeal相等或接近后，则iDividedResult[0]，iDividedResult[0*2+1]为节点0的计算范围。

重复(3)中的过程对所有分段进行处理后，便可得到各个节点处理网格的范围。

(4)ROOT节点调用MPI_BCast()函数将划分结果广播到所有节点。

步骤4：利用MPI接口协议把划分好数据后的粒子在各节点间迁移。

各节点根据网格划分结果iDividedResult确定iSendGridInfo数组和iSendParticlesOffset数组。数组iSendGridInfo和iSendParticlesOffset大小与全局网格数相同，其中iSendGridInfo记录各网格位于哪个节点，而iSendParticlesOffset则记录各网格中第一个粒子所在粒子数组中的位置。

根据链表gridInfo长度确定当前节点要向iSendNodeCount个节点发送粒子，并将发送信息写入数组iSendInfo中。数组iSendInfo长度为iSendNodeCount*3，其中iSendInfo[i*3]为接收粒子节点编号PIDR，iSendInfo[i*3+1]为发送粒子的个数，iSendInfo[i*3+2]为发送节点编号PIDS。

ROOT节点调用MPI_Gatherv()函数将所有节点的iSendInfo数组收集到iGlobalSendInfo数组中，根据iGlobalSendInfo[i*3]的值进行从小到大排序，再调用MPI_Scatterv()函数根据iGlobalSendInfo[i*3]的值将三元组发送到对应的节点。

各节点接收ROOT发送的三元组，将其保存在数组iRecvInfo中并开始发送与接收粒子。

步骤5，根据步骤3得到的每个节点控制的粒子，在GPU中计算Overlap区，并将数据拷入CPU内存，而后通过MPI接口协议进行数据交换。

三维DEM在计算过程中，每个网格需要相邻的26个网格(overlap网格)中的粒子数据，因此在重新划分每个节点的网格计算范围和传送粒子后，各节点必须获取overlap网格以确保计算能正确进行。Overlap交换过程实现如下：

将接收到的粒子保存到粒子数组中，同时将发送走的粒子从粒子数组中移除。对新的粒子数组根据所在网格号从小到大排序，并重新计算iCellCount和iSendParticlesOffset数组。

根据iDividedResult数组所记录的当前节点处理网格范围，计算每一个范围内网格的相邻网格，并确定不在当前节点的相邻网格编号以及所在节点编号。

ROOT节点调用MPI_Gatherv将各节点的iSendInfo数组收集到ROOT节点下的iGlobalSendInfo数组中。根据iGlobalSendInfo[i*3]从小到大排序后调用MPI_Scatterv()函数根据iGlobalSendInfo[i*3]的值将三元组发送到相应的节点。

各节点将ROOT发送来的三元组保存在数组iRecvInfo中，根据iCellCount[iRecvInfo[i*3+1]]确定要向编号为iRecvInfo[i*3+2]的节点发送多少个粒子，同时令iSendGridInfo[iRecvInfo[i*3+1]]＝iRecvInfo[i*3+2]。

采用步骤2中的方法将overlap网格中的粒子发送到指定的节点。

步骤6，在每个计算节点GPU中的一个流处理器处理一个粒子，根据粒子的坐标，计算每个粒子所在网格的编号。

为节省内存空间，网格编号采用按行一维存储，并调用CUDA核函数：

calcHash<<<gridsize，blocksize>>>(ParticleHash，ParticleIndex，

x1，x2，x3，

NumParticles)；

得到粒子所在网格编号ParticleHash。对于计算区域外的粒子，计算其所在网格时，可以将其人为地放入计算区域内某网格中，而不影响计算。

然后对根据Cell-list的要求，用下列kernel根据ParticleHash生成cell-list：

根据上述结果，调用下列kernel函数：

生成每个粒子的邻居表NbrLst。根据新生成的NbrLst，计算出新的切向相对位移U。

步骤7，在每个计算节点的GPU中的一个流处理器处理一个粒子，计算受力和加速度。

根据步骤6中得到的NbrLst以及U，结合粒子的坐标、速度、角速度，根据DEM方法的要求，计算出每个粒子的受力和力矩。根据牛顿第二定律，计算出每个粒子的加速度和角加速度。

步骤8，根据步骤7计算的加速度以及角加速度，更新半步粒子的速度，具体方式与步骤2相同。

步骤9，循环，回到步骤2继续计算，直至满足要求；

步骤10，将GPU设备内存中的需要的数据复制到CPU内存，释放主控节点和计算节点内存空间。

下表一示出了上述仿真方法的执行结果。程序在nVIDIA的GPU上运行不同步数，分别采用不同的block和Thread数量执行。

图3是根据本发明另一个实施例的基于GPU的颗粒流动仿真系统的模块结构示意图。如图3所示，该模块化的仿真系统包括建模模块302、任务管理模块304、计算模块306和展示模块308。结合图1，例如建模模块302可以在前端服务器10中实现，任务管理模块304可以在管理节点30中实现，计算模块306可以由计算节点40的集群实现，展示模块308可以在后端服务器20中实现。然而，这些模块也可以适当方式实现在例如单个或多个计算机中。

建模模块302接收颗粒生成所需的信息，例如即颗粒的数目、大小、材料等信息(杨氏模量、泊松(Poisson)比、密度、恢复系数等)及颗粒的分布范围、摩擦系数、边界条件等参数，并给出与颗粒接触的几何体的材料信息。

建模模块302根据接收的信息，生成需要的颗粒模型(也可简称为颗粒)。为保证所生成的颗粒间没有交叠，或者交叠较小，可使用以下几种方法生成颗粒模型：(1)规则生成法，即在规定范围内生成规则的颗粒，但须加入相对于颗粒半径0.1％～1％的变动；(2)每新生成一个颗粒都与前面所有颗粒进行比较，检测与其是否有交叠，若有，则重新生成，否则视为生成成功；(3)先在较小的空间内使用方法(2)生成若干粒子，再将这些颗粒平移复制填充至其它空间，直至满足颗粒数要求。这提高了颗粒分布的随机性并节省了计算时间。除上述三种方法外，对于颗粒数较少的情况，在确定空间范围后，也可通过交互式方法，使用鼠标点击生成。

颗粒生成后，建模模块302处理几何体信息。将几何体分解成有限的曲面，并对这些曲面编号。接着，将生成的颗粒、几何体及其它材料信息提供给任务管理模块304。

任务管理模块304首先根据传输的颗粒数目及空闲的GPU数目来给当前任务分配节点和GPU，若资源不足，则向用户通知或让用户选择等待还是放弃。在确定好GPU后，将初始的颗粒位置信息存入管理节点30的GPU中，并根据GPU的数目及颗粒在空间中的分布情况确定哪些颗粒由哪个计算节点40的哪个GPU卡进行计算。任务管理模块304向计算模块306传送确定结果以分配给各个计算节点40。

当每个计算节点40得到自己需要的颗粒后，先根据当前的加速度积分1/2步，得到1/2步后的速度，并根据这个速度和当前颗粒坐标值来更新所有颗粒的位置。

更新位置后进行碰撞检测。此时需要将空间划分为若干个网格，在计算任意一个颗粒的受力情况时，只需计算与该颗粒相邻网格内的颗粒是否与之碰撞，若发生碰撞，则将碰撞颗粒放入碰撞列表中，并将碰撞颗粒个数加1。

在计算颗粒球受力时，先将该碰撞颗粒的坐标、速度、角速度信息提取出来，计算受力，之后对所有碰撞颗粒求合力并计算颗粒加速度。对于颗粒周围几何体的受力，先计算颗粒与几何体之间的距离，若该距离小于颗粒半径，则认为该颗粒与几何体发生碰撞，将几何体当成质量无穷大但速度和角速度场为零的颗粒，同样可计算颗粒受到几何体的力

为保证能够中断后重新接着计算，根据实际需要，可以每个小时保存一步计算数据。该计算模块306也可根据需要计算密堆率、平均堆积密度、温度粘滞系数等物理量并存储。计算完成后用户若想对结果进行可视化展示，可将数据发送到展示模块308。

下面结合图4进一步描述计算模块306的操作流程。该实施例中，计算模块306的计算过程可以采用“排序的元胞列表法”。该方法对所有颗粒按照颗粒所在网格进行排序，并充分利用cellStart和CellEnd这两个数组的优势。该方法具有结构简单，实现容易，而不失效率的特点。由此，该方法适合各种高密集度的颗粒碰撞，能解决因颗粒速度大而引起跨节点传输的问题。

描述颗粒的物理量有：坐标pos，速度vel，角速度w，加速度a，角加速度beta，颗粒的切向相对位移U。这些变量均为三维变量。此外，还有颗粒所在网格编号hash、颗粒的永久全局编号pid及临时局部编号index，颗粒的碰撞列表CollideList，以及碰撞的颗粒数量CollideListCnt。

元胞是指上述划分所得的网格，在本文中“元胞”与“网格”含义相同，两者可以互换使用。描述元胞i的变量有：cellStart[i]，cellEnd[i]，cellCount[i]，其中i表示元胞的编号，cellStart[i]表示元胞i的开始颗粒的编号，cellEnd[i]表示元胞i的结束颗粒的编号，cellCount[i]表示元胞i中的颗粒总数。

用于描述进程通讯的二维数组可以称为ParticlesSendToEachNode，第i行第j列的元素[i][j]表示第i个节点向第j个节点发送的颗粒总数。

本发明采用的时间积分算法是速度verlet算法(现有的积分算法，参见例如http://en.wikipedia.org/wiki/Verlet_integration)。

如图4所示，在步骤401，进行初始化，包括开辟GPU和CPU的存储空间，将计算的颗粒信息发送至各计算节点的GPU中。

在步骤402，更新预定的速度和坐标，例如根据加速度(或角加速度)更新1/2步的速度(或角速度)，紧接着根据速度更新颗粒的坐标，如下公式所示。

\overset{&RightArrow;}{v (t + \frac{Δt}{2})} = \overset{&RightArrow;}{v (t)} + \overset{&RightArrow;}{a (t)} \frac{Δt}{2}, \overset{&RightArrow;}{r (t + Δt)} = \overset{&RightArrow;}{r (t)} + \overset{&RightArrow;}{v (t + \frac{Δt}{2})} Δt

以上两步都是在每个计算节点的GPU中并行完成的。GPU中每个线程(thread)对应着每个颗粒，达到了GPU的最高效率。

这样便得到了新的坐标，需要计算在新的坐标和新的速度(角速度)下的加速度(角加速度)。

由于颗粒的坐标已经发生改变，有可能原本应由A进程(或GPU)计算的颗粒此时应由B进程进行计算，这样就需要将A进程的该颗粒所有信息全部发送至B进程。

首先在每个计算节点的GPU中计算每个颗粒所在网格的编号Hash。以每个颗粒所在网格的编号Hash和粒子的局部自然编号index做key-value排序。此步用thrust库(现有成熟的库，已集成到cuda中，参见例如http://code.google.com/p/thrust/)完成。根据排序之后的hash，在GPU中并行计算得到每个网格i的cellStart[i]、cellEnd[i]和cellCount[i]，即执行步骤403。

根据排序的index，对颗粒所有的物理量进行排序。

至此，根据颗粒所在网格编号对颗粒所有的物理量进行重新排序，结合每个网格i的cellStart[i]，cellEnd[i]，cellCount[i]称为“排序的元胞列表”。

然后在步骤404进行动态划分。具体地，各计算节点将自己已有颗粒网格及颗粒数目发送至多个计算节点之中的主控节点，即在各计算节点中，若cellCount[i]！＝0，则将i与cellCount[i]发送至主动节点。由主控节点对每个计算节点发送的cellCount[i]进行累加，得到整个空间的cellCount[i]。主控节点根据整个空间的cellCount[i]重新划分每个GPU计算的颗粒。划分原则为：以网格为单位，每个GPU都计算连续的网格，并且网格中的颗粒总数接近每个GPU的平均颗粒数。这样，每个GPU都得到了由于颗粒坐标变化引起的颗粒计算范围。

根据新的计算范围和当前每个GPU的计算范围，发送和接收相关的颗粒信息。为确定每个GPU需要发送和接收的颗粒总数，创建二维数组：ParticlesSendToEachNode。该数组的每一维大小均为进程数目(或GPU数目)。ParticlesSendToEachNode[i][j]的含义是第i个GPU需要向第j个GPU发送的颗粒总数，也就是第j个GPU从第i个GPU接收的颗粒总数，该数组的对角线元素全部为零。对该数组第i行求和，就是第i个GPU发送的颗粒总数；对第j列求和，就是第j个GPU接收的颗粒总数。可以利用cellStart和cellCount作为输入来计算数组ParticlesSendToEachNode。同时计算出SendStart。SendStart也是二维数组，SendStart[i][j]是第i个GPU向第j个GPU发送的首个颗粒在数组中的位置。这样，就可以将要发送的颗粒信息从GPU中取出传入至发送颗粒缓冲区，以备发送。接着，通过对数组的列求和，可确定每个GPU接收的粒子总数，开辟相应的缓冲区，以备接收。通过MPI标准函数中的例如异步发送接收方式MPI_Irecv函数和MPI_Isend函数等发送接收相应颗粒的物理信息，直至等待所有发送接收完成。

将接收的数组直接通过cudaMemcpyHostToDevice函数(已知函数，用于GPU中存储与主存交换数据)，拷贝至GPU中各数组的尾端，并释放发送和接收缓冲区。

此时，对每个GPU需要计算的新颗粒的信息均已得到，但需要考虑新加入的颗粒和发送的颗粒，重新计算“排序的元胞列表”，可得到排序好的物理量数组。

由于每个GPU计算的颗粒不是独立的，即GPU之间有重叠(Overlap)区域，因此在步骤405，根据每个GPU计算的网格号，可计算出该GPU需要的Overlap区域。采用与动态划分类似的方法，每个GPU得到需要的Overlap区域的颗粒物理信息，存放至每个数组的尾部。这样，加上Overlap区域后的物理信息数组虽然不是完全排序，但同一个网格中的颗粒是连续存放的，同时计算每个网格的cellStart和cellEnd。

在步骤406，根据颗粒信息以及cellStart，cellEnd算出当前所有粒子的碰撞列表。其方法是：对于任意一个颗粒i，通过texturememory(纹理内存)先取出其坐标，计算其所在网格编号，扫描其周围包括自己在内的共27个网格中其余所有颗粒，如果其余颗粒与该颗粒的质心距离小于二者半径之和，则将这个颗粒标记为该颗粒的碰撞列表CollideList[i][CollideListCnt[i]]中，并将碰撞列表数目CollideListCnt[i]+1。

切向相对位移仅存在于两个颗粒发生接触之时。为计算当前时刻任意一个颗粒i的受力，需要上一时刻的切向相对位移。存储该切向相对位移的数组U维度大小和CollideList的维度大小一样。U[i][j]存储的是颗粒i与颗粒CollideList[i][j]的切向相对位移。因此，为保证计算结果的正确性，必须在计算颗粒的当前时刻的受力之前，根据当前时刻的CollideList和上一时刻的CollideListOld及UOld对数组U进行重新排列。这一排列过程在GPU中实现。具体地，利用输入上一时刻的碰撞列表CollideListOld、CollideListCnt，与CollideListOld对应的UOld，当前时刻的碰撞列表CoolideList[CollideListCnt]作为输入，调整UOld的顺序，得到当前时刻的数组U。

这样，就得到了正确的计算力需要的所有数组，在步骤407根据HM接触力学模型，计算出每个颗粒的受力。具体地，可以利用坐标pos，速度vel，角速度w，颗粒的切向相对位移U，碰撞列表CollideList[CollideListCnt]，来根据HM接触力学公式计算每个颗粒的加速度a和角加速度beta。

得到新的加速度a(角加速度b)之后，在步骤408再次根据以上速度更新1/2步速度。

至此，完成了计算模块中完整的一步的运算。

保存当前所有颗粒的物理信息的数组，为下一次数组做准备。这里在步骤409可以采用拷贝或指针交换技术。指针交换技术将当前数组与下一次计算的数组的首址进行交换，可以减少数据拷贝所需的较长时间。

在步骤410，判断是否进行外部存储。如果需要，在步骤411可以将所有颗粒的所有的物理信息至外部存储设备，防止断电后需要重新计算的危险。在步骤412，判断是否要进行统计。如果需要，在步骤413计算出相关统计物理量，例如均值、方差等。在步骤414，判断是否满足计算结束条件。例如是否执行了预定次数的计算。如果计算没有完成，就返回至步骤402，否则计算结束，保存结果，释放存储空间。

与国际著名软件lammps(广泛应用的开源软件，可参见http://lammps.sandia.gov/)基于8核CPU的实施相比，本发明的基于GPU(例如TelsaM2090)的仿真方法的运算速度提高了10倍左右。

本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于GPU的颗粒流动仿真方法，其在并行的多个GPU上执行离散单元算法来进行颗粒流动仿真，该方法包括以下步骤：

a、使用离散单元算法对颗粒建模，并将建立的离散单元算法模型分配为多个粒子，将该多个粒子分配给多个计算节点进行处理，每个计算节点的CPU和GPU分别分配有内存空间，并在CPU中进行初始化数据，将初始化后的数据从CPU内存空间拷贝入所述GPU的内存空间中；

d、利用MPI接口协议把上述进行数据动态划分后的粒子在每个计算节点间迁移；

h、每个计算节点的GPU中的每个流处理器处理每个粒子速度；

i、回到步骤b直至达到指定步数；

j、释放主控节点和计算节点的内存空间。

2.根据权利要求1所述的方法，其中，步骤b、步骤f、步骤g和步骤h利用GPU对每个粒子进行并行数据处理。

3.根据权利要求1所述的方法，其中，步骤d中所述粒子在每个计算节点间迁移包括：利用MPI接口发送和接收函数实现粒子各物理量的发送和接收。

4.根据权利要求1所述的方法，其中，在步骤e中，所述在GPU中计算重叠区域包括：利用GPU的一个流处理器处理一个网格；

在三维情况下，每个网格有26个网格与之相邻，判断相邻网格是否在当前计算节点中，如果不是，则算作重叠区域，从其他节点迁移获得。

5.一种基于GPU的颗粒流动仿真方法，包括：

计算步骤，包括

存储当前计算结果，和

如果计算没有完成，就返回至各GPU并行更新预定速度和坐标的步骤，否则计算步骤结束。

6.根据权利要求5所述的方法，还包括展示步骤，包括：确定边界条件，将几何体边界用透明曲面做出；根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出；以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

7.根据权利要求5所述的方法，还包括：保存作为计算结果的所有的颗粒信息至外部存储装置。

8.根据权利要求5所述的方法，还包括：各GPU并行计算颗粒相关的物理统计量。

9.根据权利要求5所述的方法，其中根据预定的颗粒分布区域和数量生成颗粒包括：在较小的空间内生成若干颗粒，再将这些颗粒平移复制填充至其它空间，直至满足颗粒数量要求。

10.根据权利要求5所述的方法，还包括：排序元胞列表是对所有颗粒按照颗粒所在网格进行排序的列表。

11.根据权利要求5所述的方法，其中采用动态划分方法，由GPU并行计算非零网格编号及网格中粒子数目。

12.根据权利要求5所述的方法，其中在每个GPU中采用一个线程对应一个颗粒的方式来进行计算。

13.根据权利要求5所述的方法，其中计算切向相对位移包括：记录上一时刻的切向相对位移，并根据当前时刻的碰撞列表对其进行更新。

14.根据权利要求5所述的方法，其中使用拷贝或指针交换技术将当前计算结果存储至数组中。

15.一种基于GPU的颗粒流动仿真系统，包括：

计算模块，配置为

存储当前计算结果，和

16.根据权利要求15所述的系统，还包括展示模块，配置为：确定边界条件，将几何体边界用透明曲面做出；根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出；以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

17.一种基于GPU的颗粒流动仿真系统，包括：

后端服务器，配置为展示仿真结果；

其中后端服务器在展示的仿真结果中将几何体边界用透明曲面做出，根据颗粒位置和颗粒直径，将颗粒用同色或不同色的小球画出，以及用灰度图显示标量场，并通过将颗粒信息加权映射到网格上，用流线绘制方法画出向量场。

18.根据权利要求17所述的系统，其中前端服务器通过将几何体分解成有限的曲面，并对这些曲面编号，来生成几何体信息。

19.根据权利要求17所述的系统，其中前端服务器、管理节点、计算节点和后端服务器通过InfiniBand网路通信。