CN101639788B

CN101639788B - 一种基于tbb线程构建块的连续系统仿真多核并行方法

Info

Publication number: CN101639788B
Application number: CN2009100924070A
Authority: CN
Inventors: 李妮; 唐力勇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2009-09-10
Filing date: 2009-09-10
Publication date: 2012-07-25
Anticipated expiration: 2029-09-10
Also published as: CN101639788A

Abstract

本发明公开了一种基于TBB的连续系统仿真多核并行方法，主要包括以下步骤：步骤一，搭建TBB并行计算平台；步骤二，构造并行ParaODES模版类；步骤三，模型初始化；步骤四，TBB任务调度初始化；步骤五，仿真时间范围判断；步骤六，调用并行模版类ParaODES；步骤七，仿真结果传递；步骤八，结束TBB任务调度。本发明利用TBB实现连续系统仿真的并行化处理，提高了仿真运算的速度，从而满足仿真的实时性要求，缩短了仿真研究周期；利用TBB进行并行化处理，过程简单灵活，易于操作，具有很好的扩展性；TBB采用多核架构，符合当今并行技术向多核平台发展的方向。

Description

一种基于TBB线程构建块的连续系统仿真多核并行方法

技术领域

本发明涉及一种基于TBB线程构建块(Thread Building Blocking)的连续系统仿真多核并行方法，属于计算机仿真与算法优化领域。

背景技术

连续系统仿真广泛应用于航空、航天、气象和电子等领域。随着这些学科技术的发展，由此建立的仿真模型也日益复杂，仿真计算量不断加大。

连续系统仿真通常使用微分方程组来建立数学模型，微分方程组有成熟的数值解法，如龙格-库塔法，亚当姆斯法等。但传统的串行方法在解决大规模问题时计算时间过长，难以满足仿真的实时性要求，有的复杂问题使用串行算法甚至无法求解。

提高连续系统仿真速度的一种有效方法是采用并行技术，人们在连续系统微分方程组的并行化上做了大量工作，在串行算法的基础上提出了各种各样的并行算法。在早期的研究工作中，Nievergelt提出设置多个初始值进行并行计算，然后对计算结果进行修正的并行算法，Shampine和Watts提出了隐式板块方法和预估-校正执行方式，Miranker和Liniger也做了预估-校正法的并行研究工作，此外还给出了龙格-库塔法二阶、三阶的计算格式，并推导出了MIMD型龙格-库塔法计算公式，具体做法是采用逼近法来计算导数值以打断差值之间的相关链，并适当选择参数构造出稳定的并行计算格式。但是传统的并行算法实现方式繁杂，线程管理、数据交换等过程需要程序员管理，这使得并行程序的编写需要耗费大量的时间和精力，这就阻碍了并行技术在仿真计算中的应用。

随着计算机技术向着多处理器及多核架构发展，单机上的并行数据处理成为可能。TBB是最新推出的多核处理器并行计算平台，基于任务的算法、容器和同步基元可简化并行应用程序的开发工作，它提供完善的提取模板、容器和类别支持并行处理器，可以和MPI、OpenMP等结合使用，是一种简单高效的并行方法。但是，TBB和连续系统仿真结合的相关研究工作还处于初始阶段。

发明内容

本发明的目的是为了解决上述问题，提出一种基于TBB线程构建块的连续系统仿真多核并行方法，提高连续系统仿真计算的速度，以缩短仿真研究的周期，满足仿真的实时性要求。

连续系统仿真一般采用微分方程组建立模型，仿真计算的时间主要花费在微分方程组的求解上。本发明采用基于TBB的预估-校正并行算法，在该算法中，预估计算和校正计算是每一步积分计算中的主要内容，他们占据了仿真计算时间中的绝大部分。通过使用TBB并行技术，将预估计算和校正计算作为两个并行的子任务，为它们各分配一个线程，两个子任务在各自的线程上并行执行。

TBB采用基于任务概念的封装，这使得并行方法的实现更为简易。通过相关的模版类，将并行计算的部分分配到各个单独的线程，预估计算和校正计算两个子任务分别在两个单独的线程中执行，这样可以充分利用多个处理器内核的资源，达到加快计算速度的目的。

一种基于TBB线程构建块的连续系统仿真多核并行方法，主要包括以下步骤：

步骤一：搭建TBB并行计算平台；

步骤二：构造并行ParaODES模版类；

步骤三：模型初始化；

步骤四：TBB任务调度初始化；

步骤五：仿真时间范围判断；

步骤六：调用并行模版类ParaODES；

步骤七：仿真结果传递；

步骤八：结束TBB任务调度。

本发明的优点在于：

(1)本发明利用TBB实现连续系统仿真的并行化处理，提高了仿真运算的速度，从而满足仿真的实时性要求，缩短了仿真研究周期；

(2)本发明利用TBB进行并行化处理，过程简单灵活，易于操作，具有很好的扩展性；

(3)TBB采用多核架构，符合当今并行技术向多核平台发展的方向。

附图说明

图1是本发明的方法流程图；

图2是本发明在两个处理内核P₁、P₂上并行执行示意图；

图3是传统的串行方法和本发明所述的基于TBB的并行方法的运行时间曲线比较图。

具体实施方式

下面将结合附图和实例对本发明作进一步的详细说明。

本发明的一种基于TBB线程构建块的连续系统仿真多核并行方法，流程如图1所示，包括以下步骤：

步骤一：搭建TBB并行计算平台；

在计算机中置入TBB文件包，在VC目录中添加TBB的包含文件、库文件及可执行文件，最后添加TBB20_INSTALL_DIR的值为C:\Program files\Intel\TBB\2.0到系统环境变量。

步骤二：构造并行ParaODES模版类；

预估计算和校正计算是可以并行处理的子任务，根据并行化处理对象的特点选择使用parallel_for模版类。parallel_for模版类是TBB中最常用的一个并行模版类，它把一个循环划分为多个块，然后在不同的线程中并行处理，它要求循环中不存在循环依赖。根据parallel_for模版编写需要的并行类，并将其命名为ParaODES模版类，该名称是由用户自己定义的，名称的异同对结果没有影响。ParaODES模版类的调用最终完成预估计算和校正计算。

具体步骤为：

1、编写预估计算和校正计算的程序。

模版类ParaODES中的预估计算和校正计算按以下公式进行：

预估计算：

y_{i + 1}^{p} = y_{i - 1}^{c} + \frac{h}{3} (8 f_{i}^{p} - 5 f_{i - 1}^{c} + 4 f_{i - 2}^{c} - f_{i - 3}^{c}) - - - (1)

f_{i + 1}^{p} = f (t_{i + 1}, y_{i + 1}^{p}) - - - (2)

校正计算：

y_{i}^{c} = y_{i - 1}^{c} + \frac{h}{24} (9 f_{i}^{p} + 19 f_{i - 1}^{c} - 5 f_{i - 2}^{c} + f_{i - 3}^{c}) - - - (3)

f_{i}^{c} = f (t_{i}, y_{i}^{c}) - - - (4)

其中：

f_{i}^{p} = f (t_{i}, y_{i}^{p}) - - - (5)

f_{i - 1}^{c} = f (t_{i - 1}, y_{i - 1}^{c}) - - - (6)

式中：y_i+1 ^p表示状态变量下一步的估计值，y_i ^c表示状态变量当前步的校正值，y_i-1 ^c表示状态变量上一步的校正值，f_i ^p表示状态变量导数当前步的估计值，f_i+1 ^p表示状态变量导数下一步的估计值，f_i ^c、f_i-1 ^c、f_i-2 ^c、f_i-3 ^c分别表示状态变量导数当前步、前一步、前两步和前三步的校正值，t_i表示当前时刻，t_i-1表示上一时刻。

如图2所示，将式(1)、(2)和式(3)、(4)分别在两个处理内核P₁、P₂上并行执行，在P₁中计算y_i+1 ^p，然后根据y_i+1 ^p的值计算f_i+1 ^p；在P₂中计算y_i ^c，然后根据y_i ^c的值计算f_i ^c。P₁、P₂在结束了一步计算之后进行通讯，而没有在计算过程中进行通讯，从而提高了计算速度。

根据上述的ParaODES模版类中的预估计算和校正计算，编写预估计算和校正计算程序，程序中预估计算和校正计算的部分必须是循环体结构，预估计算和校正计算本来不是循环结构，但可以改写为循环结构。例如：在预估计算和校正计算程序前各自增加一个i＝1或i＝2的执行条件语句，通过判断循环变量i的值分别执行即可。预估计算和校正计算为循环体结构，是为了方便使用parallel_for模版类。循环体结构中的代码要尽量使用局部变量或模版类ParaODES的成员变量，而不能使用全局变量，否则不仅不能加快运行速度，反而会增加程序运行时间。

2、在模版类ParaODES的operator接口中将循环参数修改为blocked_range模板类。

在模版类ParaODES中，operator接口是并行处理的主要部分，它对并行循环进行优化，将最外层循环参数修改成TBB中定义的blocked_range模板类，使之能够支持循环体内任务的并行划分，在调用并行计算的模板类ParaODES时，由模板类参数指定循环处理的数值范围以及任务粒度参数，循环体内实现预估计算和校正计算过程。

并行计算模版类ParaODES构造完成。

步骤三：模型初始化；

在仿真开始时，首先对仿真模型进行初始化，即设置连续系统微分方程组右函数、问题规模n，n为方程组中方程的数目、仿真总时间Tmax、积分步长h；导数、状态量、中间量的变量声明以及各变量赋初值。

步骤四：TBB任务调度初始化；

TBB由任务调度器对象task_scheduler_init实现多任务的分配和并行计算，支持对多线程的划分。由于TBB任务调度的初始化会带来相对较大的额外开销，因此，只需进行一次初始化。在任务调度初始化以后，才可能进行连续系统仿真多核并行计算。

步骤五：仿真时间范围判断；

判断当前时间t是否超出仿真时间范围Tmax，若t＜Tmax，则执行步骤六，否则执行步骤八。

步骤六：调用并行模版类ParaODES；

调用步骤二中的ParaODES模版类完成预估-校正的并行计算，通过ParaODES模版类创建一个线程计算y_i+1 ^p的估计值，并根据y_i+1 ^p计算导数的估计值f_i+1 ^p；通过ParaODES模版类创建另一个线程并行计算y_i ^c的精确值，并根据y_i ^c计算导数的精确值f_i ^c；最终得到仿真结果y_i ^c。

在上述过程中，需要用到的导数值：当前步导数估计值f_i ^p、前一步导数校正值f_i-1 ^c、前两步导数校正值f_i-2 ^c和前三步导数校正值f_i-3 ^c，并得到新的导数估计值f_i+1 ^p和导数校正值f_i ^c，计算f_i+1 ^p和f_i ^c是为了能进行下一步仿真而进行的。

在连续系统仿真中，一般需要进行多步积分计算，通过循环调用ParaODES模版类来实现。

步骤七：仿真结果传递；

将步骤六中的当前步导数估计值f_i ^p、前一步导数校正值f_i-1 ^c、前两步导数校正值f_i-2 ^c、前三步导数校正值f_i-3 ^c和状态变量当前步的校正值y_i ^c这五个参数的值传递给当前变量的后一步，即将f_i-2 ^c的值传递给f_i-3 ^c，将f_i-1 ^c的值传递给f_i-2 ^c，将f_i ^c的值传递给f_i-1 ^c，将f_i+1 ^p的值传递给f_i ^p，将y_i ^c的值传递给y_i-1 ^c，时间t增加一个单位长度。返回步骤五。

步骤八：结束TBB任务调度。

完成并行计算任务，结束TBB任务调度。和TBB任务调度初始化一样，TBB任务调度的结束也会带来较大的额外开销，所以本方法只进行一次TBB的初始化和结束，否则额外的时间开销会降低并行程序的运行速度。

实施例：并行处理的对象是如下所示的连续系统一阶微分方程组：

\frac{dy}{dt} = f (t, y_{1}, y_{2}, . . . y_{n})

y_i(t₀)＝y_i0，i＝1，2，...n。

式中：y₁，y₂，...y_n为状态变量，y_i0为状态变量初始值，y_i(t₀)为t₀时刻的状态变量值，t₀为初始时间，t为时间，n代表方程组规模，即方程组所含方程数目。积分步长h设为0.01，仿真时间范围从0.04到20。

分别采用传统的串行方法和本发明的TBB并行方法，在Intel酷睿2双核1.83GHz处理器上，进行连续系统仿真，结果如表1所示：

表1连续系统仿真结果

方程组规模	串行方法费时/(ms)	并行方法费时/(ms)	并行方法加速比
				200	4458	4300	1.04
400	5354	4387	1.22
				600	6846	4812	1.42
800	8882	5139	1.73

从表1可以看出分别采用传统的串行方法和本发明的TBB并行方法，在方程组规模分别为200、400、600、800的时候，并行方法加速比分别为1.04、1.22、1.42、1.73，并行方法加速比随着方程组规模的增大而增大。本发明的TBB并行方法微分方程的解算速度比传统的串行方法速度快。

运行时间如图3所示，横坐标为方程数目，纵坐标为解算时间，从图中可以看出在方程组数目相同的情况下，本发明的TBB并行方法的解算时间要少，当方程数目扩大到800后，本发明的TBB并行方法的解算时间缩短到原来的57.58％，大大加快了方程的求解速度。

通过对CPU利用情况的比较，可以得出：并行化处理后，CPU的使用率得到了提高。串行算法的CPU最大使用率为70％，没有充分利用两个处理核心的资源，而使用TBB并行化处理后，以方程组规模为400时为例，CPU的最大使用率达到了100％，这就充分利用了多核CPU的计算能力，从而提高了连续系统仿真的速度。