CN104200508B

CN104200508B - 基于Intel众核架构对等模式的光线追踪加速方法

Info

Publication number: CN104200508B
Application number: CN201410408789.4A
Authority: CN
Inventors: 王璐; 王佩; 屠长河
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2014-08-19
Filing date: 2014-08-19
Publication date: 2017-03-01
Anticipated expiration: 2034-08-19
Also published as: CN104200508A

Abstract

本发明公开了一种基于Intel众核架构对等模式的光线追踪加速方法，包括：估计CPU和MIC计算能力的比例关系；对CPU和MIC各自的任务量进行划分，设定CPU端和各个MIC端的渲染流程的任务；采用对等模式对分配到的屏幕分块区域进行渲染；并开启多线程处理屏幕分块区域的渲染；渲染任务结束后MIC将渲染结果传给CPU，由CPU负责合成最终图像。本发明有益效果：本发明具有并行粒度大，鲁棒性高，可重现性高,与具体的光线追踪实现细节方法无关；可以利用的MIC和CPU节点理论上有无限多，并且各个节点没有计算资源的浪费,加速效果明显。

Description

基于Intel众核架构对等模式的光线追踪加速方法

技术领域

本发明专利涉及并行真实感渲染领域，具体涉及一种基于Intel众核架构上使用对等模式加速光线追踪的方法。

背景技术

光线追踪是一种用于三维计算机图形学中的特殊渲染算法，跟踪与真实世界传播方向相反的光线(即从眼睛出发到光源)，将三维计算机图形场景呈现为二维的平面图像。光线追踪能够很好的实现反射、折射、散射、阴影等一系列真实感渲染结果，并且可以模拟全局光照效果、视觉效果好。

光线追踪算法需要发射大量的光线进行计算，除了需要计算光源对场景中物体的影响，还需要计算被场景中物体反射、折射或者散射的光线对物体的影响。无偏全局光照算法通过大量采样可以得到精确解，但是需要消耗大量时间，这使得光线追踪方法在电影特效制作中的广泛应用受到了很大限制。利用光线追踪算法进行真实感渲染的流程主要包括了：划分屏幕空间，按照屏幕空间的分块进行发射光线，并在场景空间中跟踪光线。渲染光线与物体的交点，返回颜色，主光线将颜色返回给屏幕空间形成图像。光线在与物体碰撞中，可根据物体表面属性，发生反射，折射，或散射和吸收等行为；根据物体表面属性，继续追踪光线。

在CPU的急速发展遇到了单个核心性能提升的瓶颈，单颗CPU的计算能力难以获得大幅度提升的情况下，多核成为了最理想的计算速度提升方案。多核架构下的并行方法成为目前光线追踪加速的主要方法。MPI(Message Passing Interface，消息传递接口)是一个并行计算的应用程序接口。MPI提供了一个简易的可移植接口，能够供程序员进行高性能的消息传递操作。

中国专利(申请号：CN201310017768，专利名称：基于GPU集群的实时光线跟踪渲染方法)中提出了一种基于GPU众核架构的实时光线跟踪渲染方法，通过GPU高并行地来进行光线跟踪计算，并在光线跟踪方法中使用极坐标表示方式进行求交运算，在得到真实感渲染效果画面的同时，得到了较好的渲染性能。但是受显存等条件制约，该方法通过简化计算达到实时渲染的目的，难以对复杂场景进行高度真实感渲染。

2012年底，intel公司推出了基于集成众核架构的至强融核协处理器——IntelMany Integrated Core(MIC)Architecture Xeon Phi Coprocessor。以下简称intel集成众核架构为MIC，称Intel基于集成众核架构的至强融核协处理为MIC协处理器。这个产品具有超过50个核以上的基于x86架构的核心。它能够用于解决高度并行计算问题，支持OpenMP、pThread、MPI等多种业内熟悉的并行编程模型。CPU+MIC异构协同计算是基于x86架构的异构计算，MIC的基本指令集与CPU一样。与GPGPU所不同的地方还在于MIC协处理器拥有自己的虚拟IP地址和操作系统。故MIC相对于GPU架构更为灵活，适合于处理光线追踪复杂流程并行计算。MIC应用模式可以简单的分为CPU原生模式、CPU为主MIC为辅模式、CPU与MIC对等模式、MIC为主CPU为辅模式和MIC原生模式(参考：王恩东,张清,沈铂.MIC高性能计算编程指南[M].中国水利水电出版社,2012:11.)。其中，

CPU原生模式指程序仅在CPU端运行的模式。

MIC原生模式是指将可执行程序(包括所有用的库文件)直接在MIC协处理器上运行的模式。这是因为MIC协处理器拥有自己的操作系统，能够以自己的指令集进行资源调度和计算。

CPU和MIC对等模式(简称对等模式)，是指将MIC协处理器看作与CPU无异的计算节点，MIC协处理器和CPU分配相同的任务类型，运行不同的任务对象。对等模式实质上属于分布式计算模式。

Intel MIC架构的协处理器的发布，使得光线追踪的加速又找到了新的方向。Carsten Benthin等人在文章[Combining Single and Packet Ray Tracing forArbitrary Ray Distributions on the Intel MIC Architecture]中提出一种使用MIC协处理器加速光线追踪的方法，该方法利用intel编译器提供的offload模式(卸载模式)，将光线追踪需要高度并行的光线和场景树求交的操作转到MIC上工作，利用MIC的众核优势实现计算的加速。这种使用CPU-MIC的offload模式有以下两个主要缺陷：

1.由于MIC协处理器通过PCI-E和Intel的Xeon处理器相连，它必须要依附于宿主(host)才能工作，也即MIC不能充当主机计算核心的角色。受到主板插槽和电源功率的限制，每台主机能装载的MIC协处理器通常为1～3个，CPU单纯地使用offload模式的MIC对象有限。这对于非特制计算机想满足大规模的渲染工作是一个极大的限制。

2.使用offload模式，CPU的工作是由MIC协处理器接手，通常CPU在MIC协处理器的计算结果返回前只能等待，如果没有完善的一套技术和算法，这种模式将造成了大量的计算资源浪费。

发明内容

本发明针对现有光线追踪方法计算速度慢的问题，提出了一种基于CPU和MIC对等模式的光线追踪加速方法。该方法根据CPU和MIC协处理器的相对计算能力，采用自适应的渲染任务划分方法，将屏幕不同区域位置发出的一级光线分配给CPU和MIC协处理器进行并行处理，加速效果明显。

为了实现上述目的，本发明采用如下技术方案：

一种基于Intel众核架构对等模式的光线追踪加速方法，包括如下步骤：

步骤1：将CPU原生模式和MIC原生模式，分别用最大线程数渲染同一场景，测试屏幕发射所有光线的追踪渲染时间，并依据两者运行时间的比值，得出CPU和MIC协处理器渲染计算能力的比例关系；

步骤2：根据CPU和MIC协处理器渲染计算能力的比例关系，对CPU和MIC协处理器各自的任务量进行划分，设定CPU端和各个MIC端的渲染任务；

步骤3：CPU和MIC根据设定的任务，采用对等模式对分配到的屏幕分块区域进行渲染；并开启多线程处理屏幕分块区域的渲染；

步骤4：渲染任务结束后MIC将渲染结果传给CPU，由CPU负责合成最终图像。

所述步骤1中CPU和MIC计算能力的比例关系满足：

假设CPU和每个MIC协处理器的任务划分关系为C:M，n是MIC协处理器的个数，屏幕分块数目的大小为N，则最大线程数；

其中，屏幕分块的大小符合一定规模，界于8*8到64*64之间；α是每一个MIC协处理器的一个线程所分配到的任务数量，且满足5<α<25。

所述步骤3中采用对等模式对分配到的屏幕分块区域进行渲染包括如下步骤：

步骤(3.1)：在光线追踪渲染流程中加入MPI通讯接口，使CPU在运行时，能够接收来自MIC端的数据消息；

步骤(3.2)：在MIC端的渲染流程中加入MPI通讯接口，使MIC在运行时，能够发送数据消息给CPU；

对光线追踪渲染流程指令进行编译，得到能够在MIC下运行的渲染流程，利用MIC协处理器拥有的虚拟IP地址，将能够在MIC下运行的渲染流程上传到MIC协处理器；如果有多个MIC协处理器，则用上述同样的方法将所述MIC渲染流程部署到每个MIC端；

步骤(3.3)：CPU启动MPI通讯，并发送消息给指定地址的MPI接收进程，接收进程在它所驻的MIC启动渲染进程。

所述步骤3中CPU和MIC开启多线程处理屏幕分块区域的渲染具体为：

CPU和MIC协处理器的每个线程分别选取一个指派给自己的未被渲染的Bucket，作为当前渲染任务，进入渲染流程；

每个线程结束当前渲染任务后继续选取下一个未渲染的Bucket，直到完成指派给自己所在端的所有渲染任务；其中，MIC端的渲染流程完成一个Bucket渲染工作后将渲染结果保存到缓冲区里，再继续下一个Bucket的渲染工作。

所述步骤4包括如下步骤：

步骤(4.1)：将MIC协处理器存储在缓冲区内的渲染结果一次性传回CPU端，MIC端结束自己的渲染任务；

步骤(4.2)：CPU端在等待自己的渲染任务全部结束后，接收MIC协处理器传来的数据，并将接收到的数据视为自己的渲染结果，按照接收数据中附带有的屏幕分块信息，将所有的数据整合在一起，生成最终的图像，结束本次渲染任务。

如果CPU端比MIC端先结束渲染任务，则CPU等待所有的MIC端数据，并成功生成图像后才能结束此次渲染任务。

本发明的有益效果是：

MIC拥有虚拟IP和独立的操作系统，利用MPI可以实现CPU进程和MIC进程之间的通信。由于不同分块任务之间的计算无关，给CPU和MIC分配不同屏幕分块，易实现CPU-MIC对等模式的并行计算。

本发明具有并行粒度大，鲁棒性高，可重现性高,与具体的光线追踪实现细节方法无关；可以利用的MIC和CPU节点理论上有无限多，并且各个节点没有计算资源的浪费,加速效果明显。

附图说明

图1为本发明按照屏幕像素区域划分比例进行划分示意图；

图2为CPU和MIC使用对等模式的光线追踪流程示意图；

图3为3个实例场景使用本发明方法后的加速效果。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明：

由于在光线追踪方法中，光线数目巨大，并且一条从屏幕像素发射的光线计算和另外一条光线无关，故可以进行光线间的并行。本发明根据CPU和MIC协处理器的相对计算能力，采用自适应的渲染任务划分方法，将屏幕不同区域位置发出的一级光线分配给CPU和MIC协处理器进行并行处理。CPU和MIC协处理器采用对等模式，获取光线后执行同样的渲染流程进行光线追踪和渲染。CPU和MIC协处理器获取渲染任务后，均将屏幕区域分成多个Bucket块，各自只需负责所指定的屏幕分块渲染，每个Bucket块渲染由一个线程负责，采用多线程处理模式实现块间渲染并行。

本发明实验所用硬件具体为：

CPU：Intel Xeon E5-2609(2.4GHz/8core)；

MIC：Intel Xeon Phi MIC SC7110P(1.1GHz/61core)。

一种基于Intel众核架构对等模式的光线追踪方法，具体技术方案如下：

一、评估CPU和MIC协处理器的计算能力。由于不同的算法并行力度不同，故难以单纯通过CPU和MIC协处理器的计算能力作为任务划分的依据。本发明针对渲染结果覆盖全屏幕，且场景物体分布均衡的大量特殊实例，依靠专业的性能分析工具(例如intel VTune)，采用CPU原生模式和MIC原生模式分别开启最大线程数测试屏幕发射所有光线的追踪渲染时间，并以依据两者运行时间的比例，估计出CPU和MIC协处理器渲染计算能力的比例关系，从而用来确定CPU和MIC各自任务量的划分关系。

例如，采用本发明实验所用硬件环境评估出的CPU和MIC的任务划分比例为17:13，图1显示了一个按照该屏幕像素区域划分比例进行划分的例子。

二、依据CPU和MIC协处理器计算能力评估结果，针对具体渲染实例进行任务划分后采用CPU和MIC采用对等模式对不同的屏幕区域进行渲染，渲染任务结束后MIC将渲染结果传给CPU，由CPU负责合成最终图像。图2展示了一个典型的光线追踪实例任务划分和最终渲染过程。具体渲染步骤如下：

步骤一：自适应屏幕任务划分。光线追踪算法从屏幕空间发射光线，并在场景空间中跟踪光线，故可以通过按照屏幕空间分块(这里的块通常被叫作Bucket)的方式，以屏幕空间上的块为任务单位分给不同的线程进行渲染从而实现并行的目的。由于不同的硬件架构，CPU和MIC可处理的最大线程数不同，本发明结合屏幕分辨率、最大CPU和MIC硬件线程数、以及CPU&MIC的任务划分比例，采用自适应的Bucket划分方法，保证CPU和MIC线程满载状态，同时减少线程任务的频繁调度，保证每个线程的任务量。由于MIC的硬件线程数远大于CPU的硬件线程数，故主要考虑MIC的满载需求即可。

例如CPU和MIC的任务划分关系为C:M，Bucket数目的大小为N，MIC协处理器的个数为n则需满足如下条件：

最大线程数

其中，Bucket的大小符合一定规模，α是每一个MIC协处理器的一线程所分配到的任务数量，需满足5<α<25。例如1440*900分辨率的屏幕渲染任务，最佳测试数据为每个Bucket大小设置为16*16像素，共5130个Bucket，按照C:M＝17:13的任务划分比，分给MIC处理的Bucket数目为2223，MIC硬件最大线程数按照240计算，则α＝9.3，满足上述条件。

步骤二：CPU和MIC采用对等模式进行渲染。根据上述的按照屏幕空间的任务划分、MPI在进程之间的通信，渲染任务能够按Bucket进行分配，CPU和MIC协处理器按照预估的计算能力获取相对应的任务量。CPU和MIC指定了各自需要渲染的Bucket后，每个Bucket作为一个渲染任务单元。CPU和MIC将开启多线程处理Bucket的渲染，从Bucket所在的屏幕空间发射光线，在场景空间中跟踪这些光线，每个线程渲染Bucket的流程均相同。

CPU和MIC协处理器的每个线程选取一个指派给自己的未被渲染的Bucket，作为当前渲染任务，进入渲染流程。每个线程结束当前渲染任务后继续选取下一个未渲染的Bucket，直到完成指派给自己所在端的渲染任务。其中，MIC端的渲染流程完成一个Bucket渲染工作后将渲染结果保存到缓冲区里，再继续下一个Bucket的渲染工作。

具体工作过程如下：

(1)CPU启动MPI通讯接口，发送消息给指定地址的MPI接收进程，该进程在它所驻的MIC协处理器启动渲染进程。

1.1)MPI的配置。通过在渲染流程中加入MPI通讯接口，使之能够在CPU运行时，收到来自MIC端的数据消息。

1.2)渲染流程的部署。向MIC端的渲染流程加入MPI通讯函数，使之能够在MIC运行时，发送数据消息给CPU。将光线追踪算法流程指令使用Intel编译器加入-mmic指令进行编译，得到能够在MIC下运行的渲染流程指令(即MIC版的渲染流程)，利用MIC协处理器拥有的虚拟IP地址，将MIC版的渲染流程上传到MIC协处理器；如果有多个MIC协处理器，则可以用上述同样的方法将MIC版的渲染流程部署到每个MIC端。

1.3)渲染任务的指定。设定CPU端和各个MIC端的渲染流程的任务。CPU和MIC的任务划分，要按照CPU和MIC协处理器在所用的渲染流程及其计算能力为依据。

1.4)渲染任务的启动。使用MPI的通讯接口启动CPU端和各个MIC端渲染进程。

(2)CPU和MIC协处理器根据设定的任务量，各自只渲染所分配到的屏幕分块(Bucket)；

步骤三：将MIC存储在缓冲区内的渲染结果(像素值)一次性传回在CPU端的渲染流程(因为频繁的调用MPI传输函数将导致大量的开销，将结果存于缓冲区能够有效减少传输数据带来的时间损耗)，形成最终的图像。

各个MIC端渲染流程的渲染结果利用MPI提供的方法，将数据(像素颜色值)传回CPU端的渲染流程，MIC端的渲染流程结束自己的渲染任务。CPU端渲染流程在等待自己的渲染任务全部结束后，接收MIC传来的数据。CPU端的渲染流程将接收到的数据视为自己的渲染结果，按照接收数据中附带有的屏幕分块信息，将所有的数据整合在一起，生成最终的图像，结束本次渲染任务。

如果CPU端比MIC端先结束渲染任务，则CPU必须等待所有的MIC端数据，并成功生成图像后才能结束此次渲染任务。

图3所示的实验结果表明，采用本发明CPU和MIC对等模式和采用CPU原生模式相比，可加速1.7-1.8倍左右。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于intel众核架构对等模式的光线追踪加速方法，其特征是，包括如下步骤：

步骤1：将CPU原生模式和Intel集成众核MIC原生模式，分别用最大线程数渲染同一场景，测试屏幕发射所有光线的追踪渲染时间，并依据两者运行时间的比值，得出CPU和MIC协处理器渲染计算能力的比例关系，从而确定CPU和MIC协处理器各自任务量的划分关系；

步骤2：根据CPU和MIC协处理器各自任务量的划分关系，对CPU和MIC协处理器各自的任务量进行划分，设定CPU端和各个MIC端的渲染任务；

其中，屏幕分块的大小符合一定规模，界于8*8到64*64之间；α是每一个MIC协处理器的一个线程所分配到的任务数量，且满足5<α<25；

2.如权利要求1所述的一种基于intel众核架构对等模式的光线追踪加速方法，其特征是，所述步骤3中采用对等模式对分配到的屏幕分块区域进行渲染包括如下步骤：

对光线追踪渲染流程指令进行编译，得到能够在MIC下运行的渲染流程，利用MIC协处理器拥有的虚拟IP地址，将所述能够在MIC下运行的渲染流程上传到MIC协处理器；如果有多个MIC协处理器，则用上述同样的方法将所述MIC渲染流程部署到每个MIC端；

步骤(3.3)：CPU启动MPI通讯，并发送消息给指定地址的MPI接收进程，所述接收进程在它所驻的MIC启动渲染进程。

3.如权利要求1所述的一种基于intel众核架构对等模式的光线追踪加速方法，其特征是，所述步骤3中CPU和MIC开启多线程处理屏幕分块区域的渲染具体为：

4.如权利要求1所述的一种基于intel众核架构对等模式的光线追踪加速方法，其特征是，所述步骤4包括如下步骤：

5.如权利要求4所述的一种基于intel众核架构对等模式的光线追踪加速方法，其特征是，如果CPU端比MIC端先结束渲染任务，则CPU等待所有的MIC端数据，并成功生成图像后才能结束此次渲染任务。