CN112712581B

CN112712581B - 一种光线追踪加速方法

Info

Publication number: CN112712581B
Application number: CN202110038868.0A
Authority: CN
Inventors: 王璐; 徐晓峰; 徐延宁; 孟祥旭; 林皎
Original assignee: Wuxi Hengding Super Computing Center Co ltd; Shandong University
Current assignee: Wuxi Hengding Super Computing Center Co ltd; Shandong University
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-08-12
Anticipated expiration: 2041-01-12
Also published as: CN112712581A

Abstract

本发明提供了一种光线追踪加速方法，利用处理器的主核获取场景的几何数据；根据获得的几何数据，利用处理器的主核和从核并行构建场景的k‑d树加速结构；根据构建的场景k‑d树加速结构，采用光线追踪算法，进行光线遍历过程，找到每条光线与场景模型表面的交点。本发明可以充分利用众核处理器的主核和从核各自特点来加速构建高质量的k‑d树，保证光路遍历阶段的高效性，减少光路追踪算法的总时间。

Description

一种光线追踪加速方法

技术领域

本发明属于光线追踪方法中数据加速技术领域，具体涉及一种光线追踪加速方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

光线追踪作为真实感绘制领域一种生成照片级别图像的重要全局光照算法，一直是计算机图形学的研究热点。在光线追踪算法中，为了计算一条光线与场景中模型表面的交点，每条光线需要遍历场景中的所有图元。为了提高光线与复杂场景数据的求交效率，需要采用高效的加速数据结构来对场景中的图元进行组织，k-d树和层次包围盒(BVH)是被广泛应用的加速结构。

发明人发现，一个BVH节点(32bytes)是k-d树节点(8bytes)大小的四倍，固定大小的高速缓存块可存储的k-d树节点数量是BVH节点的四倍。由于某些处理器片上缓冲区大小和内存带宽的限制，所以选择k-d树作为要使用的加速结构。

实际应用证明，可以使用基于表面积启发式(SAH)的贪婪成本优化算法来获得高质量的k-d树。尽管高质量的k-d树可以实现非常快的光线追踪效果，但k-d树的构建时间就会非常长。传统的CPU上的串行方法不能很好地利用异构众核处理器的并行计算能力。

发明内容

本发明为了解决上述问题，提出了一种光线追踪加速方法，本发明可以充分利用众核处理器的主核和从核各自特点来加速构建高质量的k-d树，保证光路遍历阶段的高效性，减少光路追踪算法的总时间。

根据一些实施例，本发明采用如下技术方案：

一种光线追踪加速方法，包括以下步骤：

利用处理器的主核获取场景的几何数据；

根据获得的几何数据，利用处理器的主核和从核并行构建场景的k-d树加速结构；

根据构建的场景k-d树加速结构，采用光线追踪算法，进行光线遍历过程，找到每条光线与场景模型表面的交点。

作为可选择的实施方式，所述几何数据包含三角面片的数据。

作为可选择的实施方式，利用处理器的主核和从核并行构建场景的k-d树加速结构的具体过程包括：根据获取到的场景所有三角面片数据，进行节点的划分，判断当前节点包含的三角面片数量是否超过设定阈值，根据判断结果利用处理器的主核或主核和从核进行k-d树加速结构的构建。

作为进一步限定的实施方式，进行节点的划分的具体过程包括：

构建三个预排序的事件列表，以表示三角面片的轴对齐包围盒开始和结束的边缘位置，以事件列表和代表节点覆盖空间的轴对齐包围盒作为输入，采用自上而下的迭代方法进行节点的划分。

作为进一步限定的实施方式，在k-d树节点划分的过程中，判断当前节点的事件列表数量是否大于等于预设的阈值，若是，仅利用处理器的主核采用SAH k-d树构建算法，进行节点的划分，否则，同时利用处理器的主核和从核计算精确的SAH成本，对当前节点进行划分，完成k-d树加速结构的构建。

作为可选择的实施方式，进行k-d树加速结构的构建的具体过程包括：

寻找最佳分割平面，以确定SAH成本最低的分割平面的轴、位置和相应的事件索引；

将三角面片进行分类，根据三角面片相对于分割平面的位置，对三角面片是否落入当前节点的左子节点和/或右子节点进行分类；

对事件列表进行过滤，该阶段根据三角面片位于左子节点和/或右子节点的情况，将原始输入的事件列表分为两部分，并维护针对空间中每个轴的顺序排序列表。

作为进一步限定的实施方式，寻找最佳分割平面的过程同时利用主核和从核精确计算各处的SAH成本，最终确定SAH成本最低的地方作为分割平面。

作为进一步限定的实施方式，对三角面片进行分类、对事件列表进行过滤的过程在处理器的主核上进行。

所述处理器为申威26010众核处理器。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种光线追踪加速方法的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种光线追踪加速方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明针对k-d树的构建过程实现了几何级别的并行，传统的k-d树并行构建方法是利用传统CPU多线程的特点并行的构建不同的k-d树子树，而申威26010众核处理器的主核是单线程的。通过挖掘k-d树构建过程中的并行性，利用申威26010众核处理器的从核来并行处理给定节点内大量“事件”列表上的工作，提高了计算最低SAH成本的效率，减少了寻找最佳分割平面的时间。

本发明能够充分利用申威26010众核处理器的计算能力，根据处理器主核和从核设置的不同，分别对k-d树构建的不同过程进行处理，减少了k-d树的构建时间，并且能够保证构建的k-d树的质量，确保光线追踪算法光线遍历阶段的效率，减少了光路追踪算法的总时间。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是加速结构构建的总体流程图；

图2是根据场景的三角面片数据生成的三个“事件”预排序列表；

图3是基于申威26010众核处理器的k-d树构建流程示意图；

图4是传统的k-d树构建模式；

图5是基于SAH贪婪成本优化算法构建k-d树的过程示意图；

图6是基于申威26010众核处理器并行计算SAH的过程。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例使用的处理器为申威26010众核处理器，该处理器采用片上阵列集群和分布式共享存储相结合的异构众核体系结构。每个处理器集成了4个运算核组共260个运算核心。每个核组包含1个运算控制核心(主核)和1个运算核心阵列(从核阵列)，运算核心阵列由64个运算核心(从核)、阵列控制器、二级指令Cache构成。每个主核有8G DDR3内存、32KB L1指令缓存、32KBL1数据缓存和256KB用于指令和数据的L2缓存，每个从核只有64KB的快速本地设备内存(LDM)和16KB指令缓存。从核可以通过直接内存访问(DMA)的方式有效访问主核内存的连续区域，同时从核也可以通过gld/gst指令访问主核内存，但该方式具有较高的延迟。

对于渲染来说，是将三维场景转化为二维图像的过程。光线追踪算法是渲染领域一种广泛使用的全局光照算法。在采用光线追踪算法之前，需要将三维场景中的几何数据组织成便于光线遍历的加速数据结构，从而提高光线与场景中三角面片的求交效率。

在本实施例中，提出了一种基于申威26010众核处理器的k-d树加速结构并行构建方法，应用到光线追踪算法中加速结构构建的总体流程示意图如图1所示，具体包括以下步骤：

1)场景数据的获取

三维场景的数据包含模型的几何数据和材质数据，以及场景中光源的位置、摄像机的位置等场景渲染信息。模型的几何数据包括所有的顶点坐标、法向坐标、纹理坐标以及面片的组成顺序等三角面片的数据；材质数据包括材质的漫反射系数、镜面反射系数、环境光的漫反射系数以及贴图数据等。

顶点坐标、法向坐标、纹理坐标以及面片的组成顺序等几何数据，是在判断光线与场景的交点位置以及生成次级光线的方向时必不可少的数据。其中三角面片的数据可以通过几何数据中的顶点坐标以及面片的组成顺序计算得到，这是构造加速结构的基础数据。

通过申威26010众核处理器的主核读入模型的几何数据并生成三角面片数据，这部分数据保存在主核的内存中。

2)场景加速结构的构建

根据步骤1)获得的场景三角面片的几何数据，利用申威26010众核处理器的主核和从核并行构建场景的k-d树加速结构。

步骤2)具体为：在利用申威26010众核处理器构建k-d树加速结构的过程中，首先根据步骤1)获取到的场景所有三角面片数据为它们构建三个(对应于三维空间中的x、y、z轴)预排序的“事件”(它们表示三角面片的轴对齐包围盒开始和结束的边缘位置，每个三角面片一对)列表，如图2所示。

然后以“事件”列表和代表当前节点覆盖空间的轴对齐包围盒(AABB)作为输入，采用自上而下的迭代方法进行节点的划分。如图3所示，在k-d树节点划分的过程中，判断当前节点的“事件”列表数量是否大于等于预设的阈值Tvalue，阈值Tvalue取值为1048576，该值受限于申威26010众核处理器的主核内存大小，以及依据此阈值生成k-d树的质量好坏。若是，代表当前节点包含的三角面片数量较多，需要的内存较大，仅利用申威26010众核处理器的主核采用近似的SAH k-d树构建算法(Min-max binning算法)进行节点的划分；若否，则同时利用申威26010众核处理器的主核和从核计算精确的SAH成本，对当前节点进行划分。当前节点所处理的三角面片数量较少，达到设定的三角面片数目或者最大的建树深度时，完成k-d树加速结构的构建。设定的最少三角面片数目为6，最大的建树深度为8+1.3×log₂ N，其中N为场景模型总的三角面片的数目。

根据上述划分过程，如图4所示，k-d树分为上层大节点部分和下层小节点部分。传统的并行k-d构建模式，树的上层部分的节点需要处理的三角面片数目多，需要的内存大，因此多个处理器核心必须在节点创建上进行协作。树的下层部分需要处理的三角面片数量少，每棵子树可以被每个处理器核心单独的进行处理。K-d树的上层节点构建过程主导k-d树的构建时间，每个节点要处理的“事件”数量都比底层的要多，在这种级别上缺乏并行性成为k-d树构建严重的瓶颈。

为了缓解上述问题，我们利用申威26010众核处理器的特点，并行处理给定节点内大量“事件”上的工作，同时利用申威26010众核处理器的主核和从核进行k-d树加速结构的并行构建，如图5所示，包括以下步骤：

A：第一个阶段是寻找最佳分割平面(FindBestPlane)，该阶段确定SAH成本最低的分割平面的轴、位置和相应的“事件”索引。寻找最佳分割平面的过程同时利用申威26010众核处理器的主核和从核精确计算各处的SAH成本，最终确定SAH成本最低的地方作为分割平面。

利用k-d树进行光线遍历的成本C_RT可以表示为构建成本C_Build和遍历成本C_Trav之和。

C_RT＝C_Build+C_Trav (1)

往往构建成本C_Build越低的k-d树，其遍历成本C_Trav越高，k-d树构建的基本思想是，在尽量不增加遍历成本的同时，尽量减少构建成本。为了衡量C_Trav，对于包围盒面积为SA(V)的待划分节点，假设分割平面P左右的三角面片数量分别为N_L和N_R，对应包围盒面积分别为SA(V_L)和SA(V_R)，则此分割面P对应的遍历成本C_P为：

其中，C_T是光线在节点内部的遍历成本，固定为15，C_I是光线与三角面片的求交成本，固定为20，

和

为光线与左右子节点的相交概率，是基于左右子节点空间的包围盒面积求得的。

图6上方的框内表示顺序的单线程k-d树构建算法计算SAH成本的方式，给定“事件”数组(第一行，S＝START、E＝END)，从左到右顺序的轴扫描维持N_L,N_R的运行计数，对于每个START事件立即增加N_L，对于每个END事件减少下一个N_R。SAH评估所需的其余值为常数和O(1)的表面积计算。因此在处理每个“事件”时，当前的N_L,N_R计数会生成当前的SAH，将其与先前最小的SAH进行比较，以确定扫描结束时的最小SAH分割平面。

图6下方的框内描述了基于申威26010众核处理器并行计算SAH成本的过程，通过使用并行前缀样式操作将寻找最佳分割面的过程并行化，它具有三个子阶段：PreScan、Push、SAHScan。首先将“事件”列表根据从核的数目分成64个连续的块，每个从核分配一个块，从核通过athread_get方式从主核上获取相应块的“事件”数据。对于PreScan阶段，63个从核中的每一个都计算其相应块中START和END的数量(不需要预扫描最后一个块)。接下来，每个从核通过athread_put方式将各自的N_L,N_R计数结果返回给主核，主核执行Push阶段，将先前块的总N_L,N_R计数结果加到当前块的总数中，从而在每个块的开头产生正确的N_L,N_R值。对于最后一个SAHScan阶段，64个从核中的每一个都处理其对应的块，将其起始N_L,N_R值传播通过该块，并计算其块的最小SAH值。最终64个SAH值返回给主核，主核进行归约生成最小的SAH结果。

通过利用申威26010处理器的从核实现几何级别的并行，加速了寻找最佳分割平面的过程，从而加速了k-d树的构建过程。

B：第二个阶段是将三角面片进行分类(ClassfyTriangles)，该阶段根据三角面片相对于分割平面的位置，对三角面片是否落入当前节点的左子节点和/或右子节点进行分类。将三角面片进行分类的过程在申威26010众核处理器的主核上进行。

C：第三个阶段是对“事件”列表进行过滤(FilterGeom)，该阶段根据三角面片位于左子节点和/或右子节点的情况，将原始输入的“事件”列表分为两部分，并维护针对每个轴(三维空间中的x、y、z三个轴)的“事件”顺序排序列表。对“事件”列表进行过滤的过程在申威26010众核处理器的主核上进行。

3)场景加速结构的使用

根据步骤2)构建的场景k-d树加速结构，采用光线追踪算法，进行后续的光线遍历过程，高效的找到每条光线与场景模型表面的交点。

综上，本公开针对k-d树的构建过程实现了几何级别的并行，能够充分利用申威26010众核处理器的计算能力，根据处理器主核和从核设置的不同，分别对k-d树构建的不同过程进行处理，减少了k-d树的构建时间，并且能够保证构建的k-d树的质量，确保光线追踪算法光线遍历阶段的效率，减少了光路追踪算法的总时间。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种光线追踪加速方法，其特征是：包括以下步骤：

利用处理器的主核获取场景的几何数据；

根据构建的场景k-d树加速结构，采用光线追踪算法，进行光线遍历过程，找到每条光线与场景模型表面的交点；

所述几何数据包含三角面片的数据；

利用处理器的主核和从核并行构建场景的k-d树加速结构的具体过程包括：根据获取到的场景所有三角面片数据，进行节点的划分，判断当前节点包含的三角面片数量是否超过设定阈值，根据判断结果利用处理器的主核或主核和从核进行k-d树加速结构的构建；

进行节点的划分的具体过程包括：

构建三个预排序的事件列表，以表示三角面片的轴对齐包围盒开始和结束的边缘位置，以事件列表和代表节点覆盖空间的轴对齐包围盒作为输入，采用自上而下的迭代方法进行节点的划分；

进行k-d树加速结构的构建的具体过程包括：

2.如权利要求1所述的一种光线追踪加速方法，其特征是：在k-d树节点划分的过程中，判断当前节点的事件列表数量是否大于等于预设的阈值，若是，仅利用处理器的主核采用SAH k-d树构建算法，进行节点的划分，否则，同时利用处理器的主核和从核计算精确的SAH成本，对当前节点进行划分，完成k-d树加速结构的构建。

3.如权利要求1所述的一种光线追踪加速方法，其特征是：寻找最佳分割平面的过程同时利用主核和从核精确计算各处的SAH成本，最终确定SAH成本最低的地方作为分割平面。

4.如权利要求1所述的一种光线追踪加速方法，其特征是：对三角面片进行分类、对事件列表进行过滤的过程在处理器的主核上进行。

5.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-4中任一项所述的一种光线追踪加速方法的步骤。

6.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-4中任一项所述的一种光线追踪加速方法的步骤。