CN109448136B

CN109448136B - 一种基于感兴趣区域的虚拟场景浏览方法

Info

Publication number: CN109448136B
Application number: CN201811156183.0A
Authority: CN
Inventors: 王莉莉; 张文豪; 吴健; 许阳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2023-03-28
Anticipated expiration: 2038-09-29
Also published as: CN109448136A

Abstract

本发明涉及一种基于感兴趣区域的虚拟场景浏览方法，用于提高观察者在虚拟场景中的浏览效率，包括以下步骤：(1)根据虚拟场景的几何信息，使用三方向快速采样的方法以体素作为基本单位来简化虚拟场景，以体素的位置和法向量来单位组织整个虚拟场景；(2)依据先前观察者的游览路径作为输入使用离屏渲染提取的场景感兴趣区域；(3)建立先前观察者的游览路径与感兴趣区域的关系，使用聚类的方法确定场景轴；(4)根据后续观察者的位置确定虚拟场景中的场景轴作为锚定轴，多视点渲染虚拟场景。本发明可以快速的根据场景的结构和先前观察者的路径确定场景轴，之后根据后续观察者的空间位置使用锚定轴多视点渲染，经过实验证明能够显著的提高虚拟场景的游览效率。

Description

一种基于感兴趣区域的虚拟场景浏览方法

技术领域

本发明属于虚拟场景导航的技术领域，具体涉及基于感兴趣区域和多视点锚定渲染技术的导航方法。

背景技术

当计算机算法理论及计算机运算速度达到一定层次时，人们就开始将计算机应用从单纯地处理逻辑计算领域拓展到与之相关的其他领域，计算机图形学和数字图像处理就是其中之一

心理学研究表明，当观察者在观察一副图像的时候，人类视觉系统优先处理的区域是能产生新奇刺激的区域或者是包含观察者自己期待刺激的区域，这个最吸引观察者注意的区域称为感兴趣区域(Region of interest)，也称为ROI。在不同的研究和应用领域，人们对图像的关注角度不同，对图像的具体需求也就有所不同，因而会按照观察者的需求定义图像的ROI。面对一个复杂场景，ROI可以帮助我们迅速将注意力集中在少数几个显著的视觉对象上并对其优先处理，即将不同的处理优先级赋予场景的不同对象和区域，这样可以将有限的精力集中在更需要处理的部分，降低处理时的复杂度。

感兴趣区域是图像中引起观察者注意的区域，ROI这一概念最早在由机器人领域提出，用来进行物体识别，观察图像时，焦点所在的区域即是ROI。在基于ROI的算法中，可以针对图像的ROI运行相对应的算法，一方面可以降低数据的规模，从而提高运行效率；另一方面也可以减少非ROI对结果造成的干扰。

提取ROI的方法有很多种。从底层特征到最终目标区域，往往需要经过多个步骤，不同的方法采用的中间媒介和顺序也不尽相同。总体来看，兴趣区域的提拔方法可以分为以下几类：

(1)采用人机交互，手工指定的方法让用户根据自己的兴趣、已有的知识和观察人物，手动标记图像中的ROI。

(2)基于注视点的方法利用眼动实验，首先得到被试者的注视点数据。眼动实验使用特征的头盔、摄像头等装置，追踪被试者观察图像时候的眼动轨迹以及相关数据的科学实验参考文献：Desikan R S,

Gonne F,Fischl B,et al.An automated labelingsystem for subdividing the human cerebral cortex on MRI scans into gyralbased regions of interest[J].Neuroimage,2006,31(3):968-980.。

(3)基于视觉注意模型的方法。视觉注意是人类将其获得的信息进行加工过程中的一项心里调节方式，视觉注意模型是从不同角度来模拟人类视觉而建立的计算模型。

(4)基于特定对象分割的方法，主要有四种：基于拐点的感兴趣点提取方法、基于图像灰度变化的感兴趣点提取方法、基于传统图像分割的方法与注意窗口和感兴趣对象相结合的方法，参考文献：Holland D,Dale A M.Nonlinear registration of longitudinalimages and measurement of change in regions of interest.[J].Medical ImageAnalysis,2011,15(4):489-497.。

(5)基于图像底层特征和高层语义的方法。图像的底层特征如颜色、方向等直接影响着的提取，同样地，图像本身包含的内容和观察者携带的观察任务等也影响提取的效果，参考文献：Meyer G E,Camargo N J,Jones D D,et al.Intensified fuzzy clusters forclassifying plant,soil,and residue regions of interest from color images.[J].Computers&Electronics in Agriculture,2004,42(3):161-180.。

但是在已有的算法中都是针对2D图像提取兴趣点，但是随着计算机技术的发展，3D图形慢慢会代替2D图像，传达出更多的信息。那么针对复杂的3D图形，提取3D图形中的感兴趣区域就也变成了一个值得探讨的问题。与2D图像类似，提取3D图形感兴趣区域的方法包括了对3D图形结构的分析，此方法针对复杂的虚拟场景并不适用，或者依据在3D模型中渲染的图像，使用2D图像的方法提取感兴趣区域，需要实时计算。一般3D图形的数据是以三角形面片为基本单位，其数量一般很大，所以为了提取3D图形中的感兴趣区域，首先需要对3D图形进行简化，普遍的方法有体素化，建立KD-Tree等，但是体素化的方法更加符合对于感兴趣区域的定义，表达能力更强。

体素化方法的实质，是将物体的几何形式表达(比如三角形面片)转换成最接近该物体的体素表示形式，产生体数据集，其不仅包含模型的表面信息，而且能描述模型的内部属性。表示模型的空间体素跟表示图像的二维像素比较相似，只不过从二维的点扩展到三维的立方体单元，用一个个立方体单元来组成三维模型。

传统方法针对复杂场景的时候复杂度较大，而且由此得到的体素属性单一。基于DepthPeeling的体素化方法需要多次渲染场景，速度也相对较慢，参考文献：KleinR.Depth-Peeling for Texture-Based Volume Rendering[C]//Pacific Conference onComputer Graphics and Applications.IEEE Computer Society,2003:429.。

发明内容

本发明要解决的技术问题是：克服现有体素化技术的不足，快速高效的体素化整个场景，之后通过学习先前观察者的路径得到感兴趣区域以及场景轴，根据后续观察者的位置，利用多视角锚点可视化的方法来渲染整个场景。该发明提出了一种快速体素化的方法，之后提出了一种算法获取三维场景中的感兴趣区域，最后将其运用到虚拟场景导航的实际运用中，经过试验证明能够有效的提高VR场景中的导航效率。

本发明解决上述技术问题的技术方案为：一种基于感兴趣区域的虚拟场景浏览方法，包括如下步骤：

(1)根据虚拟场景的几何信息作为输入，使用三方向快速采样的方法来获得场景的采样点，再根据采样点的空间位置以及法向量得到相对应场景体素的空间位置和法向量。与三角形相比，体素的结构更简单，以体素作为基础单位组织整个场景可以达到简化场景的目的；

(2)本发明采用用户学习的方法来获取感兴趣区域。输入数据为先前观察者的路径，对先前观察者的路径使用滤波算法进行优化；以在步骤(1)中得到的场景体素作为当前步骤中离线渲染的输入，以获取场景中感兴趣区域的感兴趣体素；

(3)以步骤2中得到的感兴趣区域作为输入，再次使用离屏渲染技术得到先前观察者路径中每个视点可见的感兴趣体素的个数，然后使用滤波算法对先前观察者的路径进一步优化，建立先前观察者的游览路径与感兴趣区域的关系以确定场景轴；

(4)根据后续观察者的空间位置确定的场景轴并锚定，再根据后续观察者的视角移动多视点渲染虚拟场景。

所述步骤(1)具体实现如下：所述的三方向快速采样的方法为：关闭OpenGL渲染管线中的深度测试以及背面剔除技术，从三个相互垂直的方向使用正交投影渲染整个场景，获得均匀的场景采样点；场景采样点的属性由OpenGL中片段着色器中经过GPU自动插值的片元的属性得到；一般从XYZ轴三个方向使用正交视图来渲染整个场景，XYZ轴位置以及渲染效果图见图2。根据场景采样点的空间位置得到对应场景体素的下标，根据场景采样点集合的平均空间位置和平均法向量得到相对应的场景体素的空间位置和法向量。与三角形相比，体素的结构更简单，以体素作为基础单位组织整个场景可以达到简化场景的目的；

步骤(2)包括：所述的路径处理滤波算法为高斯滤波，为了去除路径中的异常视点对学习结果影响；首先获取出先前观察者路径中每个视点的瞬时速度和瞬时角速度，去除速度变换率过大的点。所述离屏渲染即不在当前屏幕的缓冲区内进行渲染，避免缓冲区的交换，极大的加速了渲染计算的过程；在先前观察者路径中的每个视点内离屏渲染场景获得当前场景深度图，之后根据场景深度图获得场景内体素的可见性。若场景体素在先前观察者路径中的视点可见，那么该场景体素的重要度加一，根据场景体素在先前观察者路径中视点的可见性确定出体素的重要度，重要度高的体素即组成了场景的感兴趣区域(Region of interest)，所述重要度高是指当体素的重要度超过设定的阈值，当前体素被称为重要度高的体素。

步骤(3)包括：使用离屏渲染得到在每个视点上渲染计算当前感兴趣体素的可见性，获得视点可见的感兴趣体素的数量。使用高斯滤波进一步对先前观察者路径中的视点进行处理，去除先前观察者路径中可见感兴趣体素数量少的视点。对高斯滤波处理之后的路径中的视点的空间位置使用聚类算法，获得路径中视点聚成的集合，每个视点集合的空间位置即是场景轴的入口，视点集合的平均朝向即是场景轴的朝向，根据场景模型的长宽确定场景轴的长和宽，场景轴的高即为场景模型的高。

步骤(4)包括：根据后续观察者在场景中的位置和朝向，确定可见的场景轴的集合，渲染全部的场景轴，后续观察者使用VR手柄在虚拟场景中手动选择合适的场景轴并锚定；然后根据后续观察者穿戴的VR头盔的旋转和移动对锚定轴内的顶点做出合适的上下旋转和左右旋转，以多视点来观察锚定轴内部，更全面的观察场景中的感兴趣区域。

本发明的原理：

(1)三方向快速体素化简化场景结构

研究对比传统体素化方法以及DepthPeeling体素化方法，本发明提出了一种改进的三方向渲染的快速体素化的方法，同时给出了实现过程中的一些优化措施。本文根据obj模型的树形结构，迭代求取整个场景中顶点的最大值和最小值，作为包围盒的最大点和最小点求取整个场景的AABB包围盒。传统方法针对复杂场景的时候复杂度较大，而且由此得到的体素属性单一。基于DepthPeeling的体素化方法需要根据场景模型的层数多次渲染场景，速度也相对较慢。本发明改进这两个算法，提出了一种基于三方向的快速体素化。与DepthPeeling算法类似，本文基于OpenGL中光栅化之后插值得到的片元的位置对整个场景进行体素化。不同于DepthPeeling算法的多层渲染，三方向快速体素化只需要关闭深度测试以及背面剔除技术从三个相互垂直的方向渲染整个场景，保证采样点在模型表面的分布相对均匀，当前片元的属性即是采样点的属性，通过采样点的属性就可以得到相对应体素的属性。一般从XYZ轴三个方向使用正交视图来渲染整个场景，渲染效果图见图2。经过上述分析，GPU中的数据为片元的属性，本发明使用着色器储存缓存对象来进行GPU中与内存间数据的传输。为了获得采样点的个数以申请相对应空间的内存空间，三方向快速体素化技术需要两个管线，第一个管线算得采样点的数量，第二个管线根据采样点的数量申请相对应大小的内存与着色器储存缓存对象链接，将数据中GPU传输到内存中。

(2)使用滤波算法去除先前观察者路径中的部分视点

本发明的输入需要输入先前观察者的路径，但在路径中并非所有的视点都对后续观察者有启发作用，若当前视点的瞬时速度和瞬时角速度大于某一阈值的时候，可以判定视点不是处于观察场景的状态，那么可以筛掉当前视点。所以使用高斯滤波算法，去除当前路径中变换率大的视点。

(3)通过离屏渲染提取感兴趣体素

离屏渲染指的是在GPU在当前屏幕缓冲区以外开辟一个缓冲区进行渲染操作。和传统渲染不同的是离屏渲染不在当前显式的屏幕缓冲区，因为不用在屏幕缓冲区显示，不需要交换缓冲区的操作，所以速度非常快。在当前视点首先以相同的视角渲染一张深度图，之后判断场景中的体素在当前视点下是的可见性。经过测试，在几秒钟内便可以完成几千个视点对场景的渲染，提取出每个体素能被视点看见的数量，去被看见数量高的体素作为感兴趣体素，即为感兴趣区域。

(4)通过对视点进行聚类得到场景轴

当前视点经过了速度的滤波算法处理，但是并不是所有的视点都是能看见感兴趣区域的，同样使用离线渲染得到先前观察者路径中每一个视点可见的感兴趣体素的数量，然后使用滤波算法去除看见感兴趣体素数量少的视点，之后根据视点的位置对视点进行K-means聚类得到若干视点的集合，每个视点的集合都代表了一个场景轴，视点集合的平均位置即场景轴的位置，视点集合的平均朝向即场景轴的朝向。

(5)通过当前视点提取出锚定轴并使用多视点渲染虚拟场景

根据深度关系，取出当前视点下可见的锚定轴，后续观察者使用VR手柄手动选定一个场景轴并锚定，之后使用多视点锚定轴渲染，根据后续观察者使用的VR头盔的上下左右旋转来旋转锚定轴中场景的顶点，使得后续观察者在不移动位置的情况下看见场景中更多的信息。

本发明与之前算法相比的优点在于：

(1)本发明提出了一种体素化方法简化模型，利用OpenGL中的片元着色器只需要三方向渲染即可得到场景的体素，在效果一样的情况下，速度相比传统的体素化方法或者DepthPeeling方法更快。

(2)本发明提出了一种使用用户学习的方法获得场景中的感兴趣区域的算法，使用离线渲染快速获得场景中的感兴趣区域，并建立出感兴趣区域与先前观察者之间的联系，相比于之前的获取感兴趣区域的方法，此方法可以离线计算，学习先前观察者路径获得感兴趣区域之后即可使用此感兴趣区域用作后续观察者，效果更好。

(3)本发明在渲染虚拟场景的阶段，提出了一种使用锚定轴多视点渲染，相比于传统的场景浏览算法，多视点渲染可以在后续观察者少量移动的情况下，看见更多的感兴趣区域。因为VR设备的限制，使用VR设备一般只能在一个很小的区域内进行，除此之外，使用VR设备尽量减少使用者在现实生活中的移动。相比于传统的虚拟场景浏览方法，后续观察者使用此发明移动步数更少，效率更高。

附图说明

图1为本发明方法整体流程图；

图2为本发明中从XYZ三个方向上获取采样点示意图；

图3为本发明中获取采样点之后体素化整个场景的过程示意图；

图4为本发明中获取感兴趣区域的流程图；

图5为本发明中确定场景轴的流程图；

图6为本发明中锚定轴中顶点旋转的示意图；

图7为本发明中在VR场景中选择锚定轴的示意图；

图8为本发明中在VR场景中使用多视点渲染的示意图。

具体实施方式

下面结合附图以及本发明的具体实施方式进一步说明本发明。

对于该VR场景导航算法，本发明方法的输入是一个复杂三维场景模型(包含顶点信息和面片索引信息)和先前观察者的观察路径(包括每一个视点下的位置和朝向)。而整个算法包括以下步骤如图1所示，

(1)输入一个复杂的三维场景，利用体素化来简化三维场景的结构。根据obj模型的树形结构，迭代求取整个场景中顶点的最大值和最小值，作为包围盒的最大点和最小点求取整个场景的AABB包围盒。本发明采用的主要方法为基于采样点来获取体素的信息，然后对于每一片采样点p都运用算法1计算其对应的格子坐标，并将所在的体素标记为非空。本发明提出了一种基于三方向的快速体素化。三方向快速体素化只需要关闭深度测试以及背面剔除技术从三个相互垂直的方向渲染整个场景，保证采样点在模型表面的分布相对均匀，当前片元的属性即是采样点的属性，通过采样点的属性就可以得到相对应体素的属性。一般从XYZ轴三个方向使用正交视图来渲染整个场景，XYZ轴以及渲染效果图见图2。经过上述分析，GPU中的数据为片元的属性，本发明使用着色器储存缓存对象来进行GPU中与内存间数据的传输。为了获得采样点的个数以申请相对应空间的内存空间，三方向快速体素化技术需要两个管线，第一个管线算得采样点的数量，第二个管线根据采样点的数量申请相对应大小的内存与着色器储存缓存对象链接，将数据中GPU传输到内存中。第一个管线主要为采样点总个数的计算，根据片元的空间位置确定片元所在的体素，使用原子操作中的计数器确定每个体素内的采样点个数，得到体素列表。之后使用CUDA快速计算出体素列表的前缀和，得到采样点的总个数。第二个管线主要为采样点属性的输出，根据第一个管线中的采样点的数量申请相对应大小的内存空间使用着色器缓存对象将GPU找那个的数据与内存空间连接起来，然后通过原子操作中的计数器确定当前片元的下标，储存进着色器缓存对象中。之后通过采样点的空间坐标将其分入相对应的体素中，根据采样点的属性如法向量获得体素的属性，流程以及效果图见图3。图3中，最左边的输入为一个三维场景，中间为场景采样点图，右边为根据场景采样点绘制出来的场景体素图。

算法1的输入数据为当前场景的包围盒，坐标轴Axis，包围盒的分辨率N以及当前点P在空间中的位置。算法1首先将当前点P在世界坐标系下的坐标变换到坐标轴Axis下，之后根据在包围盒中的坐标除于包围盒的长度，乘于包围盒的分辨率N最终得到点p所在体素的坐标。

(2)感兴趣区域是引起观察者注意的区域。本发明通过用户学习的方法获得场景中的感兴趣区域，学习的数据为先前观察者的观察路径以及观察朝向，具体流程见图4。第一步对路径做预处理。使用高斯滤波取出路径中的异常点，当某个视点的瞬时速度或瞬时角速度高于一定阈值，可判定当前视点非观察视点，可将此视点从路径中移除，减少异常值对结果的影响，高斯滤波的过程以及效果见图4中的中间效果图。第二步为使用离屏渲染得到感兴趣区域。第一遍在路径的每个视点内使用离屏渲染得到当前视点下的深度图，第二遍同样的位置和视点下渲染场景中的体素，根据深度关系得到当前视点可见的体素(具体见算法2)增加对应的可见体素的权值。遍历完成整个路径中的视点之后根据体素中权值的阈值确定出高频被观察的体素，记作感兴趣区域，离屏渲染以及感兴趣区域见图4的右边效果图。

算法2的输入数据为当前的场景S，当前相机的位置Pos，相机的朝向Front以及体素的位置列表Voxel；在当前视点渲染场景S获取当前视点下，场景的深度图，储存到DBuffer中，之后在相同的视点位置渲染场景体素，根据片元着色器获得当前体素到视点的距离，根据buffer中的深度缓冲DBuffer获取体素列表中每个体素到视点的距离，若体素到视点的距离小于储存在DBuffer中的距离，则当前体素可见，否则不可见。

(3)基于先前观察者路径以及感兴趣区域的关系确定场景轴主要分为三步：第一步为使用算法2求得在路径中每个视点下的感兴趣区域的可见性，根据阈值去除可见较少感兴趣区域的视点，建立视点与感兴趣区域的关系，见图5中的ROI Filter效果图。第二步为根据每个视点的位置以及朝向对视点使用K-means聚类算法得到若干视点的集合即代表了位置的高频区域，见图5中的Path and ROI效果图，说明此位置可以看见场景中的感兴趣区域。第三步取视点集合内的平均位置作为场景轴的入口，取平均朝向作为场景轴的朝向，根据场景的布局确定场景轴的长宽高，图5中右边效果图中的长方体即为场景轴。至此场景轴中即包含了从先前观察者学习得到的感兴趣区域，之后对场景轴中的顶点做变换即可以更全面的观察场景中的感兴趣区域。

(4)虚拟场景中多视点锚定渲染需要首先锚定一个场景轴。同样使用算法2确定后续观察者对场景轴中入口的可见性。在虚拟场景中周期性的显式出当前视点可见的场景轴的轮廓，手动选择场景轴锚定。锚定轴确定之后，根据OpenVR的SDK中的相关接口获得VR头盔在锚定场景之后的上下左右移动，传入到对应的顶点着色器中，对已锚定轴中场景的顶点以锚定轴的入口为中心做出上下左右旋转，旋转示意图见图6，图6中的P点描述了当前锚定的场景轴，左边的c0和d0是旋转之前的场景轴的中的点，右边的c1和d1是旋转之后的场景轴中的点，u0是后续观察者锚定时候的位置，u1是后续观察者锚定之后的位置。具体算法见算法3。

算法3主要为根据VR头盔的左右上下旋转将锚定轴内的点p也进行适当的旋转，首先判断点p在不在锚定轴内，若在锚定轴内才进行相对应的旋转变换，之后将点p绕锚定轴左右旋转a，上下旋转b得到点new_p，若旋转之后的点new_p在锚定轴外，那么将其映射到锚定轴上，避免旋转产生的场景撕裂效果。

本发明的实现使用的软件平台为Microsoft visual studio 2015与OpenGL，使用了CUDA来加速并行算法的计算效率。硬件平台为4.0GHz Inter(R)Core(TM)i7-6700K CPU、16GB内存以及NVIDIA GeForce GTX1080GPU。

场景的渲染效果图见图7，显示的线框即为当前视点下可见的场景轴，当前渲染算法是正常视点下的渲染，可以看出场景中有很多区域是看不见的。之后使用VR手柄手动锚定。之后根据后续观察者头部上下左右的旋转，对在锚定轴内的场景中的顶点也做相对应的移动，效果图见图8，多视点渲染的情况下能看见更多的感兴趣区域，经过试验证明，本发明能够明显提高VR场景中的导航效率。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于感兴趣区域的虚拟场景浏览方法，其特征在于：步骤包括：

(1)根据虚拟场景的几何信息作为输入，使用三方向快速采样的方法来获得场景的采样点，再根据采样点的空间位置以及法向量得到相对应场景体素的空间位置和法向量；

(2)采用用户学习的方法来获取感兴趣区域，首先需要对先前观察者的路径使用滤波算法进行优化，得到优化之后的先前观察者的路径；然后以步骤(1)中得到的场景体素和优化之后的观察者路径一起作为用户学习方法的输入数据，以先前观察者路径中的每个视点作为离线渲染中的相机视点，以步骤(1)得到的场景体素作为渲染目标，根据体素的可见性获取场景中的感兴趣体素和感兴趣区域；

(3)以步骤(2)中得到的感兴趣区域作为输入，再次使用离屏渲染技术得到先前观察者路径中每个视点可见的感兴趣体素的个数，然后使用滤波算法对先前观察者的路径进一步优化，对先前观察者路径使用聚类算法建立先前观察者的游览路径与感兴趣区域的关系以确定场景轴；

(4)根据后续观察者的空间位置确定的场景轴并锚定，再根据后续观察者的视角移动多视点渲染虚拟场景；

所述步骤(1)具体包括：使用三方向快速采样的方法获得场景的采样点，所述的三方向快速采样的方法为：关闭OpenGL渲染管线中的深度测试以及背面剔除技术，从三个相互垂直的方向使用正交投影渲染整个场景，获得均匀的场景采样点；

所述场景采样点的属性由OpenGL中片段着色器中经过插值的片元的属性得到；

所述三个相互垂直的方向是从XYZ轴三个方向使用正交视图来渲染整个场景；

根据场景采样点的空间位置得到对应场景体素的下标，根据场景采样点集合的平均空间位置和平均法向量得到相对应的场景体素的空间位置和法向量；

所述步骤(2)中，滤波算法为高斯滤波，以去除路径中的异常视点对学习结果影响；

离屏渲染即不在当前屏幕的缓冲区内进行渲染，避免缓冲区的交换，极大的加速了渲染计算的过程；在先前观察者路径中的每个视点内离屏渲染场景获得当前场景深度图，之后根据场景深度图获得场景内体素的可见性，若场景体素在先前观察者路径中的视点可见，则场景体素的重要度加一，根据场景体素在先前观察者路径中视点的可见性确定出体素的重要度的体素即组成了场景的感兴趣区域，重要度高是指当体素的重要度超过设定的阈值，当前体素被称为重要度高的体素；

所述步骤(3)中具体实现为：以步骤(2)得到的感兴趣区域作为输入，使用离屏渲染得到在每个视点上渲染计算当前感兴趣体素的可见性，获得视点可见的感兴趣体素的数量，使用高斯滤波去除先前观察者路径中可见感兴趣体素数量少的视点，再根据视点的空间位置，使用聚类算法获得视点聚成的集合，每个视点集合的空间位置即是场景轴的入口，视点集合的平均朝向即是场景轴的朝向，即确定了场景轴；

所述步骤(4)具体实现为：根据后续观察者在场景中的位置和朝向，确定可见的场景轴的集合，渲染全部的场景轴，后续观察者使用VR手柄在虚拟场景中手动选择合适的场景轴并锚定；然后根据后续观察者穿戴的VR头盔的旋转和移动对锚定轴内的顶点做出合适的上下旋转和左右旋转，以多视点来观察锚定轴内部。