CN110659385A

CN110659385A - 一种多路视频与三维gis场景的融合方法

Info

Publication number: CN110659385A
Application number: CN201910866229.6A
Authority: CN
Inventors: 李成名; 刘振东; 赵占杰; 戴昭鑫; 王飞; 刘嗣超; 陈汉生
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-07
Anticipated expiration: 2039-09-12
Also published as: CN110659385B

Abstract

本发明公开了一种多路视频与三维GIS场景的融合方法，包括定义视频对象中的数据结构，并给每一视频对象的各个参数赋予初始值；判断视频对象在场景中的空间位置信息、姿态信息以及摄像头可观察的区域信息，并根据上述信息，将视频对象抽象化为视锥体几何对象；根据摄像头的属性信息，将场景中所有的视锥体几何对象进行分类，形成多个视频图层；建立场景中各视频图层下所有视频对象的R树索引信息；进入三维场景的可见范围，将可见范围内的渲染对象实时存储，并实时生成可视范围内三维场景的视锥体等步骤。优点是：通过建立视频与三维场景的拓扑信息，能够有效提高融合对象快速定位及其融合效率，适用多个(超过4‑5个)视频的三维场景虚拟融合。

Description

一种多路视频与三维GIS场景的融合方法

技术领域

本发明涉及地图制图学技术领域，尤其涉及一种多路视频与三维GIS场景的融合方法。

背景技术

虚实融合技术是视频增强三维虚拟地理场景的关键环节之一，对于减少GIS虚拟场景和真实视频图片间视觉差异，实现视觉感官虚实无缝结合，并提高真实沉浸式视觉体验具有重要作用。在视频与三维虚拟场景的融合方法中，基于视频投影的虚实融合方法因无需人工干预和离线融合、不需为被投影的纹理预先指定顶点纹理且场景还原真实度高等优势，成为三维场景虚拟融合中最常用的方法。如：美国Sarnoff公司的Stephen等提出以实时视频流作为纹理投影到模型上的方法，使用纹理映射方法计算模型表面的颜色；Neumann等基于纹理投影思想，提出了增强虚拟环境(augmented virtual environment,AVE)系统；Milosavljevic等提出基于GIS的视频监控体系结构，并在AVE系统的基础上提出了视频图像与三维模型表面纹理的透明度融合。

已有上述基于视频投影的虚实融合方法，在三维场景动态更新时，通常需要对用户视角下新场景内所有渲染对象进行遍历，来筛选出摄像头范围内需融合的对象。通常来讲，用户视角下渲染对象的数量可达几百到几千个不等，因此，导致融合过程耗时长、效率不高，如Milosavljevic等提出视频投影方法适用于最多包含4-5个视频的三维场景虚拟融合。

发明内容

本发明的目的在于提供一种多路视频与三维GIS场景的融合方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种多路视频与三维GIS场景的融合方法，包括如下步骤，

S1、定义视频对象中的数据结构，并给每一视频对象的各个参数赋予初始值；

S2、判断视频对象在场景中的空间位置信息、姿态信息以及摄像头可观察的区域信息，并根据上述信息，将视频对象抽象化为视锥体几何对象；

S3、根据摄像头的属性信息，将场景中所有的视锥体几何对象进行分类，形成多个视频图层；

S4、建立场景中各视频图层下所有视频对象的R树索引信息；

S5、进入三维场景的可见范围，将可见范围内的渲染对象实时存储，并实时生成可视范围内三维场景的视锥体，即场景视锥体；利用视频图层的R树索引与场景视锥体做相交性判断，若相交，则执行步骤S6；若不相交，则继续下一视频对象的判断，直至找到在可见范围内的视频对象或进入下一可见范围，并执行步骤S6；

S6、对于在可见范围内的视频对象，判断该视频对象是否为首次进入可见范围内，若是，则执行步骤S7；若否，则执行步骤S8；并在判断后实时利用可见范围内场景的当前帧数更新帧数参数的参数值；

S7、对于视频对象首次进入可见范围的情况，寻找并判断场景可见范围内的渲染对象是否存在于内存中，并在判断后执行步骤S9；

S8、对于视频对象非首次进入可见范围的情况，若该视频对象原来为全部处于场景可见范围内，则无需处理；若该视频对象原来为部分处于场景可见范围内，则进行拓扑信息更新，并根据该视频对象与新进入可见范围的渲染对象之间是否建立过拓扑关系分情况处理，并在处理后分别执行步骤S9和步骤S10；

S9、判断渲染对象的外包围盒与视频几何体对象的凸多边形之间的空间关系参数是否为相交或包含关系；若是，则将渲染对象信息存储到对应视频对象的拓扑相交渲染对象集参数中；若否，则无需融合；

S10、依据视频对象中存储的摄像头的位置、姿态和可见范围，创建视频深度相机，相机下挂载该视频对象对应的渲染对象集；将视频对象的深度图、掩膜纹理、视频纹理以及与视频对象相交或包含的渲染对象的顶点、法线和静态纹理资源传递给着色器，在着色器中利用投影纹理算法合成最终的融合结果。

优选的，步骤S1中所述视频对象的数据结构包括位置、姿态、可见范围、位于视野范围内的最新帧数、视频几何体对象、渲染对象与视频对象的空间拓扑关系以及拓扑相交的渲染对象集。

优选的，步骤S7包括两种情况，

A1、若该场景可见范围内的渲染对象不存在于内存中，是新创建且调入场景的渲染对象，则从外存中将该渲染对象调度入内存，将该视频对象与场景可见范围内所有的渲染对象逐一进行拓扑信息建立，并执行步骤S9；

A2、若该场景可见范围内的渲染对象存在于内存中，直接将该视频对象与场景可见范围内所有的渲染对象逐一进行拓扑信息建立，并执行步骤S9。

优选的，所述A1中，对于新调度进入内存的渲染对象，在进行调度时通过拓扑信息更新监视机制，依次判断渲染对象外包围盒与可见视频对象的凸多边形的空间关系，并记录下拓扑类型；若渲染对象被包含于某视频对象内，那么可见视频对象列表中与该视频对象相离的视频对象不包含此渲染对象。

优选的，所述A2中，对于已经存在于内存的渲染对象，将新进入可见范围的视频对象与可见视频对象列表中的所有其他视频对象逐一拓扑判断，将与新进入可见范围视频对象相离的可见视频对象中所包含的渲染对象进行排除，剩余的渲染对象再逐一与新进入可见范围的视频对象建立拓扑关系。

优选的，步骤S8中，分情况处理具体包括如下两种情况，

B1、若视频对象与新进入可见范围的渲染对象之间没有建立过拓扑关系，则执行步骤S9，完成拓扑关系更新；

B2、若视频对象与新进入可见范围的渲染对象之间建立过拓扑关系，则直接利用原有记录的拓扑信息，则执行步骤S10，进行融合。

本发明的有益效果是：本发明的融合方法通过建立视频与三维场景的拓扑信息，能够有效提高融合对象快速定位及其融合效率，适用多个(超过4-5个)视频的三维场景虚拟融合。

附图说明

图1是本发明实施例中融合方法的流程图；

图2是本发明实施例中原有基于视频投影的虚实融合技术在某一视角下的三维场景示意图；

图3是本发明实施例中原有基于视频投影的虚实融合技术在视角向左上方移动后的三维场景示意图；

图4是本发明实施例中本发明三维场景动态可视化在某一视角下的三维场景；

图5是本发明实施例中本发明三维场景动态可视化在视角向左方移动后的三维场景；

图6是本发明实施例中原有方法与本发明方法融合耗时统计图；

图7是本发明实施例中三维场景图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本实施例中提供了一种多路视频与三维GIS场景的融合方法，包括如下步骤，

S2、判断视频对象在场景中的空间位置信息、姿态信息以及摄像头可观察的区域等信息，并根据上述信息，将视频对象抽象化为视锥体几何对象；

S3、根据摄像头的属性信息，将场景中所有的视锥体几何对象进行分类，形成多个视频图层；所述摄像头的属性信息如摄像头的权属属性：公安，城管，交通等；

S4、建立场景中各视频图层下所有视频对象的R树索引信息；

S5、进入三维场景的可见范围，将可见范围内的渲染对象实时存储，并实时生成可视范围内三维场景的视锥体，即场景视锥体；利用视频图层的R树索引与场景视锥体做相交性判断，若相交，则该视频对象在可见范围内，执行步骤S6；若不相交，则该视频对象不再可见范围内，继续下一视频对象的判断，直至找到在可见范围内的视频对象或进入下一可见范围，并执行步骤S6；

S6、对于在可见范围内的视频对象，判断该视频对象的帧数参数(frameNumber)的参数值是否为零，若是，则说明该视频对象为首次进入可见范围内，则执行步骤S7；若否，则说明该视频对象为非首次进入可见范围内，则执行步骤S8；并在判断后实时利用可见范围内场景的当前帧数更新帧数参数(frameNumber)的参数值；

S9、判断渲染对象的外包围盒与视频几何体对象的凸多边形之间的空间关系参数(eTopology)是否为相交或包含关系；若是，则将渲染对象信息存储到对应视频对象的拓扑相交渲染对象集参数(pRenderObjects)中；若否，则说明渲染对象不在视频范围内，无需融合；

本实施例中，步骤S1中所述视频对象的数据结构包括位置、姿态、可见范围、位于视野范围内的最新帧数、视频几何体对象、渲染对象与视频对象的空间拓扑关系以及拓扑相交的渲染对象集。所述视频对象的数据结构如下所示，

{double x,y,z；//位置

double title,roll,head；//姿态

double near,far；//可见范围

int frameNumber＝0；//位于视野范围内的最新帧数

Geometry*pVideoGeometry；//视频几何体对象

int eTopology；//渲染对象与视频对象的空间拓扑关系

void*pRenderObjets[]；//拓扑相交的渲染对象集}

本实施例中，步骤S7包括两种情况，

本实施例中，所述A1中，对于新调度进入内存的渲染对象，在进行调度时通过拓扑信息更新监视机制，依次判断渲染对象外包围盒与可见视频对象的凸多边形的空间关系，并记录下拓扑类型；若渲染对象被包含于某视频对象内，那么可见视频对象列表中与该视频对象相离的视频对象不包含此渲染对象。

本实施例中，所述A2中，对于已经存在于内存的渲染对象，将新进入可见范围的视频对象与可见视频对象列表中的所有其他视频对象逐一拓扑判断，将与新进入可见范围视频对象相离的可见视频对象中所包含的渲染对象进行排除，剩余的渲染对象再逐一与新进入可见范围的视频对象建立拓扑关系。

本实施例中，步骤S8中，分情况处理具体包括如下两种情况，

实施例二

如图2至图7所示，本实施例中，结合本发明和原有的基于视频投影的虚实融合方法，对比说明本发明的融合效果。

本实施例中，原有的基于视频投影的虚实融合方法是指利用投影纹理技术将视频帧图像投影到三维场景中，它类似于在三维GIS场景中添加一个幻灯片投影仪，使用框架地理参考信息对其进行定位和定向，然后将图像投影到场景中的对象上。其主要包括2个步骤：

步骤1：视频范围内需融合渲染对象的确定，是实现视频与三维GIS场景正确融合的最基础和关键的步骤。(1)首先，在摄像头的位置处设置一台虚拟的深度相机，根据摄像头的坐标、裁剪面的距离等来设置深度相机的位姿；(2)遍历用户视角下的三维场景中所有的渲染对象，筛选出深度相机可视范围内的融合对象，并完成这些融合对象的遮挡测试和深度纹理创建。

步骤2：投影视频图像。在创建深度纹理的前提下，在片元着色器中，使用当前视频帧图像对整个三维场景进行投影渲染，完成融合。

由于原有方法不记录视频摄像头与场景的拓扑信息，当三维场景动态变化时，无论视角范围内新场景与上一个场景有无重叠，均须重新遍历并计算新视角场景内每一个视频摄像头与场景的空间关系，即重复执行上述步骤1中的(2)，从而完成深度纹理的更新。而一般新场景渲染对象的数量可达几千不等，每一次场景的变化均需重复上述遍历过程，导致现有方法整体处理过程计算代价昂贵、耗时长、效率差。Milosavljevis等建议三维场景中被同时渲染的视频数量应限制在4-5以内，以保证正常的融合渲染。

如图2中，Camera 1与Camera 2分别为两个视频摄像头对应的深度相机，O1-O4为视频范围内需要与场景融合的对象，O1-O13为场景中所有需要被渲染对象。现有方法中，由于深度相机没有与虚拟三维场景中的渲染对象建立拓扑关系，当用户视角由图2场景动态变化至图3场景时，无法得知其可见范围内要融合对象是否发生变化。此时，虽然场景中深度相机Camera1和Camera2可见范围内的渲染对象均未发生变化，但并没有一种机制能把这个结果告知深度相机，必须重新依次遍历场景图3中所有的渲染对象与视频摄像头的空间关系，即O1-O8及O8-O13所有对象与两个视频相机的空间关系，然后筛选出视频范围内要融合的对象。

假设判断一个对象与深度相机空间关系的时间为T，即使场景动态变化时需进行融合的对象与上一帧场景没有变化，且仅有O13为新加入场景的对象，但现有方法仍需要耗费2*12*T的时间去确定要融合的对象。面对真实场景中的几百甚至几千个渲染对象时，其计算代价及时间成本更高。

本实施例中，本发明的方法中，在建立视频对象与场景的拓扑信息时，为适应场景的动态可视化，需要实时更新二者的拓扑信息，以保证拓扑信息的时效性和正确性。结合图3进行说明，图3中，虚线框内是场景的可见范围，由图4变换到图5，渲染对象O4、O5、O11、O12、O13为新进入三维场景可见范围的渲染对象。

针对位于场景可见范围内的视频对象，如图4和图5中的Pk、Pt。对于部分处于场景可见范围内的视频对象Pk，拓扑信息应被更新；而视频对象Pt完全处于场景可见范围内，则无需处理。若由于场景调出机制，新进入的渲染对象已经存在于计算机内存中，如果O5与Pk建立过拓扑关系，则可利用记录的拓扑信息直接进行拓扑更新和数据融合；若二者没有建立过拓扑关系，则应判断渲染对象外包围盒与视频对象的凸多边形的空间关系建立拓扑关系。

针对新进入场景可见范围内的视频对象，如图4和图5中的Pm。若由于场景调出机制，新进入的渲染对象已经存在于计算机内存中。此时，视频对象Pm应与场景可见范围内所有的渲染对象进行拓扑关系判断(O1-O13)。首先，可将Pm与可见视频对象列表中的所有其他视频对象(Pk、Pt)逐一拓扑判断，排除部分渲染对象。如Pm与Pk是相离关系，那么与Pk是包含关系的渲染对象肯定与Pm也是相离的；然后，剩余的渲染对象通过判断渲染对象外包围盒与视频对象的凸多边形的空间关系建立拓扑关系。

本实施例中，为了验证本发明方法的有效性，依托中国测绘科学研究院研制的NewMap软件平台，嵌入本发明一种多路视频与三维GIS场景的融合方法，以山东省滕州市市区的地形、模型及监控视频数据为例对本发明方法进行效果验证。

本实施例中，高程数据来源于SRTM，经纬度范围为(117.07835°-117.20368°E，35.02355°-35.12744°N)，水平分辨率为90m，竖直分辨率为0.1m。影像数据来源于国际科学数据服务平台Landsat陆地卫星遥感影像数据，区域内的模型数据为人工精细建模以及单体化后的倾斜摄影模型，总数据量为8.20GB。该区域共有监控视频1269个，其中在100平方米范围内有5个及以上监控视频摄像头聚集的区域为46个。实验的硬件环境为CPU E3-1535M v5@2.90GHz，内存16.0G，显卡NVIDIA Quadro M2000M。其中，对标方法采用的是Milosavljevis2016年在“Integration of GIS and video surveillance”论文中提出的融合方法。

为验证本发明方法在视频与三维GIS场景融合时的效率，设置多条步行漫游路线(其中，步速为1.5m/s，步幅为0.65m)，开展本发明方法与对标方法在同一环境下的融合耗时对比分析。设置固定监控摄像头数量为1、3、5的三条漫游路线，对比随着三维GIS场景不断变化，本发明方法与对标方法视频与三维场景融合耗时，结果如表1(融合耗时对比)所示。

表1

表1中，针对摄像头数量一致，但三维GIS场景中对象数量不同的情况，其融合对象筛选耗时统计如图6所示。由图可以明显看出，在场景中视频摄像头数量固定的情况下，随着三维GIS虚拟场景中渲染对象的增加，对标方法在遍历筛选融合对象的耗时、融合总耗时均与场景内渲染对象数量呈显著正相关；而本发明方法所用时间与场景中所有对象个数无关，耗时较为均衡，在整体融合效率上均显著高于对标方法。

由表1可以看出，在三维GIS场景内渲染对象大致相等时，对标方法在遍历筛选融合对象的耗时，随着视频摄像头数量的增多而增加，而本发明方法所用时间与摄像头数量无关，耗时较为均衡，效率较高。其中，表1中效率提升值表示为对标方法融合耗时与本发明方法耗时的差值与对标方法融合耗时的比值，可以明显看出，本发明方法在整体融合效率显著高于对标方法，当视频摄像头数量分别为1、3与5时，融合效率分别平均提高24％、51％与58％，最高可达60％，充分说明了三维场景中摄像头越多，场景越大，本发明方法的优越性越显著。

本实施例中，当摄像头超过5个以后，由于对标方法融合效率难以适应，而本发明方法融合效率优越性明显，在同一环境下对比结果如表2(高于5个摄像头情况融合耗时统计对比)所示。

表2

在采用现有常规方法进行视频融合时，三维场景的漫游帧率一般为20-60帧/s，由表2可知，当视频摄像头数量大于5时，在三维GIS场景动态更新漫游时，对标方法的融合帧率均低于20帧/s，低于正常的漫游速率，当摄像头为10个时，对标方法融合帧率仅为10帧/s；而本发明方法直至在摄像头数量达到10时，其融合帧率为20帧/s，与正常漫游帧率相等，可见本发明方法相较于对标方法，可高效适用于三维GIS场景中不超于10个视频摄像头的情况。

为更直观的显示本发明方法的优越性，将对标方法与本发明方法在漫游(漫游环视某6个摄像头的区域)过程固定时刻的融合效果进行可视化对比。在同一时刻下，相比对标方法，本发明方法可更快地进行视频与三维GIS场景的融合，本发明方法可对三维GIS场景中的6个视频摄像头完成虚实融合，而对标方法仅完成了3个视频与三维场景的融合，充分证明了本发明方法在融合效率的优越性。

上述两个对比表均证明了在正常路径漫游时，本发明方法在遍历筛选融合对象及整体融合效率均显著优于对标方法，这主要是由于在正常漫游过程中，三维场景的变化是具有连续性和过渡性，新三维场景相比上一帧场景会有比较多的重复对象，使得新增加需要处理的对象较少，因此本发明方法效率更高。但若用户突然转换视角，新场景下大多数渲染对象都是新加入场景可见范围的，为验证本发明方法在极端情况的稳健性，选取具有5个摄像头的区域对融合耗时进行对比，结果如表3(极端情况下融合耗时统计对比)所示。

表3

由表3可知，即使在出现视角骤变的极端情况，场景中需更新的对象与场景中对象数量相似，本发明方法在融合对象筛选及融合总耗时上仍略优于对标方法，充分证明了本发明方法在视频与三维GIS融合的稳健性。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种多路视频与三维GIS场景的融合方法，通过建立视频与三维场景的拓扑信息，能够有效提高融合对象快速定位及其融合效率，适用多个(超过4-5个)视频的三维场景虚拟融合。即使在出现视角骤变的极端情况，场景中需更新的对象与场景中对象数量相似的情况下，本方法在融合对象筛选及融合总耗时上仍略优于原方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种多路视频与三维GIS场景的融合方法，其特征在于：包括如下步骤，

S4、建立场景中各视频图层下所有视频对象的R树索引信息；

2.根据权利要求1所述的多路视频与三维GIS场景的融合方法，其特征在于：步骤S1中所述视频对象的数据结构包括位置、姿态、可见范围、位于视野范围内的最新帧数、视频几何体对象、渲染对象与视频对象的空间拓扑关系以及拓扑相交的渲染对象集。

3.根据权利要求1所述的多路视频与三维GIS场景的融合方法，其特征在于：步骤S6中，判断视频对象是否为首次进入可见范围内，通过判断视频对象的帧数参数的数值是否为零来确定；若视频对象的帧数参数的数值为零，则表示该视频对象首次进入可见范围；若视频对象的帧数参数的数值不为零，则表示该视频对象非首次进入可见范围。

4.根据权利要求1所述的多路视频与三维GIS场景的融合方法，其特征在于：步骤S7包括两种情况，

5.根据权利要求4所述的多路视频与三维GIS场景的融合方法，其特征在于：所述A1中，对于新调度进入内存的渲染对象，在进行调度时通过拓扑信息更新监视机制，依次判断渲染对象外包围盒与可见视频对象的凸多边形的空间关系，并记录下拓扑类型；若渲染对象被包含于某视频对象内，那么可见视频对象列表中与该视频对象相离的视频对象不包含此渲染对象。

6.根据权利要求4所述的多路视频与三维GIS场景的融合方法，其特征在于：所述A2中，对于已经存在于内存的渲染对象，将新进入可见范围的视频对象与可见视频对象列表中的所有其他视频对象逐一拓扑判断，将与新进入可见范围视频对象相离的可见视频对象中所包含的渲染对象进行排除，剩余的渲染对象再逐一与新进入可见范围的视频对象建立拓扑关系。

7.根据权利要求1所述的多路视频与三维GIS场景的融合方法，其特征在于：步骤S8中，分情况处理具体包括如下两种情况，