CN117560578A

CN117560578A - 基于三维场景渲染且视点无关的多路视频融合方法及系统

Info

Publication number: CN117560578A
Application number: CN202410043857.5A
Authority: CN
Inventors: 陈国银; 彭爱峰; 吕科
Original assignee: Beijing Ruicheng Times Information Technology Co ltd
Current assignee: Beijing Ruicheng Times Information Technology Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-02-13
Anticipated expiration: 2044-01-12
Also published as: CN117560578B

Abstract

本申请公开了一种基于三维场景渲染且视点无关的多路视频融合方法及系统，包括：根据输入的三维模型数据源进行三维模型渲染；以及对接入的多路视频流进行解码，以获取多路视频流同一时间点的帧画面；基于各路摄像头相关信息，构建各路摄像头的透视投影视锥体，并计算所述透视投影视锥体的视图矩阵和投影矩阵；根据各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息；基于构建的深度图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合。本申请能够解决不同视角下视频帧画面融合效果形变的问题。

Description

基于三维场景渲染且视点无关的多路视频融合方法及系统

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于三维场景渲染且视点无关的多路视频融合方法及系统。

背景技术

当前三维场景和多路视频融合方案如下，将接入的多路视频流解码获取同一时间片视频的多张画面图片，使用计算多路摄像头平均位置、姿态信息计算出固定观察视点的虚拟摄像头位置，然后通过图像处理技术进行叠加区域的图片融合然后在编码形成视频流后输出到点云、倾斜摄影等基于本地三维模型文件渲染的三维场景中，三维场景中拿到视频进行二次解码，获取图片后结合模型渲染技术进行场景融合。

现有技术主要存在如下技术问题：

（1）使用固定的观察视点参数计算视频帧画面融合的参数进行图片融合，这样就导致浏览在三维场景时不同观察视角下视频帧画面和模型融合的角度出现一定的拉伸或者其它形变。

（2）降低三维场景中融合后视频的时效性

当前方案整个流程需要多次视频的编解码和复杂的图像处理融合技术，技术链路长且复杂，导致融合效率底下、融合到场景中的视频延时长，实时性不高。

（3）增加硬件成本

需要为融合环节中多次的视频编解码环节和复杂的图像处理技术环节提供额外的硬件配置支持，无法充分利用当前三维场景渲染端的硬件能力。

（4）不支持目前通用标准的三维模型数据服务类型（3DTiles、S3MB、I3S）的模型融合。目前对数据安全管理和信息的保密要求越来越高，导致数据生产供应商不在以提供本地模型的形式提供模型给可视化平台厂商，这就导致现有基于文件模型的方案没有办法使用。

（5）不支持建筑领域BIM模型数据和工业领域的PIM模型数据的融合。随着跨行业的业务扩展，数字孪生、元宇宙等行业对三维可视化平台的多元异构数据的融合呈现要求越来越高，传统的基于GIS类倾斜摄影或者人工建模或者点云数据的视频融合方案已经无法满足业务需求。

发明内容

本申请实施例提供一种基于三维场景渲染且视点无关的多路视频融合方法及系统，用以只对视频流解码一次，结合模型和帧画面根据主相机和摄像头信息根据自定义融合算法替代图像处理环节，用于提升效率、提高硬件使用率、解决不同视角下视频帧画面融合效果形变的问题。

本申请实施例提供一种基于三维场景渲染且视点无关的多路视频融合方法，包括如下步骤：

根据输入的三维模型数据源进行三维模型渲染；以及

对接入的多路视频流进行解码，以获取多路视频流同一时间点的帧画面；

基于各路摄像头相关信息，构建各路摄像头的透视投影视锥体；

基于各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息，其中所述深度图信息包括各路摄像头的位置和其投影视锥体平面各个像素构建的射线和场景相交的点距离和位置，所述法线图信息包括每个像素点法线信息；

基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合。

可选的，根据屏幕显示分辨率，以及所述透视投影视锥体在世界坐标系下的视图矩阵和投影矩阵，构建深度图信息包括：

根据屏幕显示分辨率，构建从各路摄像头的位置和其投影视锥体平面各个像素点，并将各像素坐标转换到世界坐标系下。

可选的，将各像素坐标转换到世界坐标系下包括：

基于屏幕坐标、世界矩阵、所述视图矩阵以及所述投影矩阵计算出转换矩阵，将屏幕坐标系转换到NDC空间坐标系；

基于所述转换矩阵、逆投影矩阵、逆视图矩阵，将NDC空间坐标系转换到世界坐标系。

可选的，基于各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息还包括：

根据统一的世界坐标系，对摄像头位置指向各像素的位置方向构建一条射线，以计算与所述三维模型渲染中第一个模型相交位置的距离和位置信息；

根据各像素计算的距离和位置信息取周围临近点构成的两个相交的线段，以计算各像素的法线信息。

可选的，基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合包括：

根据屏幕坐标和主相机的深度图信息，将像素转换到世界坐标系后、再转换到摄像头坐标系下的平面投影坐标；

根据转换后的屏幕平面投影坐标，在各摄像头构建的透视投影视锥体范围内的进行融合，以及将范围外的像素点剔除。

在同一的世界坐标系下，分别计算各像素到各摄像头的角度；

根据深度图信息，确定每个像素的法线信息；

分别基于各像素点的位置和摄像头的位置构建一条射线；

利用射线和像素的法线计算两条直线的夹角，以确定距离该像素最近的摄像头位置。

可选的，基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合还包括：

获取当前像素在世界坐标系下的当前像素在该摄像头下的齐次裁剪空间坐标系下的坐标；

经过透视除法转换到NDC空间坐标系，再从NDC空间坐转成纹理坐标；

遍历除自身外所有其它的摄像头，若计算出的像素坐标范围均不在纹理坐标区间，则放弃从最短距离所识别的摄像头，而利用该像素自身所在的摄像头下进行纹理采样；

若计算出的像素坐标范围在距离最短摄像头范围内，则直接根据像素纹理坐标在该摄像头当前时间点帧画面中采样对应位置的纹理。

本申请实施例还提出一种基于三维场景渲染的多路视频融合系统，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的基于三维场景渲染的多路视频融合方法的步骤。

本申请实施例的方法能够只对视频流解码一次，结合模型和帧画面根据主相机和摄像头信息根据自定义融合算法替代图像处理环节，用于提升效率、提高硬件使用率、解决不同视角下视频帧画面融合效果形变的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例的基于三维场景渲染的多路视频融合方法的基本流程示意；

图2为本申请实施例的基于三维场景渲染的多路视频融合方法的整体流程示意。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

与本申请相关内容：

（1）视点无关：视点是观察者对于被观察物的相对位置，视点无关是观察者的位置和姿态不固定。

（2）视频融合：针对监控摄像头或者本地视频文件，将多个相互之间画面有重叠的视频流拼接成一路完整的全景视频。即通过视频拼接、融合技术，对有重叠区域的多路视频流数据，利用拼接和融合算法进行无缝实时计算，消除重叠区域形成宽角度、大视场图像。

（3）三维模型渲染：根据《城市信息模型（CIM）基础平台技术导则》，目前数字孪生、元宇宙等三维可视化信息平台的建设和建筑领域的BIM模型、工业设计领域的PIM模型数据、GIS领域的倾斜摄影以及点云、人工建模等三维模型数据的结合密不可分。随着对信息和数据安全存储以及三维大模型场景渲染效率的要求，不仅需要渲染以本地文件形式存储的各位模型数据，更要兼容国内标准的S3M、S3MB以及国际标准的3DTiles和I3S的三维模型数据服务的渲染，从而做到支持各种类型的三维模型数据展示更好的满足业务展示、数据管理等需求。

（4）三维场景与视频融合：把场景中加载的各种类型的三维模型数据和多路物理世界中摄像头拍摄的视频画面融合，从而提升基于虚拟仿真技术的三维可视化新消息平台的还原现实物理世界的能力。

本申请实施例提供一种基于三维场景渲染的多路视频融合方法，主要包括如下环节：模型渲染、视频流解码、构建透视投影视锥体、构建深度图信息、视频帧画面融合，其中：

模型渲染环节：是把模型加载到三维场景中用于模型展示和后续构建深度图。

视频流解码环节：把多路视频流帧画面解码，并获取没路视频同一时间点的图像用于和场景融合。

构建透视投影视锥体：通过输出的摄像头位置、姿态、水平张角、垂直张角信息构建世界坐标系下的透视视锥体用于计算构建深度图所需的参数。

构建深度图信息：深度图信息包含在世界坐标系下摄像头到每个像素的距离以及每个像素的法线信息。

视频帧画面融合：根据屏幕坐标和主相机的深度图信息，把屏幕像素转化到摄像头坐标系下的平面投影坐标。转换后像素坐标在投影范围内的进行融合，在范围外的像素点直接剔除掉。

本申请实施例以上环节除“视频帧画面融合”在GPU上进行外，其环节节均可在CPU上进行。

具体的，如图1、图2所示，本申请实施例的多路视频融合方法，包括如下步骤：

在步骤S101中，根据输入的三维模型数据源进行三维模型渲染，一些实施例中，可以输入三维模型数据源、视频流数据、摄像头位置、姿态、张角数据，并模型加载：调用平台封装模型加载和渲染的相关API触发模型加载。

在步骤S102中，对接入的多路视频流进行解码，以获取多路视频流同一时间点的帧画面。视频解码，调用视频流解码API获取多路视频流同一时间点的帧画面。

在步骤S103中，基于各路摄像头相关信息，构建各路摄像头的透视投影视锥体，并计算所述透视投影视锥体在世界坐标系下的视图矩阵和投影矩阵。

在步骤S104中，根据屏幕显示分辨率，并基于各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息，其中所述深度图信息包括各路摄像头的位置和其投影视锥体平面各个像素构建的射线和场景相交的点距离和位置，所述法线图信息包括每个像素点法线信息。

在步骤S105中，基于构建的深度图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合。

构建深度图信息环节是根据屏幕显示分辨率大小，构建一张从摄像头观察点在透视投影视锥体坐标系下投影出来的一张平台图。并把每个像素坐标统一转换到世界坐标系下。在一些实施例中，根据屏幕显示分辨率，并基于各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息包括：

在一些实施例中，将各像素坐标转换到世界坐标系下包括：

基于屏幕坐标、世界矩阵、所述视图矩阵以及所述投影矩阵计算出转换矩阵，例如转换矩阵=屏幕坐标*世界矩阵*视图矩阵*投影矩阵，将屏幕坐标系转换到NDC空间坐标系。

基于所述转换矩阵、逆投影矩阵、逆视图矩阵，例如转换矩阵*逆投影矩阵*逆视图矩阵，将NDC空间坐标系转换到世界坐标系。

在一些实施例中，根据屏幕显示分辨率，以及所述透视投影视锥体在世界坐标系下的视图矩阵和投影矩阵，构建深度图信息还包括：

根据统一的世界坐标系，对摄像头位置指向各像素的位置方向构建一条射线，以计算与所述三维模型渲染中第一个模型相交位置的距离和位置信息，本申请示例中构建的射线会在进行相交测试计算时，会和射线所指向的方向的物体都会相交，计算中会根据和射线相交的物体的距离进行排序，距离最小的即为第一个模型，例如人眼所看的方向，看到距离最近的物体。

根据各像素计算的距离和位置信息取周围临近点构成的平面，以计算各像素的法线信息。

三维模型和视频帧画面融合环节，首先进行像素剔除，用于确定在当前相机镜头下，需要在屏幕像素的哪些位置渲染视频融合的像素点。具体在一些实施例中，基于构建的深度图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合包括：

像素融合，根据步骤计算出需要融合的屏幕像素范围，然后结合主相机和每路像摄像头分别到每个像素点的角度信息，计算最佳融合系数并进行像素融合。在一些实施例中，基于构建的深度图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合包括：

在同一的世界坐标系下，分别计算各像素到各摄像头的角度，判断哪个摄像头距离当前像素最近，计算过程如下；

根据深度图信息，确定每个像素的法线信息；

分别基于各像素点的位置和摄像头的位置构建一条射线；

在一些实施例中，基于构建的深度图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合还包括：

经过透视除法转换到NDC空间坐标系[-1,1]，再从NDC空间坐转成纹理坐标[0,1]；

若计算出的像素坐标范围不在纹理坐标区间[0,1]，则放弃从最短距离所识别的摄像头，而利用该像素自身所在的摄像头下进行纹理采样；

相较于传统的三维场景视频融合方案需要先对融合的多路视频流做编解码和图像处理的环节，本申请实施例的方法直接在三维模型场景渲染的同时，基于场景主相机和摄像头的位置、姿态、水平、垂直张角信息，在CPU计算并构建多个透视投影，并且同时对接入多路视频流解码，将解码后的帧画面直接输出到显卡中用于后续GPU环节的融合算法。根据场景主相机、摄像头投影信息和模型渲染的三角网信息通过相交测试算法计算出后续融合需要的深度、角度、法线信息后输入到GPU运算环节。通过上述输入到GPU的信息，根据融合算法做图像的融合和三维场景的显示效果。从而实现只对视频流解码一次，并且结合模型和帧画面根据主相机和摄像头信息根据自定义融合算法替代图像处理环节，实现提升效率、提高硬件使用率、解决不同视角下视频帧画面融合效果形变的问题。

需要说明的是，在本申各实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本申请的保护之内。

Claims

1.一种基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，包括如下步骤：

根据输入的三维模型数据源进行三维模型渲染；以及

2.如权利要求1所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，根据屏幕显示分辨率，以及所述透视投影视锥体在世界坐标系下的视图矩阵和投影矩阵，构建深度图信息包括：

3.如权利要求2所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，将各像素坐标转换到世界坐标系下包括：

4.如权利要求3所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，基于各路摄像头和投影视锥体平面各个像素构建的射线和场景相交的位置，逐像素构建各路摄像头的深度图信息和法线图信息还包括：

5.如权利要求4所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合包括：

6.如权利要求5所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合包括：

根据深度图信息，确定每个像素的法线信息；

分别基于各像素点的位置和摄像头的位置构建一条射线；

7.如权利要求6所述的基于三维场景渲染且视点无关的多路视频融合方法，其特征在于，基于构建的深度图信息和法线图信息，将渲染的三维模型与多路视频流同一时间点的帧画面进行融合还包括：

8.一种基于三维场景渲染且视点无关的多路视频融合系统，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于三维场景渲染且视点无关的多路视频融合方法的步骤。