CN118694910B

CN118694910B - 用于三维场景的视频融合方法、装置、系统、设备及介质

Info

Publication number: CN118694910B
Application number: CN202411187268.0A
Authority: CN
Inventors: 李子栋; 李仕杰; 孙浩然; 高炜轩; 刘翔宇
Original assignee: China Telecom Digital City Technology Co ltd
Current assignee: China Telecom Digital City Technology Co ltd
Priority date: 2024-08-28
Filing date: 2024-08-28
Publication date: 2024-11-05
Anticipated expiration: 2044-08-28
Also published as: CN118694910A

Abstract

本发明提供了一种用于三维场景的视频融合方法、装置、系统、设备及介质，涉及视频处理的技术领域，该方法包括：获取视频流每帧的图像数据和采集设备的实时参数信息；对所述图像数据进行预处理，得到纹理图像；设置所述视频流在UE客户端显示的三维场景中对应的相机视口，并基于所述经纬度、所述高度和所述旋转角度，确定所述相机视口的缩放值；基于所述相机视口的缩放值，确定UV映射；基于所述UV映射，将所述纹理图像与三维场景融合，从而实现动态视频监控流与三维场景中三维模型的实时交互与融合，提升了可视化效果和用户体验。

Description

用于三维场景的视频融合方法、装置、系统、设备及介质

技术领域

本发明涉及视频处理的技术领域，尤其是涉及一种用于三维场景的视频融合方法、装置、系统、设备及介质。

背景技术

随着智慧城市和元宇宙等前沿概念的快速发展，城市管理与服务方式正经历着深刻的变革。智慧城市的建设依赖于大数据、物联网、云计算、人工智能等先进技术的集成应用，而元宇宙作为新兴的数字空间，为城市治理提供了新的视角和工具。在这样的背景下，将城市监控视频流与三维孪生场景相结合，成为了提升城市管理效率、增强城市感知能力的重要手段。

传统方法中，城市监控视频流主要通过简单的坐标转换方式嵌入到三维场景中，实现基本的视频显示功能。然而，这种方法存在明显的局限性：一方面，二维监控视频与三维场景的简单叠加，无法充分利用三维场景的直观性和立体感，导致用户在观察监控画面时缺乏深度感知；另一方面，随着无人机等新型监控设备的广泛应用，传统方法难以适应实时、动态的视频流传输需求，无法实现高效、精准的视频融合。

发明内容

本发明的目的在于提供一种用于三维场景的视频融合方法、装置、系统、设备及介质，以解决了现有技术中存在的无法将运动中的监控视频流融合到三维场景中进行流场演示的技术问题。

第一方面，本发明实施例提供了一种用于三维场景的视频融合方法，包括：

获取视频流每帧的图像数据和采集设备的实时参数信息，采集设备用于采集视频流，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度；

对图像数据进行预处理，得到纹理图像；

设置视频流在UE客户端显示的三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；

基于相机视口的缩放值，确定UV映射；

基于UV映射，将纹理图像与三维场景融合。

在可选的实施例中，对图像数据进行预处理，包括：

将图像数据的格式解码为RGB格式；

将解码后的图像数据进行排序。

在可选的实施例中，设置视频流在三维场景中对应的相机视口，包括：

基于经纬度和高度，确定采集设备在三维场景中的位置；

根据采集设备在三维场景中的位置，设置相机视口；

基于旋转角度，调整相机视口的朝向。

在可选的实施例中，基于经纬度、高度和旋转角度，确定相机视口的缩放值：

通过如下缩放公式，确定相机视口的缩放值：

式中，FOV为相机的视场，FPD为远焦距，AR为分辨率横纵比。

在可选的实施例中，基于相机视口的缩放值，确定UV映射，包括：

获取场景深度值和像素深度；

基于场景深度值、像素深度值和相机视口的缩放值，得到模型深度信息；

基于模型深度信息和相对方向向量，得到UV映射，相对方向为相机视口位置到地面位置之间每个像素点的方向向量。

在可选的实施例中，基于UV映射，将纹理图像与三维场景融合，包括：

基于模型深度信息和UV映射，生成纹理图像所对应的深度图，并将深度图与三维场景融合。

第二方面，本发明实施例提供了一种用于三维场景的视频融合装置，包括：

获取模块，用于获取视频流每帧的图像数据和采集设备的实时参数信息，采集设备用于采集视频流，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度；

预处理模块，用于对图像数据进行预处理，得到纹理图像；

设置模块，用于设置视频流在UE客户端显示的三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；

UV模块，用于基于相机视口的缩放值，确定UV映射；

融合模块，用于基于UV映射，将纹理图像与三维场景融合。

第三方面，本发明实施例提供了一种用于三维场景的视频融合系统，包括：UE客户端和采集设备，所述采集设备与所述UE客户端连接；

采集设备用于采集监控的视频流；

UE客户端用于获取视频流每帧的图像数据和采集设备的实时参数信息，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度；对图像数据进行预处理，得到纹理图像；设置视频流在UE客户端显示的三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合。

第四方面，本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，所述处理器执行计算机程序时实现如第一方面中任一项方法的步骤。

第五方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如第一方面中任一项方法的步骤。

本发明提供的一种用于三维场景的视频融合方法、装置、系统、设备及介质，通过获取视频流每帧的图像数据和采集设备的实时参数信息；对图像数据进行预处理，得到纹理图像；设置视频流在三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合，从而实现动态视频监控流与三维场景中三维模型的实时交互与融合，提升了可视化效果和用户体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于三维场景的视频融合方法的流程示意图；

图2为本发明实施例提供的视频融合后的示意图；

图3为本发明实施例提供的一种用于三维场景的视频融合装置的结构示意图；

图4为本发明实施例提供的一种用于三维场景的视频融合系统的结构示意图；

图5为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于对本申请实施例的理解，以下对本申请中出现的名称进行解释：

三维场景为三维场景，UE（Unreal Engine，虚幻引擎）提供了一个全面的开发环境，包括强大的渲染引擎、物理引擎、粒子系统、动画工具、音频系统等，以及一个直观的编辑器，允许开发者创建高质量的三维场景、角色、动画和交互性内容。

RGB为彩色图像记录的格式。RGB色彩模式是工业界的一种颜色标准，是通过对红（R）、绿（G）、蓝（B）三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是运用最广的颜色系统之一。

YUV是一种颜色编码方法，在YUV格式中，颜色信息被分离为亮度（Y）和色度（U、V）两个参量，这种分离方式使得YUV在视频压缩和传输方面具有优势。

RTSP（Real Time Streaming Protocol）是一种用于实现实时流媒体传输与播放的控制协议，由Real Network和Netscape共同提出，并遵循IETF RFC 2326规范。

UV：UV坐标是指所有的图像文件都是二维的一个平面，水平方向时U，垂直方向时V，通过这个平面的二维的UV坐标系，可以定位图像上的任意一个像素，其中UV坐标是三维计算机图形学中用于将二维图像（纹理）映射到三维模型表面的一种坐标系统，在纹理映射过程中，UV坐标定义了三维模型表面上每个点如何与纹理图像中的像素相对应。

着色器，是用来实现图像渲染的，用来替代固定渲染管线的可编辑程序。其中Vertex Shader（顶点着色器）主要负责顶点的几何关系等的运算，Pixel Shader（像素着色器）主要负责片元颜色等的计算。着色器替代了传统的固定渲染管线，可以实现3D图形学计算中的相关计算，由于其可编辑性，可以实现各种各样的图像效果而不用受显卡的固定渲染管线限制。

现在技术已对监控视频与三维场景的融合方式进行改进，例如，通过UV展开和Decal投影的方式，可提升三维场景中监控视频的直观性和立体感。然而，该方案仍面临动态视频流调整不足的问题，无法满足无人机等移动监控设备传输的实时视频流与UE三维场景的无缝融合需求；或是主要依赖于激光测绘仪器进行相对位置信息的测量，这种方法虽然精确但成本较高，且难以适应实时经纬度传输的场景变化，限制了其在实际应用中的灵活性和广泛性。基于此，本申请提供了一种用于三维场景的视频融合方法、装置、系统、设备及介质，通过获取视频流每帧的图像数据和采集设备的实时参数信息；对图像数据进行预处理，得到纹理图像；设置视频流在三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合，又体现出了三维场景的直观性和立体感，以及解决了实际应用场景的限制。

图1为本申请实施例提供的一种用于三维场景的视频融合方法的流程示意图，该方法的执行主体为具有UE引擎功能的UE客户端，UE客户端与采集设备连接，采集设备用于采集视频监控流。如图1所示，该方法包括：

步骤S110、获取视频流每帧的图像数据和采集设备的实时参数信息，采集设备用于采集视频流，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度。

其中，通过循环或事件驱动的方式，从视频流中逐帧读取数据，并解析读取数据以提取出每一帧的图像数据。

通过采集设备将实时参数信息传输至UE客户端，其中实时参数信息包括采集设备的经纬度、采集设备距离地面的高度、视频流所对应的旋转角和采集设备的视场、远焦距和近焦距等实时参数信息。

步骤S120、对图像数据进行预处理，得到纹理图像。

在一种可能的实施例中，步骤S120中包括：

将图像数据的格式解码为RGB格式；

将解码后的图像数据进行排序。

其中，从视频流中获取的图像数据的格式为YUV格式，其中YUV中Y为明亮度，U和V为表示色度，用于指定像素颜色，描述图片饱和度和色彩，为了实现更加真实、丰富的视觉体验和呈现效果，将图像数据的YUV格式解码为RGB格式，解码后的图像为纹理图像。

本申请中通过下述变换公式将YUV格式数据转为RGB格式：

根据YUV与RGB的变换公式，逐像素访问图像数据中的每个点，即可将YUV图像转换成RGB图像，将图像数据的YUV格式转换为RGB格式的过程为对图像数据的格式进行解码。

进一步，将解码后的图像数据，按照编号进行排序，并根据编号将图像数据映射到所对应的视频流上，并设置图像数据的纹理，从而得到视频流每帧所对应的纹理图像。

通过将YUV格式的图像数据转换为RGB格式的纹理图像，实现图像色彩再现的精准提升，从而赋予用户更加真实、丰富的视觉体验，并优化图像在显示屏或其他显示设备的呈现效果，以及通过变换公式能够高效完成格式转换，减少解码过程中的时间，进而提高数据处理的速度和效率。

步骤S130、设置视频流在UE客户端显示的三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值。

在一种可能的实施例中，步骤S130中，设置视频流在三维场景中对应的相机视口，包括：

基于经纬度和高度，确定采集设备在UE客户端显示的三维场景中的位置；

根据采集设备在UE客户端显示的三维场景中的位置，设置相机视口；

基于旋转角度，调整相机视口的朝向。

具体的，将采集设备的经纬度和高度转换为三维场景中的三维坐标，也就是将地理坐标转换为场景实际坐标，从而确保视频流中的内容与三维场景中的虚拟环境在地理位置上保持一致。通常将地理坐标点映射到三维空间中的一点，可以通过地理坐标系统到三维笛卡尔坐标系统的转换来实现。

进一步，将地理坐标转换为场景实际坐标后，由于三维场景通常使用自己的坐标系，原点、X轴、Y轴和Z轴的定义可能与地理坐标系统不同，因此，在将经纬度和高度转换三维坐标后，还需根据三维场景的坐标系进行调整。一般情况下，三维场景的坐标系与地理坐标系相同。

在场景实际坐标的前方设置一个相机视口，该相机视口用于模拟采集设备的视角，可以通过相机视口能够观察到视频流中的内容。

基于采集设备的旋转角度，将相机视口调整至正确的朝向，以便于模拟采集设备的视角，从而确保视频流在三维场景中显示时，其视角与采集设备实际拍摄时的视角一致。

在一种可能的实施例中，步骤S130中，基于经纬度、高度和旋转角度，确定相机视口的缩放值，包括：

通过如下缩放公式，确定相机视口的缩放值：

式中，FOV为相机的视场，FPD为远焦距，AR为分辨率横纵比。

进一步，缩放公式中值为场景内X轴方向缩放；值为场景内Y轴方向缩放；值为场景内Z轴方向缩放，其中，X轴为与二维图像的X轴平行，即水平方向，Y轴为与二维图像的Y轴平行即竖直方向，Z轴为与二维图像平面垂直的方向。

在本申请人，以无人机飞行拍摄为例，首先无人机实时传输经纬度、无人机距离地面的高度和旋转角度以及无人机上的投影相机的视场、远焦距和近焦距等参数给UE客户端，UE客户端的UE引擎将经纬度转换为场景实际坐标。在UE客户端的三维场景中，根据经纬度和高度，确定无人机在三维场景的位置，并在该位置的前方设置一个相机视口，该相机视口为一个长宽高分别为2、2和1的正四棱锥作为场景透视视角（相机视口），顶点位置是无人机位置，由于正四棱锥符合相机广角的形状，因此，选用正四棱锥，并给正四棱锥进行缩放，其缩放大小为：

正四棱锥与三维场景中地面重合的部分即为无人机传送的视频投影到三维场景中的部分。

然后在通过三维场景内的场景捕获组件，基于无人机上的投影相机的视场、远焦距和近焦距等参数设置相机视口对应的相应的相机视口参数，如视场、近焦距、远焦距和动态创建的深度贴等。

步骤S140、基于相机视口的缩放值，确定UV映射；

在一种可能的实施例中，步骤S140，基于相机视口的缩放值，确定UV映射，包括：

获取场景深度值和像素深度；

其中，场景深度值为采集设备到场景中某个点的实际距离，该距离可以通过图形渲染的深度缓冲区获得或是在渲染之前通过几何计算得到，场景深度是在任何位置采样深度。

像素深度为在渲染图像中，每个像素所代表的场景深度信息，像素深度是在当前绘制的像素上采样深度。

模型深度信息为：

式中，Va为将y向量值从相对坐标系转换到世界坐标系的法线乘上无人机的高度；Vb为场景深度除以像素深度，乘上绝对世界坐标减去相机世界坐标，得出的结果加上相机在三维场景中的位置；Vc为将x向量值从相对坐标系转换到世界坐标系的向量用顶点迭代器输出向量；Vd为将z向量值从相对坐标系转换到世界坐标系的法线用顶点迭代器输出向量，其中y向量值为缩放公式中Y轴方向的向量值，x向量值为缩放公式中X轴方向的向量值，z向量值为缩放公式中Z轴方向的向量值。

在一种可能的实施例中，在本申请中，将向量转换为相对坐标得到模型的UV，其中100可根据在三维场景内的投影大小进行调整。

相对坐标系为物体的相对坐标，世界坐标系为物体在场景中的坐标，例如，物体中有100个点，其中一个点的坐标为（0,0,100），该坐标为相对坐标，将物体放置于场景中，场景坐标为（100,0,0），则这个点的世界坐标就是（100,0,100）。

步骤S150、基于UV映射，将纹理图像与三维场景融合。

在一种可能的实施例中，步骤S150中，基于UV映射，将纹理图像与三维场景融合，包括：

具体的，首先，通过模型深度信息和UV映射作为输入，其中模型深度信息是从相机到三维模型表面上每个点的距离，UV映射是这些点在纹理图像上的对应位置。根据模型深度信息和UV映射，得到纹理图像所对应的深度图，该深度图中配置有对应的深度值，该深度值通常是一个标量，表示点到相机的距离。

进一步，对深度图中配置对应的深度值，可通过着色器根据UV映射和深度信息计算出每个像素点的自发光颜色。

然后，将深度图应用到三维模型的自发光材质中，从而完成纹理图像与三维场景的融合，如图2所示。

本申请中，通过获取视频流每帧的图像数据和采集设备的实时参数信息，基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合，从而实现动态视频监控流与三维场景中三维模型的实时交互与融合，提升了可视化效果和用户体验。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图3为本申请实施例提供的一种用于三维场景的视频融合装置的结构示意图，如图3所示，该装置包括：

获取模块210，用于获取视频流每帧的图像数据和采集设备的实时参数信息，采集设备用于采集视频流，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度；

预处理模块220，用于对图像数据进行预处理，得到纹理图像；

设置模块230，用于设置视频流在三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；

UV模块240，用于基于相机视口的缩放值，确定UV映射；

融合模块250，用于基于UV映射，将纹理图像与三维场景融合。

在一种可能的实施例中，预处理模块220还用于：

将图像数据的格式解码为RGB格式；

将解码后的图像数据进行排序。

在一种可能的实施例中，设置模块230还用于：

基于经纬度和高度，确定采集设备在三维场景中的位置；

根据采集设备在三维场景中的位置，设置相机视口；

基于旋转角度，调整相机视口的朝向。

在一种可能的实施例中，设置模块230还用于：

通过如下缩放公式，确定相机视口的缩放值：

式中，FOV为相机的视场，FPD为远焦距，AR为分辨率横纵比。

在一种可能的实施例中，UV模块240还用于：

获取场景深度值和像素深度；

在一种可能的实施例中，融合模块250还用于：

图4为本发明实施例提供的一种用于三维场景的视频融合系统的结构示意图，如图4所示，该装置包括UE客户端300和采集设备310，采集设备与UE客户端连接；采集设备用于采集监控的视频流；UE客户端用于获取视频流每帧的图像数据和采集设备的实时参数信息，实时参数信息包括经纬度、采集设备距离地面的高度以及采集设备的旋转角度；对图像数据进行预处理，得到纹理图像；设置视频流在三维场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合。

所述为本公开系统实施例，可以用于执行本公开方法实施例。对于本公开系统实施例中未披露的细节，请参照本公开方法实施例。

下面参考图5，其示出了适于用来实现本公开的一些实施例的电子设备400的结构示意图。图5示出的服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备400可以包括处理装置（例如中央处理器、图形处理器等）401，其可以根据存储在只读存储器（ROM）402中的程序或者从存储装置408加载到随机访问存储器（RAM）403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取视频流每帧的图像数据和采集设备的实时参数信息；对图像数据进行预处理，得到纹理图像；设置视频流在UE场景中对应的相机视口，并基于经纬度、高度和旋转角度，确定相机视口的缩放值；基于相机视口的缩放值，确定UV映射；基于UV映射，将纹理图像与三维场景融合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、预处理模块、设置模块、UV模块和融合模块。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取模块，还可以被描述为“获取视频流每帧的图像数据和采集设备的实时参数信息”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于三维场景的视频融合方法，其特征在于，包括：

获取视频流每帧的图像数据和采集设备的实时参数信息，所述采集设备用于采集所述视频流，所述实时参数信息包括经纬度、所述采集设备距离地面的高度以及所述采集设备的旋转角度；

对所述图像数据进行预处理，得到纹理图像；

设置所述视频流在UE客户端显示的三维场景中对应的相机视口，并基于所述经纬度、所述高度和所述旋转角度，确定所述相机视口的缩放值；其中，设置所述视频流在UE客户端显示的三维场景中对应的相机视口，包括：基于所述经纬度和所述高度，确定所述采集设备在三维场景中的位置；根据所述采集设备在三维场景中的位置，设置所述相机视口；基于所述旋转角度，调整所述相机视口的朝向；以及通过如下缩放公式，确定所述相机视口的缩放值：

式中，FOV为相机的视场，FPD为远焦距，AR为分辨率横纵比，其中，值为三维场景内X轴方向缩放、值为三维场景内Y轴方向缩放和FPD值为三维场景内Z轴方向缩放；

基于所述相机视口的缩放值，确定UV映射，其中，通过获取场景深度值和像素深度值；基于所述场景深度值、所述像素深度值和所述相机视口的缩放值，得到模型深度信息；基于所述模型深度信息和相对方向向量，得到UV映射，其中，所述相对方向为所述相机视口的位置到地面位置之间每个像素点的方向向量；所述场景深度值为采集设备到场景中某个点的实际距离；所述像素深度值为在渲染图像中，每个像素所代表的场景深度信息；所述模型深度信息为：

式中，Va为将y向量值从相对坐标系转换到世界坐标系的法线乘上无人机的高度；Vb为场景深度除以像素深度，乘上绝对世界坐标减去相机的世界坐标，得出的结果加上相机在三维场景中的位置；Vc为将x向量值从相对坐标系转换到世界坐标系的向量用顶点迭代器输出向量；Vd为将z向量值从相对坐标系转换到世界坐标系的法线用顶点迭代器输出向量，其中，y向量值为缩放公式中Y轴方向的向量值，x向量值为缩放公式中X轴方向的向量值，z向量值为缩放公式中Z轴方向的向量值；所述相对坐标系为物体的相对坐标，所述世界坐标系为物体在三维场景中的坐标；

基于所述UV映射，将所述纹理图像与三维场景融合。

2.根据权利要求1所述的方法，其特征在于，对所述图像数据进行预处理，包括：

将图像数据的格式解码为RGB格式；

将解码后的图像数据进行排序。

3.根据权利要求1所述的方法，其特征在于，基于所述UV映射，将所述纹理图像与三维场景融合，包括：

基于模型深度信息和UV映射，生成所述纹理图像所对应的深度图，并将所述深度图与三维场景融合。

4.一种用于三维场景的视频融合装置，其特征在于，包括：

获取模块，用于获取视频流每帧的图像数据和采集设备的实时参数信息，所述采集设备用于采集所述视频流，所述实时参数信息包括经纬度、所述采集设备距离地面的高度以及所述采集设备的旋转角度；

预处理模块，用于对所述图像数据进行预处理，得到纹理图像；

设置模块，用于设置所述视频流在UE客户端显示的三维场景中对应的相机视口，并基于所述经纬度、所述高度和所述旋转角度，确定所述相机视口的缩放值；其中，设置所述视频流在UE客户端显示的三维场景中对应的相机视口，包括：基于所述经纬度和所述高度，确定所述采集设备在三维场景中的位置；根据所述采集设备在三维场景中的位置，设置所述相机视口；基于所述旋转角度，调整所述相机视口的朝向；以及通过如下缩放公式，确定所述相机视口的缩放值：

UV模块，用于基于所述相机视口的缩放值，确定UV映射；其中，通过获取场景深度值和像素深度值；基于所述场景深度值、所述像素深度值和所述相机视口的缩放值，得到模型深度信息；基于所述模型深度信息和相对方向向量，得到UV映射，其中，所述相对方向为所述相机视口的位置到地面位置之间每个像素点的方向向量；所述场景深度值为采集设备到场景中某个点的实际距离；所述像素深度值为在渲染图像中，每个像素所代表的场景深度信息；所述模型深度信息为：

融合模块，用于基于所述UV映射，将所述纹理图像与三维场景融合。

5.一种用于三维场景的视频融合系统，其特征在于，包括：采集设备和UE客户端，所述采集设备与所述UE客户端连接；

所述采集设备用于采集监控的视频流；

所述UE客户端用于获取视频流每帧的图像数据和采集设备的实时参数信息，所述实时参数信息包括经纬度、所述采集设备距离地面的高度以及所述采集设备的旋转角度；对所述图像数据进行预处理，得到纹理图像；设置所述视频流在UE客户端显示的三维场景中对应的相机视口，并基于所述经纬度、所述高度和所述旋转角度，确定所述相机视口的缩放值；其中，设置所述视频流在UE客户端显示的三维场景中对应的相机视口，包括：基于所述经纬度和所述高度，确定所述采集设备在三维场景中的位置；根据所述采集设备在三维场景中的位置，设置所述相机视口；基于所述旋转角度，调整所述相机视口的朝向；以及通过如下缩放公式，确定所述相机视口的缩放值：

式中，FOV为相机的视场，FPD为远焦距，AR为分辨率横纵比，其中，值为三维场景内X轴方向缩放、值为三维场景内Y轴方向缩放和FPD值为三维场景内Z轴方向缩放；基于所述相机视口的缩放值，确定UV映射；其中，通过获取场景深度值和像素深度值；基于所述场景深度值、所述像素深度值和所述相机视口的缩放值，得到模型深度信息；基于所述模型深度信息和相对方向向量，得到UV映射，其中，所述相对方向为所述相机视口的位置到地面位置之间每个像素点的方向向量；所述场景深度值为采集设备到场景中某个点的实际距离；所述像素深度值为在渲染图像中，每个像素所代表的场景深度信息；所述模型深度信息为：

式中，Va为将y向量值从相对坐标系转换到世界坐标系的法线乘上无人机的高度；Vb为场景深度除以像素深度，乘上绝对世界坐标减去相机的世界坐标，得出的结果加上相机在三维场景中的位置；Vc为将x向量值从相对坐标系转换到世界坐标系的向量用顶点迭代器输出向量；Vd为将z向量值从相对坐标系转换到世界坐标系的法线用顶点迭代器输出向量，其中，y向量值为缩放公式中Y轴方向的向量值，x向量值为缩放公式中X轴方向的向量值，z向量值为缩放公式中Z轴方向的向量值；所述相对坐标系为物体的相对坐标，所述世界坐标系为物体在三维场景中的坐标；基于所述UV映射，将所述纹理图像与三维场景融合。

6.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述方法的步骤。