CN114173106B

CN114173106B - 基于光场相机的实时视频流融合处理方法与系统

Info

Publication number: CN114173106B
Application number: CN202111450033.2A
Authority: CN
Inventors: 袁潮; 温建伟; 邓迪旻
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-08-05
Anticipated expiration: 2041-12-01
Also published as: CN114173106A

Abstract

本发明提出基于光场相机的实时视频流融合处理方法与系统，属于视频监测与融合技术领域。方法包括如下步骤：S1：在第一角度下通过光场相机获取目标区域的第一视频图像信息；S2：在第二角度下通过光场相机获取目标区域的第二点云信息和第二视频图像信息；S3：根据第一视频图像信息对第二点云信息包含的目标对象进行体素化；S4：根据体素化的结果，融合第一视频图像信息和第二视频图像信息。系统包括视频采集子系统、点云生成子系统、体素化子系统以及视频融合子系统。本发明能够实现基于光场相机的实时视频流融合处理。

Description

基于光场相机的实时视频流融合处理方法与系统

技术领域

本发明属于视频监测与融合技术领域，尤其涉及一种基于光场相机的实时视频流融合处理方法与系统、实现所述方法的计算机终端设备以及存储介质。

背景技术

世界是三维的，但是传统照相机只能记录它某个二维平面上的信息。为了能够同时记录下光线的位置信息和方向信息，提出了光场成像技术。光场成像技术是对获得的光场数据(光场信息)进行计算处理，恢复三维世界的视觉信息，弥补了传统成像的不足。

光场成像把传统的成像过程划分为两个子过程，第一个过程是利用光场成像设备对光场信息进行采集，第二个过程是对采集到的光场信息进行处理，根据不同需求获得不同的图像效果。光场成像设备的一个典型例子就是光场相机。光场相机可记录成像空间中的光场信息,再对光场进行计算处理,能够实现数字对焦、景深延拓甚至像差校正等功能,与传统成像方式相比有很大优势。

随着技术的发展，由光场相机也可以实现视频的拍摄，获得具有多维光场信息的光场视频监控图像。例如，申请号为CN201310331566的中国发明专利申请提出一种基于光场视频摄像机的内窥方法，包括：将工业和医学等内窥设备的核心部件替换为光场视频摄像机，利用光场视频摄像机先拍摄后对焦功能完成内窥。后期可以对视频进行重新视角的对焦观察，从内窥视频中高清还原并场景的每一个角落，让用户能任意视角的观察。

然而，发明人在实际应用中发现，虽然光场信息提供了很多视图，可以在很多方面得以应用，例如重聚焦，深度估计等这些需要更多光的维度信息的应用方面，但为了获取来自不同视角的光线，有时需要牺牲图像的分辨率来提升角度分辨率(获取不同角度光线的能力)，因此影响视频(图片)融合效果，尤其是不同角度下的视频或者图片的融合效果。

发明内容

为解决上述技术问题，本发明提出一种基于光场相机的实时视频流融合处理方法与系统、实现所述方法的计算机终端设备以及存储介质。

在本发明的第一个方面，提出一种基于光场相机的实时视频流融合处理方法，所述针对光场相机阵列对于目标区域监测产生的多角度实时视频流进行融合处理，所述方法包括如下步骤：

S1：在第一角度下通过光场相机获取目标区域的第一视频图像信息；

S2：在第二角度下通过光场相机获取所述目标区域的第二点云信息和第二视频图像信息；

S3：根据所述第一视频图像信息对所述第二点云信息包含的目标对象进行体素化；

S4：根据所述体素化的结果，融合所述第一视频图像信息和所述第二视频图像信息；

其中，所述目标对象位于所述目标区域，所述第二角度由所述第一角度直接变化得到。

这里的直接变化，是指由第一角度连续变化为第二角度。在拍摄角度存在多个的情况下，先以第一角度进行视频监测，再以第二角度进行视频监测，然后以第三角度进行视频监测，此时，称“所述第二角度由所述第一角度直接变化得到”，也可以称“所述第三角度由所述第二角度直接变化得到”。

作为进一步的改进，在第二角度下通过光场相机获取所述目标区域的第二点云信息和第二视频图像信息，具体包括：

在第二角度下通过光场相机获取所述目标区域的第二视频图像信息；

识别所述第二视频图像信息中包含所述目标对象的多个第二关键帧图像；

基于所述多个第二关键帧图像对应的深度图信息，生成所述第二点云信息。

作为进一步的改进，根据所述第一视频图像信息对所述第二点云信息包含的目标对象进行体素化。

进一步的，作为本发明的优点之一，所述体素化包括基于所述光场相机成像时的空间角度信息，确定多个体素化视角；

分别在所述多个体素化视角下对所述第二点云信息包含的目标对象进行体素化。

作为上述改进的具体实现方式，所述多个体素化视角包括以下任意一项及其组合：与笛卡尔坐标系的坐标轴平行的视角、柱坐标系的视角、球坐标系的视角。

在上述方法技术方案中，本发明充分利用光场信息提供的多种图像信息，包括平面图像信息和点云图像信息，在多角度视频融合过程中执行多视角体素化，然后执行边缘体素增强，使得融合后的视频效果更佳，更能突出体现目标区域的目标人物；同时，上述融合过程中考虑到了云信息对应的深度特征信息与广度特征信息，能够在视频深度和广度上得到增强。

在本发明的第二个方面，提供一种基于光场相机的实时视频流融合处理系统，所述系统包括视频采集子系统、点云生成子系统、体素化子系统以及视频融合子系统，可用于实现第一个方面所述的实时视频流融合处理方法。

具体的，各个子系统的具体功能实现如下：

所述视频采集子系统用于通过所述光场相机采集不同角度下的视频图像信息；

所述点云生成子系统基于所述视频图像信息，生成对所述不同角度下的视频图像信息对应的点云信息；

所述体素化子系统对所述点云信息包含的目标对象进行体素化；

所述视频融合子系统基于所述体素化子系统输出的体素化结果，对所述不同角度下的视频图像信息进行融合；

其中，所述不同角度包括第一角度和第二角度，所述光场相机分别在所述第一角度和第二角度下拍摄目标区域获得所述视频图像信息，所述目标对象位于所述目标区域。

更具体的，所述点云生成子系统基于所述视频图像信息，生成对所述不同角度下的视频图像信息对应的点云信息，具体包括：

所述点云生成子系统识别所述视频图像信息中包含所述目标对象的多个关键帧图像；基于所述多个关键帧图像对应的深度图信息，生成视频图像信息对应的点云信息。

所述体素化子系统对所述点云信息包含的目标对象进行体素化，具体包括：

分别在多个体素化视角下对所述点云信息包含的目标对象进行体素化；

所述多个体素化视角基于所述视频图像信息中包含所述目标对象的多个关键帧图像的空间角度信息确定。

所述多个体素化视角包括以下任意一项及其组合：与笛卡尔坐标系的坐标轴平行的视角、柱坐标系的视角、球坐标系的视角；

所述分别在所述多个体素化视角下对点云信息包含的目标对象进行体素化，具体包括：

所述多个体素化视角包括第一体素化视角和第二体素化视角；

基于所述点云信息对应的深度特征信息，在所述第一体素化视角下对所述目标对象进行体素化，以得到多个第一体素；

基于所述点云信息对应的广度特征信息，在所述第二体素化视角下对所述目标对象进行体素化，以得到多个第二体素；

确定所述多个第一体素与所述多个第二体素的边缘体素。

所述视频融合子系统基于所述体素化子系统输出的体素化结果，对所述不同角度下的视频图像信息进行融合，具体包括：

基于所述边缘体素，确定所述不同角度下的视频图像信息中需要进行融合的多个边缘帧；

基于所述边缘体素，增强所述多个边缘帧后融合所述不同角度下的视频图像信息。

在上述技术方案中，所述点云信息对应的深度特征信息是指与所述光场相机的视线平行方向的点云特征信息；

所述点云信息对应的广度特征信息是指与所述光场相机的视线垂直方向的点云特征信息。

在本发明的第三个方面，提供一种终端设备，例如可以是数据交互设备，其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序可以是数据交互程序，所述处理器执行所述计算机程序时，实现上述第一个方面所述方法的全部或者部分步骤。

在本发明第四个方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一个方面所述方法的全部或者部分步骤。

本发明充分利用光场信息提供的多种图像信息，包括平面图像信息和点云图像信息，在多角度视频融合过程中执行多视角体素化，然后执行边缘体素增强，使得融合后的视频效果更佳，更能突出体现目标区域的目标人物；同时，上述融合过程中考虑到了点云信息对应的深度特征信息与广度特征信息，能够在视频深度和广度上得到增强，从而避免分辨率损失。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于光场相机的实时视频流融合处理方法的步骤流程图；

图2-图3是图1所述方法中部分步骤的进一步具体实现的步骤示意图；

图4-图5是本发明各个实施例中使用的多视角体素化的原理示意图；

图6是本发明一个实施例的一种基于光场相机的实时视频流融合处理系统的子系统架构图；

图7是实现图1所述方法的全部或者部分步骤的计算机设备的结构图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

在介绍本发明的各个实施例之前，首先介绍与本申请技术方案有关的技术术语，以便更好的理解本申请的技术方案和改进构思。

光场，类似于电场、磁场的概念，用以描述光的一些特性，其包含了光线强度、位置、方向等信息；

光场相机(Light-field camera)，也称为全光相机(Plenoptic camera),具体来说就是用极大量的微小透镜捕捉不同来源和不同角度的光线，每个透镜负责处理一定数量的像素。理论上，如果透镜数量足够的多，那么可以做到在整个光场区域捕捉的光都是清晰可辨的。

有关光场相机的进一步介绍可以参见如下现有技术：

Adelson E H,Wang J Y A.Single Lens Stereo with a Plenoptic Camera[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1992,14(2):99-106.

US7965936 B2：4D light field cameras；

Veeraraghavan A,Raskar R,Agrawal A,et al.Dappled photography:maskenhanced cameras for heterodyned light fields and coded aperture[J].Acm TransGraph,2007,26(3):69.

黄焓.用于光场成像的光学系统设计方法研究[D].浙江大学,2015。

在以上现有技术的基础上，发明人注意到，虽然光场信息提供了很多视图，可以在很多方面得以应用，例如重聚焦，深度估计等这些需要更多光的维度信息的应用方面，但为了获取来自不同视角的光线，有时需要牺牲图像的分辨率来提升角度分辨率(获取不同角度光线的能力)，因此影响视频(图片)融合效果，尤其是不同角度下的视频或者图片的融合效果。

不过，光场相机和普通相机最大的不同可以概括为，作为一个摄像头，光场相机不仅可以采集到图像信息(平面的、二维图像信息)，还可以类似于激光雷达一样，通过采集的一帧图像生成这张图片对应的深度图信息，以及这张深度图对应的点云信息；光场相机还能同时获取成像时光线的空间信息和角度信息，将二维图像中的像素按照一定规则映射为多维(大于2维，例如三维或者四维)光场进行重新投影，得到不同视角和不同相平面的对焦图像。

基于以上技术基础，接下来介绍本申请的技术方案。

参见图1，图1是本发明一个实施例的一种基于光场相机的实时视频流融合处理方法的步骤流程图，所述方法主要包括如下步骤：

S4：根据所述体素化的结果，融合所述第一视频图像信息和所述第二视频图像信息。

接下来，结合图2-图3，对上述各个步骤的具体实现进行进一步介绍。

S2：在第二角度下通过光场相机获取所述目标区域的第二点云信息和第二视频图像信息。

在上述步骤中，所述第二角度由所述第一角度直接变化得到。

在具体的实施例中，所述光场相机可以是多个或者一个；

在所述光场相机为N个的情况下，可以在连续的第一角度、第二角度、第三角度…第N角度分别布置一个光场相机，每个光场相机针对监测区域拍摄不同角度的视频；

在所述光场相机为一个的情况下，可以通过移动或者改变所述光场相机的拍摄角度，分别在连续的第一角度、第二角度、第三角度…第N角度针对监测区域拍摄不同角度的视频。

可以理解为，上述步骤S1-S2中，所述第一角度和第二角度可以是上述N个角度中的任意两个连续的角度，第一角度在前，第二角度随后。

本实施例针对的是两个连续(相邻)角度的视频融合处理。

参见图2，示出所述步骤S2中，在第二角度下通过光场相机获取所述目标区域的第二点云信息和第二视频图像信息，具体实现如下：

这里的目标对象，包括目标人物和目标物体(例如车辆)，所述目标对象位于所述目标区域。

本实施例中使用的光场相机，不仅可以采集到图像信息(平面的、二维图像信息)，还可以类似于激光雷达一样，通过采集的一帧图像生成这张图片对应的深度图信息，以及这张深度图对应的点云信息。

点云是本领域的一个常见数据概念。一般来说，点云是指目标表面特性的海量点集合。

根据激光测量原理得到的点云，包括三维坐标(XYZ)和激光反射强度(Intensity)。

根据摄影测量原理得到的点云，包括三维坐标(XYZ)和颜色信息(RGB)。

结合激光测量和摄影测量原理得到点云，包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。

在获取物体表面每个采样点的空间坐标、深度信息后，得到的是一个点的集合，称之为“点云”(Point Cloud)。

接下来参见图3，示出根据所述第一视频图像信息对所述第二点云信息包含的目标对象进行体素化的步骤S3的具体实现如下：

识别所述第一视频图像信息中包含所述目标对象的多个第一关键帧图像；

获取所述光场相机生成所述多个第一关键帧图像时对应的光线的空间角度信息；

基于所述空间角度信息，确定多个体素化视角；

在本实施例中，体素化是指按空间位置将三维空间划分为栅格化单位，点云按照所属栅格进行编码并进行统一计算，此举能够提升点云数据规则性，提高计算效率。

前述已经提及，光场相机能同时获取成像时光线的空间信息和角度信息，将二维图像中的像素按照一定规则映射为多维(大于2维，例如三维或者四维)光场进行重新投影，得到不同视角和不同相平面的对焦图像。

然而，单纯的二维像素信息无法和点云的三维信息结合，因此，本实施例需要获取空间角度信息后进行体素化。

已有的体素化方法包括同时在x、y、z三个方向进行体素化，此时体素大小的选择对精度和耗时影响很大，划分过密则大大增加计算量，增加耗时；而划分稀疏则会导致精度大幅降低。

为此，参见图4-图5的示意图，在本实施例中，首先基于所述空间角度信息，确定多个体素化视角；

多种体素化视角，包括笛卡尔x轴平行方向视角、笛卡尔y轴平行方向视角，笛卡尔z轴平行方向视角、球坐标系的视角、柱坐标系视角；

然后，分别在所述多个体素化视角下对所述第二点云信息包含的目标对象进行体素化，参见图4-图5的示意图。

更具体的，所述分别在所述多个体素化视角下对所述第二点云信息包含的目标对象进行体素化，具体包括：

基于所述第二点云信息对应的深度特征信息，在所述第一体素化视角下对所述目标对象进行体素化，以得到多个第一体素；

基于所述第二点云信息对应的广度特征信息，在所述第二体素化视角下对所述目标对象进行体素化，以得到多个第二体素；

确定所述多个第一体素与所述多个第二体素的边缘体素。

具体的，所述第二点云信息对应的深度特征信息是指与所述光场相机的视线平行方向的点云特征信息；

所述第二点云信息对应的广度特征信息是指与所述光场相机的视线垂直方向的点云特征信息。

其中，边缘体素，顾名思义，就是指每一个体素化单位中，位于边缘位置的体素。

举例来说，若采用笛卡尔x轴平行方向视角进行体素化，则每一个体素化单位中，笛卡尔Y轴坐标以及Z坐标最大的体素，即为边缘体素。

发明人注意到，大部分边缘体素通常产生在角度变化或者位置变化的区域，因此，作为融合增强的关键因素考虑。

据此，作为进一步的实施例，根据所述体素化的结果，融合所述第一视频图像信息和所述第二视频图像信息，具体包括：

基于所述边缘体素，确定所述第一视频图像信息和所述第二视频图像信息中需要进行融合的多个边缘帧；

基于所述边缘体素，增强所述多个边缘帧后融合所述第一视频图像信息和所述第二视频图像信息。

这里的增强所述多个边缘帧，可以是将边缘帧所在的边缘体素所有相邻体素按照设定的卷积核大小，执行卷积计算，还可以是直接加权融合。

可以看到，该实施例充分利用光场信息提供的多种图像信息，包括平面图像信息和点云图像信息，在多角度视频融合过程中执行多视角体素化，然后执行边缘体素增强，使得融合后的视频效果更佳，更能突出体现目标区域的目标人物在不同角度变化中的变化信息和追踪信息；同时，上述融合过程中考虑到了点云信息对应的深度特征信息与广度特征信息，能够在视频深度和广度上得到增强，从而避免分辨率损失。

基于图1-图5的方法步骤或者原理性介绍，接下来参见图6。图6是本发明一个实施例的一种基于光场相机的实时视频流融合处理系统的子系统架构图。

在图6中，提供一种基于光场相机的实时视频流融合处理系统，所述系统包括视频采集子系统、点云生成子系统、体素化子系统以及视频融合子系统，可用于实现第一个方面所述的实时视频流融合处理方法。

具体的，各个子系统的具体功能实现如下：

确定所述多个第一体素与所述多个第二体素的边缘体素。

该实施例能够实现基于光场相机的实时视频流融合处理，尤其是多个不同角度下通过光场相机拍摄得到的视频融合，并且避免了分辨率损失。

需要指出的是，图1所述方法、流程，均可以通过计算机程序指令自动化的实现。因此，参见图7提供一种电子计算机设备，该电子设备可以是数据交互设备，包括总线、处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现前述方法实例的步骤。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

本发明未特别明确的部分模块结构，以现有技术记载的内容为准。本发明在前述背景技术部分提及的现有技术可作为本发明的一部分，用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。

Claims

1.一种基于光场相机的实时视频流融合处理方法，其特征在于，所述方法包括如下步骤：

所述目标对象位于所述目标区域，所述第二角度由所述第一角度直接变化得到；

所述步骤S3具体包括：

基于所述空间角度信息，确定多个体素化视角；

确定所述多个第一体素与所述多个第二体素的边缘体素；

所述步骤S4具体包括：

2.如权利要求1所述的一种基于光场相机的实时视频流融合处理方法，其特征在于:

所述步骤S2具体包括：

3.如权利要求1所述的一种基于光场相机的实时视频流融合处理方法，其特征在于:

所述多个体素化视角包括以下任意一项：与笛卡尔坐标系的坐标轴平行的视角、柱坐标系的视角、球坐标系的视角；

所述第二点云信息对应的深度特征信息是指与所述光场相机的视线平行方向的点云特征信息；

4.一种基于光场相机的实时视频流融合处理系统，所述系统包括视频采集子系统、点云生成子系统、体素化子系统以及视频融合子系统，用于实现权利要求1-3任一项所述的一种基于光场相机的实时视频流融合处理方法的各个步骤。

5.一种终端，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-3任一项所述的方法中的步骤的指令。