CN107707899B

CN107707899B - 包含运动目标的多视角图像处理方法、装置及电子设备

Info

Publication number: CN107707899B
Application number: CN201710981683.7A
Authority: CN
Inventors: 田光亚
Original assignee: ThunderSoft Co Ltd
Current assignee: ThunderSoft Co Ltd
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2019-05-10
Anticipated expiration: 2037-10-19
Also published as: CN107707899A

Abstract

本发明实施例公开了一种包含运动目标的多视角图像处理方法、装置及电子设备，涉及图像处理技术领域。该方法包括：获取第一视角图像中运动目标的第一平面运动矢量；获取与所述第一视角图像关联的深度图像，基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量；根据第一视角与第二视角之间的视角转换矩阵，将第一视角中的所述第一立体运动矢量转换为第二视角中的第二立体运动矢量；根据第二视角的投影矩阵，将所述第二立体运动矢量转换为第二平面运动矢量；基于所述第二平面运动矢量，在第二视角中生成包含所述运动目标的图像。通过上述方案，能够节省系统资源，提高图像的处理效率。

Description

包含运动目标的多视角图像处理方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及包含运动目标的多视角图像处理技术。

背景技术

游戏渲染时需要进行大量的三维模型建模、光栅化、贴图、渲染光影效果等，其渲染复杂度很高，因此往往造成帧率的瓶颈。

现有技术主要针对完整视频序列，离线计算非关键帧运动矢量，实现帧间插补。此类方法实时性差，算法复杂，并未针对移动平台做出相应优化。此外，现有技术主要利用色彩信息对图像进行分析，并未融合深度数据减少冗余计算，提高效率；同时也并未融合深度数据，对不同深度采用多尺度的图像处理方法。最后，现有技术主要关注于颜色空间中光流计算的准确性、快速性，并未提出深度数据的融合方法，以及图像插补中的应用。在颜色空间中大量的重复纹理、违反光流假设的情况会对运动预测造成极大的影响。现有技术中主要针对完整视频数据的离线渲染，或者单目视频数据的在线预测，并未涉及多目、多维信息的融合。

针对上述问题，亟需一种全新的包含运动目标的多视角图像处理技术。

发明内容

有鉴于此，本发明实施例提供一种包含运动目标的多视角图像处理方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序，至少部分的解决现有技术中存在的问题。

第一方面，本发明实施例提供了一种包含运动目标的多视角图像处理方法，包括：

获取第一视角图像中运动目标的第一平面运动矢量；

获取与所述第一视角图像关联的深度图像，基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量；

根据第一视角与第二视角之间的视角转换矩阵，将第一视角中的所述第一立体运动矢量转换为第二视角中的第二立体运动矢量；

根据第二视角的投影矩阵，将所述第二立体运动矢量转换为第二平面运动矢量；

基于所述第二平面运动矢量，在第二视角中生成包含所述运动目标的图像。

根据本发明实施例的一种具体实现方式，所述基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量，包括：

针对所述运动目标在第一视角二维相平面中的坐标(X，Y)，在对应的深度缓存中搜索该坐标的深度值Z；

将(X，Y，Z)作为第一立体运动矢量。

根据本发明实施例的一种具体实现方式，所述方法还包括：

获取所述第一视角的第一空间坐标；

基于所述第一空间坐标，计算所述第一视角的空间旋转矩阵及平移矩阵；

将所述空间旋转矩阵及所述平移矩阵的乘积，作为所述第一视角的第一变换矩阵。

根据本发明实施例的一种具体实现方式，所述方法还包括：

获取所述第二视角的第二空间坐标；

基于所述第二空间坐标，计算所述第二视角的空间旋转矩阵及平移矩阵；

将所述第二视角的空间旋转矩阵及平移矩阵的乘积，作为所述第二视角的第二变换矩阵。

根据本发明实施例的一种具体实现方式，所述方法还包括：

根据所述第一变换矩阵及所述第二变换矩阵，计算第一视角与第二视角之间的视角转换矩阵。

根据本发明实施例的一种具体实现方式，所述方法还包括：

获取所述第二视角的近平面距离、远平面距离、视场角及显示宽高比；

基于所述近平面距离、所述远平面距离、所述视场角及所述显示宽高比，确定所述第二视角的投影矩阵。

根据本发明实施例的一种具体实现方式，所述方法还包括：

获取第一视角中的第一图片序列；

获取与所述第一图片序列对应的第二视角中的第二图片序列；

通过分析运动目标的特征点在所述第一图片序列及所述第二图片序列中的位置，确定第一视角与第二视角之间的视角转换矩阵。

根据本发明实施例的一种具体实现方式，所述通过分析运动目标的特征点在所述第一图片序列及所述第二图片序列中的位置，确定第一视角与第二视角之间的视角转换矩阵，包括：

获取空间点P(x，y，z，w)在第一视角的相平面位置为p₁及第二视角的相平面位置为p₂；

基于p₁及p₂，计算表示p₁与p₂之间变换关系的基础矩阵F；

通过对所述基础矩阵F进行最小二乘法计算，获得所述基础矩阵的近似解。

根据本发明实施例的一种具体实现方式，通过对所述基础矩阵F进行最小二乘法计算，获得所述基础矩阵的近似解，包括：

使用最小二乘法增量训练基础矩阵F；

将收敛后的基础矩阵F作为所述基础矩阵的近似解。

第二方面，本发明实施例还提供了一种包含运动目标的多视角图像处理装置，包括：

获取模块，用于获取第一视角图像中运动目标的第一平面运动矢量；

第一转换模块，用于获取与所述第一视角图像关联的深度图像，基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量；

第二转换模块，用于根据第一视角与第二视角之间的视角转换矩阵，将第一视角中的所述第一立体运动矢量转换为第二视角中的第二立体运动矢量；

第三转换模块，用于根据第二视角的投影矩阵，将所述第二立体运动矢量转换为第二平面运动矢量；

生成模块，用于基于所述第二平面运动矢量，在第二视角中生成包含所述运动目标的图像。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式所述的包含运动目标的多视角图像处理方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行前述第一方面或第一方面的任一实现方式所述的包含运动目标的多视角图像处理方法。

第五方面，本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行前述第一方面或第一方面的任一实现方式所述的包含运动目标的多视角图像处理方法。

本发明实施例提供的包含运动目标的多视角图像处理方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序，能够根据多视角中的某一视角计算运动矢量，在线估计其余各视角的运动矢量，利用深度缓冲区数据，通过矩阵运算，直接地求取运动矢量在多视角中的估计值。当视角的内外参数无法获得时，自学习地获得内外参数，建立不同视角间点到点的映射关系，最终实现运动矢量估计。利用计算出的运动矢量通过修改GPU管线中的模型顶点坐标和纹理顶点坐标，实现渲染。极大程度地节约了计算开销，提高了渲染帧率，降低功耗，提高了图像处理的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种包含运动目标的多视角图像显示示意图；

图2a-2b为本发明实施例提供一种运动矢量在不同视角中的示意图；

图3为本发明实施例提供的一种运动矢量在不同坐标空间中的示意图；

图4为本发明实施例提供的一种包含运动目标的多视角图像处理方法流程示意图；

图5为本发明实施例提供的一种视角转换矩阵的获取流程图；

图6为本发明实施例提供的另一种视角转换矩阵的获取流程图；

图7为本发明实施例提供的一种包含运动目标的多视角图像处理装置结构示意图；

图8为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

对于虚拟现实设备、现实增强设备往往有多个显示设备或多个视角。其主要功能在于将三维空间中的模型、点云、平面投影显示到多个成像平面上。如图1所示，第一摄像机3、第二摄像机4在三维空间中分别捕获待显示模型9的图像，具体而言，通过投影将近平面1、2与远平面7、8之间的三维待显示模型9投影到成像平面5、6上。具体的，第一摄像机3、第二摄像机4可以分别作为第一视角及第二视角使用。

运动检测是一种图像检测、图像识别、目标跟踪中的典型技术。该方法主要通过图像分析实现运动矢量检测(运动矢量可以致密的，也可以是稀疏的)。基于图像分析的运动矢量检测，主要采用光流法、帧差法等，其特点在于计算开销普遍较大，时间开销大，资源消耗多。而本法旨在提出一种多视角计算方法，即利用某一个或某几个视角的运动矢量，通过矩阵变换计算其余多视角的运动矢量，避免冗余计算，提高图像插补效率。

图4为本发明的实施例的一种包含运动目标的多视角图像处理流程示意图，如图4所示，本实施例的方法可以包括以下步骤：

S101，获取第一视角图像中运动目标的第一平面运动矢量。

如图2a-2b所示，v₁表示第一摄像机的像平面23中的某运动矢量21。本发明旨在计算该运动矢量21在其他视角(例如第二视场)的像平面24中对应的运动矢量v₂22。具体的，运动矢量v₁可以用平面内的起始坐标和终点坐标来表示。

如图3所示，运动矢量v是一个空间矢量，其起点为p_pre，终止点为p_cur。位于O_caml、O_cam2处的摄像机(视角)分别为第一摄像机(视角)、第二摄像机(视角)。由于运动矢量可以用起止点描述，因此二维运动矢量在多视角中的计算可以，分解为两个起止点在多视角中的变换。

S102，获取与所述第一视角图像关联的深度图像，基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量。

对于二维相平面中的一个点(X，Y)，首先在对应的深度缓存中搜索该点的深度Z。根据上述X、Y、Z值，生成投影空间四元数点(α，β，γ，ω)，即：

S103，根据第一视角与第二视角之间的视角转换矩阵，将第一视角中的所述第一立体运动矢量转换为第二视角中的第二立体运动矢量。

在世界坐标系中上述任意一个摄像机(视角)都可用一个9维向量表示：cam(eye.x，eye.y，eye.x，target.x，target.y，target.z，up.x，up.y，up.z)。上述9维向量由3个3维向量组成，其中eye表示世界坐标系下摄像机的空间坐标，target表示摄像机观测方向的三维空间矢量，up表示摄像机顶部方向的三维空间矢量。

根据上述9维向量cam可以推导出摄像机相对于世界坐标系(图3中O_world坐标系)的变换矩阵(视图矩阵)：M_cam。M_cam可以分为空间旋转矩阵R_cam和平移矩阵T_cam的乘积，如公式1-公式4所示。

w＝normalize(eye-target) 公式1

v＝normalize(up×w) 公式2

u＝normalize(w×v) 公式3

S104，根据第二视角的投影矩阵，将所述第二立体运动矢量转换为第二平面运动矢量。

每个摄像机对应一个或多个投影矩阵，投影矩阵M_p是关于近平面距离near、远平面距离far、视场角fov、显示宽高比aspect相关的一个四维向量，投影矩阵的计算方法如公式5所示：

平面坐标系到投影空间的变换关系，如公式6所示：

(X，Y，Z，W)^T＝M_pM_cam(x，y，z，w)^T 公式6

即将三维空间中空间的点(x，y，z，w)投影到了投影空间中的(X，Y，Z，W)点，(X/W，Y/W)既是二维图像坐标系中的像素位置。

S105，基于所述第二平面运动矢量，在第二视角中生成包含所述运动目标的图像。

具体的，可以采用三角刨分法来生成图像。具体的，需要初始化图元边界，可以基于Delaunay算法实现图元刨分，其中控制点分为以下三部分：(1)边界点，(2)运动矢量起始点，(3)运动矢量起终点。

摄像机投影矩阵与视图矩阵的取得途径有以下几种：(1)在渲染系统从应用直接取得，(2)利用应用启动后渲染得到的k个关键帧(时间上连续或不连续的帧序列)自适应训练获得。

对于方式(1)，第一摄像机视角到第二摄像机视角的变换矩阵用M_vp表示，其计算方法如公式9所示(其余各视角计算方法与本方法同理)。其中M_p1、M_p2分别表示第一摄像机和第二摄像机的投影矩阵，M_cam1、M_cam2分别表示第一摄像机和第二摄像机的视图矩阵。

对于方式(2)，其计算方法如下：首先在第m帧的各视角中分别提取特征角点(可采用sift角点、fast角点、ORB特征点等角点检测技术，或其中两种或多种相结合的技术)。然后对不同视角的特征点进行配准，配准方法可采用FLANN方法等。最后根据对极约束，通过最小二乘法计算多视角间的齐次坐标变换矩阵M_vp。

具体计算过程如下：

对于空间点P(x，y，z，w)，其在第一视角的相平面位置为p₁，第二视角的相平面位置为p₂(其余各视角计算方法与本方法同理)，在第一视角所在坐标系下，P到p₁的变换关系如公式10所示，P到p₂的变换公式如公式11所示。

p₁＝K₁P 公式10

p₂＝K₂(R₂P+t₂) 公式11

其中K为摄像机的内参矩阵，包含了视场角fov、显示宽高比aspect等参数。R₂、t₂表征了摄像机相对于第一视角的外参矩阵，包含了第二视角相对于第一视角的平移和旋转。

设n₁、n₂为p₁、p₂在归一化平面的坐标，则有公式12所述。

将公式12带入公式10、公式11，结果如公式13所示，等式两侧对t求外积。

t₂^n₂＝t₂^R₂n₁ 公式13

上述等式两侧左乘x₂ ^T，结果如公式14所示。

整理得公式15。

如公式16、公式17所示通过基础矩阵F可以求得p₁与p₂的变换关系，对极约束即是等式为零的约束。根据之前若干个视角间配准的映射点对数据，采用最小二乘法，求解基础矩阵的近似解。

基础矩阵在第一帧的多视角的计算过程中，存在较大误差。因此本发明对之后若干个关键帧重复计算，逐渐累积视角间的映射点对，使用最小二乘法增量训练基础矩阵F。当基础矩阵F收敛后，不再继续计算特征点、特征配准、更新基础矩阵。

与前述包含运动目标的多视角图像处理方法的实施例相对应，本发明实施例还提供了一种包含运动目标的多视角图像处理装置，如图7所示，包含运动目标的多视角图像处理装置70，包括：

获取模块701，用于获取第一视角图像中运动目标的第一平面运动矢量；

第一转换模块702，用于获取与所述第一视角图像关联的深度图像，基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量；

第二转换模块703，用于根据第一视角与第二视角之间的视角转换矩阵，将第一视角中的所述第一立体运动矢量转换为第二视角中的第二立体运动矢量；

第三转换模块704，用于根据第二视角的投影矩阵，将所述第二立体运动矢量转换为第二平面运动矢量；

生成模块705，用于基于所述第二平面运动矢量，在第二视角中生成包含所述运动目标的图像。

上述实施例中各功能模块所执行的功能及内容与其对应的方法实施例一一对应，在此不再赘述。

图8示出了本发明实施例提供的电子设备8的结构示意图，电子设备8包括至少一个处理器801(例如CPU)，至少一个输入输出接口804，存储器802，和至少一个通信总线803，用于实现这些部件之间的连接通信。至少一个处理器801用于执行存储器802中存储的可执行模块，例如计算机程序。存储器802为非暂态存储器(non-transitory memory)，其可以包含易失性存储器，例如高速随机存取存储器(RAM：Random Access Memory)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个输入输出接口304(可以是有线或者无线通信接口)实现与至少一个其他网元之间的通信连接。

在一些实施方式中，存储器802存储了程序8021，处理器801执行程序8021，用于执行前述任一基于电子设备的包含运动目标的多视角图像处理方法的实施例。

该电子设备可以以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)特定服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将

一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些。

实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种包含运动目标的多视角图像处理方法，其特征在于，包括：

获取第一视角图像中运动目标的第一平面运动矢量；

2.根据权利要求1所述的包含运动目标的多视角图像处理方法，其特征在于，所述基于所述深度图像中与所述运动目标关联的深度信息，将所述第一平面运动矢量转换为第一立体运动矢量，包括：

针对所述运动目标在第一视角二维相平面中的坐标(X, Y)，在对应的深度缓存中搜索该坐标的深度值Z；

将(X, Y, Z) 作为第一立体运动矢量的终点坐标。

3.根据权利要求1所述的包含运动目标的多视角图像处理方法，其特征在于，所述方法还包括：

获取所述第一视角的第一空间坐标；

4.根据权利要求3所述的包含运动目标的多视角图像处理方法，其特征在于，所述方法还包括：

获取所述第二视角的第二空间坐标；

5.根据权利要求4所述的包含运动目标的多视角图像处理方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的包含运动目标的多视角图像处理方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的包含运动目标的多视角图像处理方法，其特征在于，所述方法还包括：

获取第一视角中的第一图片序列；

8.根据权利要求7所述的包含运动目标的多视角图像处理方法，其特征在于，所述通过分析运动目标的特征点在所述第一图片序列及所述第二图片序列中的位置，确定第一视角与第二视角之间的视角转换矩阵，包括：

获取空间点P(x, y, z, w)在第一视角的相平面位置为p₁及第二视角的相平面位置为p₂；

9.根据权利要求8所述的包含运动目标的多视角图像处理方法，其特征在于，通过对所述基础矩阵F进行最小二乘法计算，获得所述基础矩阵的近似解，包括：

使用最小二乘法增量训练基础矩阵F；

将收敛后的基础矩阵F作为所述基础矩阵的近似解。

10.一种包含运动目标的多视角图像处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一权利要求1-9所述的包含运动目标的多视角图像处理方法。

12.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行前述任一权利要求1-9所述的包含运动目标的多视角图像处理方法。