CN111263167A

CN111263167A - 基于传感器辅助全局运动估计的uav视频编解码方法

Info

Publication number: CN111263167A
Application number: CN202010119355.8A
Authority: CN
Inventors: 骆春波; 罗杨; 李智; 吴佳; 韦仕才
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-09

Abstract

本发明公开了基于传感器辅助全局运动估计的UAV视频编解码方法，该方法引入了基于传感器信息辅助的全局运动估计方法，并基于HEVC当前框架设计了一套UAV高清视频编解码的整体流程。解决了由无人机运动带来的视频图像位移较大和畸变较大以及运动矢量估计不准确的问题，有效提高了基于HEVC标准的无人机视频编码效率，降低了编码复杂度。

Description

基于传感器辅助全局运动估计的UAV视频编解码方法

技术领域

本发明属于无人机视频数据处理技术领域，具体涉及基于传感器辅助全局运动估计的UAV视频编解码方法。

背景技术

携带多个传感器的UAV(Unmanned Aerial Vehicles，无人驾驶飞行器)在视频侦察、开发和监视等重要任务中具有广泛的应用价值。然而，如何将高清晰度视频有效地压缩并传输给客户端，是基于视频的无人机应用目前迫切需要解决的问题。

现有的方法中，提出了一种基于元数据的图像坐标系转换模型，该模型适用于大多数的中高度无人机，以辅助搜索算法的实现；另外一种用于UAV检测应用的低延迟和低复杂度的视频编码方案，该方案使用从UAV传感器元数据得到的单应性变换来替换图像级的整型运动估计方法。以上讨论的传感器辅助视频编码方法都是使用了纯粹的平移或仿射变换。然而，对于空中视频流而言，由相机运动引起的较大的位移和畸变会令相邻帧的重叠区域变得相当小，另外运动矢量也不能用仿射运动模型中的共线变换简单表示。

发明内容

针对现有技术中的上述不足，本发明提供的基于传感器辅助全局运动估计的UAV视频编解码方法解决了由无人机运动带来的视频图像位移较大和畸变较大以及运动矢量估计不准确的问题，有效提高了基于HEVC标准的无人机视频编码效率，降低了编码复杂度。

为了达到上述发明目的，本发明采用的技术方案为：基于传感器辅助全局运动估计的UAV视频编解码方法，包括以下步骤：

S1、在基站数据传输范围内，通过无人机机载相机拍摄视频数据，同时通过无人机携带的传感器获取无人机的运动测量数据；

S2、对无人机的运动测量数据进行中值滤波处理，并构建对应的单应矩阵；

S3、将视频数据对应的图像帧分别乘以对应的单应矩阵，获得视频数据坐标变换后对应的标定图像；

S4、对视频数据的每个图像帧进行结构相似性检查，构建对应的输入到编码器进行编码的GOP序列；

同时，将每个图像帧的结构相似性检查结果存入NAL单元报头中；

S5、在编码器中，通过快速ME算法对GOP序列进行处理，构建每个标定图像对应的MV候选列表和最佳搜索点；

S6、将GOP序列中的标定图像及其对应的MV候选列表和最佳搜索点输入到编码引擎中，对其进行数据压缩处理，得到视频编码码流；

同时，将每个标定图像对应的单应矩阵存入NAL单元报头，与视频编码码流一并输入到解码器中；

S7、在解码器中，基于NAL单元报头中的存储数据，对视频编码码流中的图像帧进行解码，实现UAV视频解码。

进一步地，所述步骤S2具体为：

S21、构建用于表示视频数据图像帧的图像坐标系与相机坐标系之间的映射关系的内部矩阵K为：

式中，s_x和s_y分别为视频数据图像帧中每个像素的宽度和高度；

c_x和c_y分别为无人机机载相机的水平和垂直偏移量；

S22、构建用于表示相机坐标系相对于地面坐标系的外部矩阵；

所述外部矩阵包括位置关系矩阵T和方向关系矩阵R；

其中，位置关系矩阵T为：

T＝[t_x t_y t_z]′＝[v_xd_t v_yd_t v_zd_t]′

式中，t_x、t_y和t_z分别表示沿X、Y和Z轴的平移量，d_t为采样间隔，v_x v_y v_z为分别为无人机沿x轴、y轴和z轴的速度；

方向关系矩阵R为：

式中，R_ψ、R_φ和R_θ分别为无人机的航向旋转矩阵、俯仰旋转矩阵和横滚旋转矩阵；

ψ、φ和θ分别为无人机的航向旋转角度、俯仰旋转角度和横滚旋转角度；

S23、基于内部矩阵和外部矩阵，得到t时刻时，从图像坐标系到地面坐标系的透视变换矩阵，即单应矩阵H_t为：

式中，d为无人机所在的高度。

进一步地，所述步骤S3中的标定图像F_t ^*为：

F_t ^*＝H_tF_t

式中，F_t为t时刻的图像帧，且图像帧F_t与F_t+1的变换式为：

式中，D为标定图像的整体位移服从线性变换的变换式，且D＝[d_x d_y]′，d_x和d_y分别为t时刻的全局运动矢量；

M为从F_t到F_t+1的运动矢量矩阵。

进一步地，所述步骤S4具体为：

S41、设t+1时刻的图像帧F_t+1的预测帧为F_tmp；

S42、计算图像帧F_t+1与预测帧F_tmp的结构相似性值SSIM；

S43、判断SSIM是否大于设定的阈值；

若是，则进入步骤S44；

若否，则进入步骤S45；

S44、跳过该图像帧，并将该图像帧F_t+1对应的结构相似性检查结果存入该图像帧F_t+1对应的NAL单元报头中；

S45、将图像帧F_t+1对应的标定图像

加入到GOP序列中，并将图像帧F_t+1和

的全局运动矢量输入到编码器中的GMV中。

进一步地，所述步骤S5中的MV候选列表Candidate_List为：

式中，

为第一个候选运动矢量，即为t时刻的全局运动矢量；

GMV为全局运动矢量集合；

为第二个候选运动矢量，且其为中值运动矢量，即局部运动矢量；

MedianMV为无人机传感器记录的传感器信息的分类集合，且

和

分别为传感器信息三种分类；

LMV为本地运动矢量集合。

进一步地，所述步骤S5中，通过使用最小失真率代价方法从MV候选列表中选择最佳MV预测器，进而确定对应的最佳搜索点；

其中，最佳MV预测器

为：

式中，

为MV候选列表中的一个元素；

λ为用于速率控制调节的拉格朗日乘数；

为拉格朗日率失真代价函数，

SAD(a,b)为a和b之间的绝对差之和；

PU_orig和PU_pred分别表示原始PU和被预测PU；

R为比特数；

为原始PU的预测矢量；

ph、pw分别为当前PU的高度和宽度；

和

分别为沿x轴和y轴方向的运动矢量；

通过最小化拉格朗日率失真代价函数，确定最佳搜索点

为：

式中，

为指向搜索窗口中所有搜索点的MV。

进一步地，所述步骤S7具体为：

S71、根据NAL单元报头中存储的结构相似性检查结果，依次判断其对应的图像帧是否为被跳过的图像帧；

若是，则进入步骤S73；

若否，则进入步骤S72；

S72、将该图像帧对应的视频编码码流数据输入到解码引擎中，并将解码出的图像作为参考帧，进入步骤S73；

S73、根据存储在NAL单元报头中的单应矩阵和参考帧，重构出被跳过的图像帧对应的图像，进入步骤S74；

S74、重复步骤S71-步骤S73，直到所有的图像帧均被解码或重构，进入步骤S75；

S75、将重构出的图像和解码出的图像输入到解码引擎中，解码出所有的图像帧，并按照图像帧的图像顺序计数进行图像帧的显示，实现UAV视频解码。

进一步地，所述步骤S72中，重构出被跳过的图像帧对应的图像的公式为：

式中，F_skipped为之前被跳过的但又重构出来的图像；

H_skipped为存储在NAL单元报头中的单应矩阵；

F_ref为未被跳过的被解码出的作为参考帧的图像帧；

D_ref和H_ref为参考帧的全局运动矢量和单应矩阵。

本发明的有益效果为：

本发明方法综合考虑了无人机带来的全局运动影响和由前景对象带来的局部运动的影响，抛弃了现有技术中使用的平移和仿射模型，充分结合传感器数据，采用了更符合实际情况的透视变换模型，消除了相机外部运动的影响；本发明方法与标准HM-16.10编解码器相比，在保证PSNR和SSIM不变的情况下，降低了视频数据编码时间，提高了压缩比，进而有效提高了无人机视频的编码效率。

附图说明

图1为本发明提供的基于传感器辅助全局运动估计的UAV视频编解码方法流程图。

图2为本发明提供的传感器辅助视频编解码系统流水线结构图。

图3为本发明提供的无人机部署场景及针孔模型示意图。

图4为本发明提供的当前块的GMV计算示意图。

图5为本发明提供的从当前块中选择空间MV并填充当前块的MV候选列表示意图。

图6为本发明提供的NAL单元报头结构示意图。

图7为本发明提供的解码器对编码码流进行解码的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，基于传感器辅助全局运动估计的UAV视频编解码方法，包括以下步骤：

如图2所示，提供了本发明中的传感器辅助视频编解码系统的流水线，它由它由三个关键模块组成：发送端的数据预处理模块和视频编码模块，客户端的视频解码模块：

在数据预处理阶段，在对UAV视频数据进行编码前，需要对视频数据和传感器数据进行预处理，触感器数据因其测量结果常常会受到噪声污染，为了去除传感器信号的噪声，首先对传感器获取的数据进行中值滤波处理；与静止相机拍摄的视频帧不同，航空视频帧序列不会被投影到同一图像平面，相机成像模型是一种从真实世界坐标系到图像坐标系的常见针孔投影映射，相机坐标系、图像坐标系和地面坐标系之间的关系如图3所示，为了消除无人机飞行动作引入的非等距投影失真，每张图像帧都会乘以对应的单应矩阵(Homography Matrix,HM)，从而从图像坐标系映射到地面坐标系，得到被校准了的图像，又被称为被标定的图像。单应矩阵是由内部参数和外部参数共同决定的，内部参数 (又称为标定矩阵)反映了图像帧的图像坐标系与相机坐标系之间的映射关系，而外部参数反映了相机坐标系相对于地面坐标系的位置和方向关系；因此，上述步骤S2具体为：

c_x和c_y分别为无人机机载相机的水平和垂直偏移量；

上述外部矩阵包括位置关系矩阵T和方向关系矩阵R；通过构造一个外部矩阵，可以得到无人机在两个时间实例之间的平移和旋转运动，给定t时刻的图像帧F_t，t+1时刻的图像帧为F_t+1，我们用矩阵R∈M^3×3和T∈M³来分别表示则表示F_t+1帧相对于F_t帧的旋转和平移运动。

其中，位置关系矩阵T为：

T＝[t_x t_y t_z]′＝[v_xd_t v_yd_t v_zd_t]′

式中，t_x、t_y和t_z分别表示沿X、Y和Z轴的平移量，d_t为采样间隔，v_x v_y v_z为分别为无人机沿x轴、y轴和z轴的速度，单位为m/s，来源于无人机传感器测得的数据；

方向关系矩阵R为：

式中，d为无人机所在的高度。

上述步骤S3中，只要用于坐标映射的透视变换矩阵H_t和H_t+1，标定图像F_t ^*就可以用下式表示：

F_t ^*＝H_tF_t

式中，F_t为t时刻的图像帧；

通过应用透视变换，将视频帧投影到同一坐标系下，相邻帧之间的失真就会减小，从而提高了相邻帧之间的结构相似性，也因此保证重构质量的同时降低了比特率和编码时间；

经过坐标变换后，标定图像的整体位移服从线性变换D＝[d_x d_y]′，其中d_x和 d_y分别为t时刻的全局运动矢量(Global Motion Vector,GMV)；

因此，图像帧F_t与F_t+1的变换式为：

式中，M为从F_t到F_t+1的运动矢量矩阵。

在上述步骤S4中，在编码流水线中，利用参考帧(可以在GOP队列中找到)和当前帧之间的结构相似性(Structural Similarity,SSIM)，我们在编码之前进行了相似度检测(由称为图像动作监视器)，图像运动监视器可以确定两个相邻图像之间是否存在大规模运动；上述步骤S4中结构相似性检查的过程具体为：

S41、设t+1时刻的图像帧F_t+1的预测帧为F_tmp；

其中，F_tmp约为F_tmp＝MF_t；

S42、计算图像帧F_t+1与预测帧F_tmp的结构相似性值SSIM；

S43、判断SSIM是否大于设定的阈值；

若是，则进入步骤S44；

若否，则进入步骤S45；

S45、将图像帧F_t+1对应的标定图像

加入到GOP序列中，并将图像帧F_t+1和

的全局运动矢量输入到编码器中的GMV中。

在上述步骤S5中，在编码器中，如果传感器信息是准确的，M就能表示从 F_t到F_t+1的全局运动，并且F_t ^*与F_t+1是极为相近的。然而，由于无人机传感器的测量噪声和连续块之间存在的局部运动，在大多数情况下M不能准确地表示每个块中的运动。因此，编码器仍然需要执行块匹配算法来为这些块找到多个最佳的候选MV(Motion Vector，运动矢量)。

首先，对GOP序列中的图像帧进行编码单元划分和预测单元划分操作，将一个图像帧划分成一个个的小编码块。空中视频编码过程显示，属于背景区域的编码块通常会有指向相同方向的MV，这意味着那些属于背景内容的块遵循全局运动，因此当前块的最佳MV与其空间相邻块具有很强的相关性。属于前景对象的块可能有着与相邻被解码块类似的本地MV(Local Motion Vector，LMV)。接下来我们要对不能用M准确表示的块进行预测。以HEVC为例，在每个预测单元(Prediction Unit，PU)的帧间预测过程中，基于概率方案会形成一个列表。简言之，HEVC中的高级运动矢量预测(Advanced Motion VectorPrediction， AMVP)会使用更多的来自时间域、空间域的候选对象来更准确地选择MV预测器，并将MV添加到候选列表中，然后使用最小失真率(Rate-Distortion，RD)代价方法从该列表中选择最佳的MV预测器。受快速MVP方法的启发，我们提出了快速ME算法，该算法包括初始候选列表和块匹配搜索两个步骤；

我们的候选列表包含两个MVP，一个是包含时间相关信息的GMV(见图4)，另一个是以邻域为参考的LMV。来自相邻块的MV遵循与在AMVP中相同的顺序，A0→A1→scaled A0→scaled A1→B0→B1→B2→scaled B0→scaled B1 →scaled B2，它是相邻块MV的中值(见图5)。利用了GMV表示参考图像和当前图像之间的时间相关性的优势，GMV依靠无人机传感器记录的如旋转角度、高度和速度之类的传感器信息。如图5所示，我们使用图中所示的不同颜色将这些矢量分为三类：左、上、右上。

如果候选列表中的元素数小于两个(例如，空间MV不可用)，则将添加零 MV(0,0)到候选列表中。因此，步骤S5中的MV候选列表Candidate_List(如果时间MV和空间MV都可用)为：

式中，

为第一个候选运动矢量，从公式中可以看到，第一个候选MV 是d，D表示t时刻的全局运动矢量(GMV)；

GMV为全局运动矢量集合；

为第二个候选运动矢量(MV)，从公式中可以看到，第二个候选MV 是中值MV(MedianMV)，它被称为局部运动矢量(LMV)；

MedianMV为无人机传感器记录的传感器信息的分类集合，且

和

分别为传感器信息三种分类；

LMV为本地运动矢量集合。

图5展示了当前块的相邻块(左、上、右上)的MV分别表示为

和

上述步骤S5中，通过使用最小失真率代价方法从MV候选列表中选择最佳 MV预测器，进而确定对应的最佳搜索点；

其中，最佳MV预测器

为：

式中，

为MV候选列表中的一个元素；

λ为用于速率控制调节的拉格朗日乘数；

为拉格朗日率失真代价函数，且

SAD(a,b)为a和b之间的绝对差之和；

PU_orig和PU_pred分别表示原始PU和被预测PU；

R为比特数；

为原始PU的预测量；

ph、pw分别为当前PU的高度和宽度；

和

分别为沿x轴和y轴方向的运动矢量；

通过最小化拉格朗日率失真代价函数

确定最佳搜索点

为：

式中，

为指向搜索窗口中所有搜索点的MV。

在解码器中的视频解码阶段，HEVC使用基于网络抽象层(NAL)单元的比特流结构。一个NAL单元由一个单元报头和一个单元有效载荷组成。此处我们至关注NAL单元报头扩展，因为它们被格式化为一个固定的结构，并且不包含具有变长度的代码，这使得它们成为编解码结构扩展的理想选择。NAL单元有效载荷保存有可变长度压缩的原始字节序列，在标准HEVC的NAL单元结构中，我们提出了一个用于识别跳过的图片的NAL单元报头的扩展结构。

图6的(a)、(b)、(c)展示了标准的和扩展的HEVCNAL单元报头结构，其中，(a)HEVC的NAL单元报头结构；(b)我们提出的扩展NAL报头文件结构；(c)用于传感器信息存储的附加文件‘hm_info()’；第一个比特位被称为 “forbidden_zero_bit”，它总是被设置为零，以使HEVC视频能够支持MPEG-2 传输系统。紧接着的6个比特位被称为“nal_unit_type”，用于指定NAL单元类型。在标准HEVC中，常要求将占有6个比特位的“nuh_layer_id”设置为零，并用于识别将来扩展的附加层。占最后3个比特位的时间ID被命名为 “nuh_temporal_id_plus1”。“skip_picture_mode”占用1个比特位，它用来确定当前图像是否为被跳过的帧，“hm_info()”(见图6(c))中的参数数组存储着传感器日志信息，它也规定了图像帧是否作为参考帧。

如图7所示，结合NAL单元报头中存储的数据，上述步骤S7具体为：

S71、根据NAL单元报头中存储的结构相似性检查结果，依次判断其对应的图像帧是否为被跳过的图像帧；(即通过NAL单元报头中的 “skip_picture_mode”判断图像帧是否为被跳过的帧)

若是，则进入步骤S73；

若否，则进入步骤S72；

上述步骤S72中，重构出被跳过的图像帧对应的图像的公式为：

式中，F_skipped为之前被跳过的但又重构出来的图像；

H_skipped为存储在NAL单元报头中的单应矩阵(“homography_matrix”)；

F_ref为未被跳过的被解码出的作为参考帧的图像帧；

D_ref和H_ref为参考帧的全局运动矢量(“global_motion_vector”)和单应矩阵(“homography_matrix”)。

本发明的有益效果为：