CN111263167A - 基于传感器辅助全局运动估计的uav视频编解码方法 - Google Patents

基于传感器辅助全局运动估计的uav视频编解码方法 Download PDF

Info

Publication number
CN111263167A
CN111263167A CN202010119355.8A CN202010119355A CN111263167A CN 111263167 A CN111263167 A CN 111263167A CN 202010119355 A CN202010119355 A CN 202010119355A CN 111263167 A CN111263167 A CN 111263167A
Authority
CN
China
Prior art keywords
image
matrix
image frame
unmanned aerial
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010119355.8A
Other languages
English (en)
Inventor
骆春波
罗杨
李智
吴佳
韦仕才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010119355.8A priority Critical patent/CN111263167A/zh
Publication of CN111263167A publication Critical patent/CN111263167A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了基于传感器辅助全局运动估计的UAV视频编解码方法,该方法引入了基于传感器信息辅助的全局运动估计方法,并基于HEVC当前框架设计了一套UAV高清视频编解码的整体流程。解决了由无人机运动带来的视频图像位移较大和畸变较大以及运动矢量估计不准确的问题,有效提高了基于HEVC标准的无人机视频编码效率,降低了编码复杂度。

Description

基于传感器辅助全局运动估计的UAV视频编解码方法
技术领域
本发明属于无人机视频数据处理技术领域,具体涉及基于传感器辅助全局 运动估计的UAV视频编解码方法。
背景技术
携带多个传感器的UAV(Unmanned Aerial Vehicles,无人驾驶飞行器)在视频 侦察、开发和监视等重要任务中具有广泛的应用价值。然而,如何将高清晰度 视频有效地压缩并传输给客户端,是基于视频的无人机应用目前迫切需要解决 的问题。
现有的方法中,提出了一种基于元数据的图像坐标系转换模型,该模型适 用于大多数的中高度无人机,以辅助搜索算法的实现;另外一种用于UAV检测 应用的低延迟和低复杂度的视频编码方案,该方案使用从UAV传感器元数据得 到的单应性变换来替换图像级的整型运动估计方法。以上讨论的传感器辅助视 频编码方法都是使用了纯粹的平移或仿射变换。然而,对于空中视频流而言, 由相机运动引起的较大的位移和畸变会令相邻帧的重叠区域变得相当小,另外 运动矢量也不能用仿射运动模型中的共线变换简单表示。
发明内容
针对现有技术中的上述不足,本发明提供的基于传感器辅助全局运动估计 的UAV视频编解码方法解决了由无人机运动带来的视频图像位移较大和畸变较 大以及运动矢量估计不准确的问题,有效提高了基于HEVC标准的无人机视频 编码效率,降低了编码复杂度。
为了达到上述发明目的,本发明采用的技术方案为:基于传感器辅助全局 运动估计的UAV视频编解码方法,包括以下步骤:
S1、在基站数据传输范围内,通过无人机机载相机拍摄视频数据,同时通 过无人机携带的传感器获取无人机的运动测量数据;
S2、对无人机的运动测量数据进行中值滤波处理,并构建对应的单应矩阵;
S3、将视频数据对应的图像帧分别乘以对应的单应矩阵,获得视频数据坐 标变换后对应的标定图像;
S4、对视频数据的每个图像帧进行结构相似性检查,构建对应的输入到编 码器进行编码的GOP序列;
同时,将每个图像帧的结构相似性检查结果存入NAL单元报头中;
S5、在编码器中,通过快速ME算法对GOP序列进行处理,构建每个标定 图像对应的MV候选列表和最佳搜索点;
S6、将GOP序列中的标定图像及其对应的MV候选列表和最佳搜索点输入 到编码引擎中,对其进行数据压缩处理,得到视频编码码流;
同时,将每个标定图像对应的单应矩阵存入NAL单元报头,与视频编码码 流一并输入到解码器中;
S7、在解码器中,基于NAL单元报头中的存储数据,对视频编码码流中的 图像帧进行解码,实现UAV视频解码。
进一步地,所述步骤S2具体为:
S21、构建用于表示视频数据图像帧的图像坐标系与相机坐标系之间的映射 关系的内部矩阵K为:
Figure BDA0002392493010000021
式中,sx和sy分别为视频数据图像帧中每个像素的宽度和高度;
cx和cy分别为无人机机载相机的水平和垂直偏移量;
S22、构建用于表示相机坐标系相对于地面坐标系的外部矩阵;
所述外部矩阵包括位置关系矩阵T和方向关系矩阵R;
其中,位置关系矩阵T为:
T=[tx ty tz]′=[vxdt vydt vzdt]′
式中,tx、ty和tz分别表示沿X、Y和Z轴的平移量,dt为采样间隔,vx vy vz为分别为无人机沿x轴、y轴和z轴的速度;
方向关系矩阵R为:
Figure BDA0002392493010000031
式中,Rψ、Rφ和Rθ分别为无人机的航向旋转矩阵、俯仰旋转矩阵和横滚旋转 矩阵;
ψ、φ和θ分别为无人机的航向旋转角度、俯仰旋转角度和横滚旋转角度;
S23、基于内部矩阵和外部矩阵,得到t时刻时,从图像坐标系到地面坐标 系的透视变换矩阵,即单应矩阵Ht为:
Figure BDA0002392493010000032
式中,d为无人机所在的高度。
进一步地,所述步骤S3中的标定图像Ft *为:
Ft *=HtFt
式中,Ft为t时刻的图像帧,且图像帧Ft与Ft+1的变换式为:
Figure BDA0002392493010000033
式中,D为标定图像的整体位移服从线性变换的变换式,且D=[dx dy]′,dx和dy分别为t时刻的全局运动矢量;
M为从Ft到Ft+1的运动矢量矩阵。
进一步地,所述步骤S4具体为:
S41、设t+1时刻的图像帧Ft+1的预测帧为Ftmp
S42、计算图像帧Ft+1与预测帧Ftmp的结构相似性值SSIM;
S43、判断SSIM是否大于设定的阈值;
若是,则进入步骤S44;
若否,则进入步骤S45;
S44、跳过该图像帧,并将该图像帧Ft+1对应的结构相似性检查结果存入该 图像帧Ft+1对应的NAL单元报头中;
S45、将图像帧Ft+1对应的标定图像
Figure BDA0002392493010000041
加入到GOP序列中,并将图像帧Ft+1
Figure BDA0002392493010000042
的全局运动矢量输入到编码器中的GMV中。
进一步地,所述步骤S5中的MV候选列表Candidate_List为:
Figure BDA0002392493010000043
式中,
Figure BDA0002392493010000044
为第一个候选运动矢量,即为t时刻的全局运动矢量;
GMV为全局运动矢量集合;
Figure BDA0002392493010000045
为第二个候选运动矢量,且其为中值运动矢量,即局部运动矢量;
MedianMV为无人机传感器记录的传感器信息的分类集合,且
Figure BDA0002392493010000046
Figure BDA0002392493010000047
Figure BDA0002392493010000048
分别为传感器信息三种分类;
LMV为本地运动矢量集合。
进一步地,所述步骤S5中,通过使用最小失真率代价方法从MV候选列表 中选择最佳MV预测器,进而确定对应的最佳搜索点;
其中,最佳MV预测器
Figure BDA0002392493010000051
为:
Figure BDA0002392493010000052
式中,
Figure BDA0002392493010000053
为MV候选列表中的一个元素;
λ为用于速率控制调节的拉格朗日乘数;
Figure BDA0002392493010000054
为拉格朗日率失真代价函数,
Figure BDA0002392493010000055
Figure BDA0002392493010000056
SAD(a,b)为a和b之间的绝对差之和;
PUorig和PUpred分别表示原始PU和被预测PU;
R为比特数;
Figure BDA0002392493010000057
为原始PU的预测矢量;
ph、pw分别为当前PU的高度和宽度;
Figure BDA0002392493010000058
Figure BDA0002392493010000059
分别为沿x轴和y轴方向的运动矢量;
通过最小化拉格朗日率失真代价函数,确定最佳搜索点
Figure BDA00023924930100000510
为:
Figure BDA00023924930100000511
式中,
Figure BDA00023924930100000512
为指向搜索窗口中所有搜索点的MV。
进一步地,所述步骤S7具体为:
S71、根据NAL单元报头中存储的结构相似性检查结果,依次判断其对应 的图像帧是否为被跳过的图像帧;
若是,则进入步骤S73;
若否,则进入步骤S72;
S72、将该图像帧对应的视频编码码流数据输入到解码引擎中,并将解码出 的图像作为参考帧,进入步骤S73;
S73、根据存储在NAL单元报头中的单应矩阵和参考帧,重构出被跳过的 图像帧对应的图像,进入步骤S74;
S74、重复步骤S71-步骤S73,直到所有的图像帧均被解码或重构,进入步 骤S75;
S75、将重构出的图像和解码出的图像输入到解码引擎中,解码出所有的图 像帧,并按照图像帧的图像顺序计数进行图像帧的显示,实现UAV视频解码。
进一步地,所述步骤S72中,重构出被跳过的图像帧对应的图像的公式为:
Figure BDA0002392493010000061
式中,Fskipped为之前被跳过的但又重构出来的图像;
Hskipped为存储在NAL单元报头中的单应矩阵;
Fref为未被跳过的被解码出的作为参考帧的图像帧;
Dref和Href为参考帧的全局运动矢量和单应矩阵。
本发明的有益效果为:
本发明方法综合考虑了无人机带来的全局运动影响和由前景对象带来的局 部运动的影响,抛弃了现有技术中使用的平移和仿射模型,充分结合传感器数 据,采用了更符合实际情况的透视变换模型,消除了相机外部运动的影响;本 发明方法与标准HM-16.10编解码器相比,在保证PSNR和SSIM不变的情况下, 降低了视频数据编码时间,提高了压缩比,进而有效提高了无人机视频的编码 效率。
附图说明
图1为本发明提供的基于传感器辅助全局运动估计的UAV视频编解码方法 流程图。
图2为本发明提供的传感器辅助视频编解码系统流水线结构图。
图3为本发明提供的无人机部署场景及针孔模型示意图。
图4为本发明提供的当前块的GMV计算示意图。
图5为本发明提供的从当前块中选择空间MV并填充当前块的MV候选列 表示意图。
图6为本发明提供的NAL单元报头结构示意图。
图7为本发明提供的解码器对编码码流进行解码的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理 解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的 普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精 神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保 护之列。
如图1所示,基于传感器辅助全局运动估计的UAV视频编解码方法,包括 以下步骤:
S1、在基站数据传输范围内,通过无人机机载相机拍摄视频数据,同时通 过无人机携带的传感器获取无人机的运动测量数据;
S2、对无人机的运动测量数据进行中值滤波处理,并构建对应的单应矩阵;
S3、将视频数据对应的图像帧分别乘以对应的单应矩阵,获得视频数据坐 标变换后对应的标定图像;
S4、对视频数据的每个图像帧进行结构相似性检查,构建对应的输入到编 码器进行编码的GOP序列;
同时,将每个图像帧的结构相似性检查结果存入NAL单元报头中;
S5、在编码器中,通过快速ME算法对GOP序列进行处理,构建每个标定 图像对应的MV候选列表和最佳搜索点;
S6、将GOP序列中的标定图像及其对应的MV候选列表和最佳搜索点输入 到编码引擎中,对其进行数据压缩处理,得到视频编码码流;
同时,将每个标定图像对应的单应矩阵存入NAL单元报头,与视频编码码 流一并输入到解码器中;
S7、在解码器中,基于NAL单元报头中的存储数据,对视频编码码流中的 图像帧进行解码,实现UAV视频解码。
如图2所示,提供了本发明中的传感器辅助视频编解码系统的流水线,它 由它由三个关键模块组成:发送端的数据预处理模块和视频编码模块,客户端 的视频解码模块:
在数据预处理阶段,在对UAV视频数据进行编码前,需要对视频数据和传 感器数据进行预处理,触感器数据因其测量结果常常会受到噪声污染,为了去 除传感器信号的噪声,首先对传感器获取的数据进行中值滤波处理;与静止相 机拍摄的视频帧不同,航空视频帧序列不会被投影到同一图像平面,相机成像 模型是一种从真实世界坐标系到图像坐标系的常见针孔投影映射,相机坐标系、 图像坐标系和地面坐标系之间的关系如图3所示,为了消除无人机飞行动作引 入的非等距投影失真,每张图像帧都会乘以对应的单应矩阵(Homography Matrix,HM),从而从图像坐标系映射到地面坐标系,得到被校准了的图像,又被 称为被标定的图像。单应矩阵是由内部参数和外部参数共同决定的,内部参数 (又称为标定矩阵)反映了图像帧的图像坐标系与相机坐标系之间的映射关系, 而外部参数反映了相机坐标系相对于地面坐标系的位置和方向关系;因此,上 述步骤S2具体为:
S21、构建用于表示视频数据图像帧的图像坐标系与相机坐标系之间的映射 关系的内部矩阵K为:
Figure BDA0002392493010000091
式中,sx和sy分别为视频数据图像帧中每个像素的宽度和高度;
cx和cy分别为无人机机载相机的水平和垂直偏移量;
S22、构建用于表示相机坐标系相对于地面坐标系的外部矩阵;
上述外部矩阵包括位置关系矩阵T和方向关系矩阵R;通过构造一个外部矩 阵,可以得到无人机在两个时间实例之间的平移和旋转运动,给定t时刻的图像 帧Ft,t+1时刻的图像帧为Ft+1,我们用矩阵R∈M3×3和T∈M3来分别表示则表示Ft+1帧相对于Ft帧的旋转和平移运动。
其中,位置关系矩阵T为:
T=[tx ty tz]′=[vxdt vydt vzdt]′
式中,tx、ty和tz分别表示沿X、Y和Z轴的平移量,dt为采样间隔,vx vy vz为分别为无人机沿x轴、y轴和z轴的速度,单位为m/s,来源于无人机传感器 测得的数据;
方向关系矩阵R为:
Figure BDA0002392493010000092
式中,Rψ、Rφ和Rθ分别为无人机的航向旋转矩阵、俯仰旋转矩阵和横滚旋转 矩阵;
ψ、φ和θ分别为无人机的航向旋转角度、俯仰旋转角度和横滚旋转角度;
S23、基于内部矩阵和外部矩阵,得到t时刻时,从图像坐标系到地面坐标 系的透视变换矩阵,即单应矩阵Ht为:
Figure BDA0002392493010000101
式中,d为无人机所在的高度。
上述步骤S3中,只要用于坐标映射的透视变换矩阵Ht和Ht+1,标定图像Ft *就可以用下式表示:
Ft *=HtFt
式中,Ft为t时刻的图像帧;
通过应用透视变换,将视频帧投影到同一坐标系下,相邻帧之间的失真就 会减小,从而提高了相邻帧之间的结构相似性,也因此保证重构质量的同时降 低了比特率和编码时间;
经过坐标变换后,标定图像的整体位移服从线性变换D=[dx dy]′,其中dx和 dy分别为t时刻的全局运动矢量(Global Motion Vector,GMV);
Figure BDA0002392493010000102
因此,图像帧Ft与Ft+1的变换式为:
Figure BDA0002392493010000103
式中,M为从Ft到Ft+1的运动矢量矩阵。
在上述步骤S4中,在编码流水线中,利用参考帧(可以在GOP队列中找 到)和当前帧之间的结构相似性(Structural Similarity,SSIM),我们在编码之前 进行了相似度检测(由称为图像动作监视器),图像运动监视器可以确定两个相 邻图像之间是否存在大规模运动;上述步骤S4中结构相似性检查的过程具体为:
S41、设t+1时刻的图像帧Ft+1的预测帧为Ftmp
其中,Ftmp约为Ftmp=MFt
S42、计算图像帧Ft+1与预测帧Ftmp的结构相似性值SSIM;
S43、判断SSIM是否大于设定的阈值;
若是,则进入步骤S44;
若否,则进入步骤S45;
S44、跳过该图像帧,并将该图像帧Ft+1对应的结构相似性检查结果存入该 图像帧Ft+1对应的NAL单元报头中;
S45、将图像帧Ft+1对应的标定图像
Figure BDA0002392493010000111
加入到GOP序列中,并将图像帧Ft+1
Figure BDA0002392493010000112
的全局运动矢量输入到编码器中的GMV中。
在上述步骤S5中,在编码器中,如果传感器信息是准确的,M就能表示从 Ft到Ft+1的全局运动,并且Ft *与Ft+1是极为相近的。然而,由于无人机传感器的测 量噪声和连续块之间存在的局部运动,在大多数情况下M不能准确地表示每个 块中的运动。因此,编码器仍然需要执行块匹配算法来为这些块找到多个最佳 的候选MV(Motion Vector,运动矢量)。
首先,对GOP序列中的图像帧进行编码单元划分和预测单元划分操作,将 一个图像帧划分成一个个的小编码块。空中视频编码过程显示,属于背景区域 的编码块通常会有指向相同方向的MV,这意味着那些属于背景内容的块遵循全 局运动,因此当前块的最佳MV与其空间相邻块具有很强的相关性。属于前景 对象的块可能有着与相邻被解码块类似的本地MV(Local Motion Vector,LMV)。 接下来我们要对不能用M准确表示的块进行预测。以HEVC为例,在每个预测 单元(Prediction Unit,PU)的帧间预测过程中,基于概率方案会形成一个列表。 简言之,HEVC中的高级运动矢量预测(Advanced Motion VectorPrediction, AMVP)会使用更多的来自时间域、空间域的候选对象来更准确地选择MV预测器,并将MV添加到候选列表中,然后使用最小失真率(Rate-Distortion,RD)代 价方法从该列表中选择最佳的MV预测器。受快速MVP方法的启发,我们提出 了快速ME算法,该算法包括初始候选列表和块匹配搜索两个步骤;
我们的候选列表包含两个MVP,一个是包含时间相关信息的GMV(见图4), 另一个是以邻域为参考的LMV。来自相邻块的MV遵循与在AMVP中相同的 顺序,A0→A1→scaled A0→scaled A1→B0→B1→B2→scaled B0→scaled B1 →scaled B2,它是相邻块MV的中值(见图5)。利用了GMV表示参考图像和当 前图像之间的时间相关性的优势,GMV依靠无人机传感器记录的如旋转角度、 高度和速度之类的传感器信息。如图5所示,我们使用图中所示的不同颜色将 这些矢量分为三类:左、上、右上。
Figure BDA0002392493010000121
如果候选列表中的元素数小于两个(例如,空间MV不可用),则将添加零 MV(0,0)到候选列表中。因此,步骤S5中的MV候选列表Candidate_List(如果 时间MV和空间MV都可用)为:
Figure BDA0002392493010000122
式中,
Figure BDA0002392493010000123
为第一个候选运动矢量,从公式中可以看到,第一个候选MV 是d,D表示t时刻的全局运动矢量(GMV);
GMV为全局运动矢量集合;
Figure BDA0002392493010000124
为第二个候选运动矢量(MV),从公式中可以看到,第二个候选MV 是中值MV(MedianMV),它被称为局部运动矢量(LMV);
MedianMV为无人机传感器记录的传感器信息的分类集合,且
Figure BDA0002392493010000125
Figure BDA0002392493010000126
Figure BDA0002392493010000127
分别为传感器信息三种分类;
LMV为本地运动矢量集合。
图5展示了当前块的相邻块(左、上、右上)的MV分别表示为
Figure BDA0002392493010000131
Figure BDA0002392493010000132
上述步骤S5中,通过使用最小失真率代价方法从MV候选列表中选择最佳 MV预测器,进而确定对应的最佳搜索点;
其中,最佳MV预测器
Figure BDA0002392493010000133
为:
Figure BDA0002392493010000134
式中,
Figure BDA0002392493010000135
为MV候选列表中的一个元素;
λ为用于速率控制调节的拉格朗日乘数;
Figure BDA0002392493010000136
为拉格朗日率失真代价函数,且
Figure BDA0002392493010000137
Figure BDA0002392493010000138
SAD(a,b)为a和b之间的绝对差之和;
PUorig和PUpred分别表示原始PU和被预测PU;
R为比特数;
Figure BDA0002392493010000139
为原始PU的预测量;
ph、pw分别为当前PU的高度和宽度;
Figure BDA00023924930100001310
Figure BDA00023924930100001311
分别为沿x轴和y轴方向的运动矢量;
通过最小化拉格朗日率失真代价函数
Figure BDA00023924930100001312
确定最佳搜索点
Figure BDA00023924930100001313
为:
Figure BDA00023924930100001314
式中,
Figure BDA0002392493010000141
为指向搜索窗口中所有搜索点的MV。
在解码器中的视频解码阶段,HEVC使用基于网络抽象层(NAL)单元的 比特流结构。一个NAL单元由一个单元报头和一个单元有效载荷组成。此处我 们至关注NAL单元报头扩展,因为它们被格式化为一个固定的结构,并且不包 含具有变长度的代码,这使得它们成为编解码结构扩展的理想选择。NAL单元 有效载荷保存有可变长度压缩的原始字节序列,在标准HEVC的NAL单元结构 中,我们提出了一个用于识别跳过的图片的NAL单元报头的扩展结构。
图6的(a)、(b)、(c)展示了标准的和扩展的HEVCNAL单元报头结构, 其中,(a)HEVC的NAL单元报头结构;(b)我们提出的扩展NAL报头文件 结构;(c)用于传感器信息存储的附加文件‘hm_info()’;第一个比特位被称为 “forbidden_zero_bit”,它总是被设置为零,以使HEVC视频能够支持MPEG-2 传输系统。紧接着的6个比特位被称为“nal_unit_type”,用于指定NAL单元类 型。在标准HEVC中,常要求将占有6个比特位的“nuh_layer_id”设置为零, 并用于识别将来扩展的附加层。占最后3个比特位的时间ID被命名为 “nuh_temporal_id_plus1”。“skip_picture_mode”占用1个比特位,它用来确定 当前图像是否为被跳过的帧,“hm_info()”(见图6(c))中的参数数组存储着传 感器日志信息,它也规定了图像帧是否作为参考帧。
如图7所示,结合NAL单元报头中存储的数据,上述步骤S7具体为:
S71、根据NAL单元报头中存储的结构相似性检查结果,依次判断其对应 的图像帧是否为被跳过的图像帧;(即通过NAL单元报头中的 “skip_picture_mode”判断图像帧是否为被跳过的帧)
若是,则进入步骤S73;
若否,则进入步骤S72;
S72、将该图像帧对应的视频编码码流数据输入到解码引擎中,并将解码出 的图像作为参考帧,进入步骤S73;
S73、根据存储在NAL单元报头中的单应矩阵和参考帧,重构出被跳过的 图像帧对应的图像,进入步骤S74;
S74、重复步骤S71-步骤S73,直到所有的图像帧均被解码或重构,进入步 骤S75;
S75、将重构出的图像和解码出的图像输入到解码引擎中,解码出所有的图 像帧,并按照图像帧的图像顺序计数进行图像帧的显示,实现UAV视频解码。
上述步骤S72中,重构出被跳过的图像帧对应的图像的公式为:
Figure BDA0002392493010000151
式中,Fskipped为之前被跳过的但又重构出来的图像;
Hskipped为存储在NAL单元报头中的单应矩阵(“homography_matrix”);
Fref为未被跳过的被解码出的作为参考帧的图像帧;
Dref和Href为参考帧的全局运动矢量(“global_motion_vector”)和单应矩阵(“homography_matrix”)。
本发明的有益效果为:
本发明方法综合考虑了无人机带来的全局运动影响和由前景对象带来的局 部运动的影响,抛弃了现有技术中使用的平移和仿射模型,充分结合传感器数 据,采用了更符合实际情况的透视变换模型,消除了相机外部运动的影响;本 发明方法与标准HM-16.10编解码器相比,在保证PSNR和SSIM不变的情况下, 降低了视频数据编码时间,提高了压缩比,进而有效提高了无人机视频的编码 效率。

Claims (8)

1.基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,包括以下步骤:
S1、在基站数据传输范围内,通过无人机机载相机拍摄视频数据,同时通过无人机携带的传感器获取无人机的运动测量数据;
S2、对无人机的运动测量数据进行中值滤波处理,并构建对应的单应矩阵;
S3、将视频数据对应的图像帧分别乘以对应的单应矩阵,获得视频数据坐标变换后对应的标定图像;
S4、对视频数据的每个图像帧进行结构相似性检查,构建对应的输入到编码器进行编码的GOP序列;
同时,将每个图像帧的结构相似性检查结果存入NAL单元报头中;
S5、在编码器中,通过快速ME算法对GOP序列进行处理,构建每个标定图像对应的MV候选列表和最佳搜索点;
S6、将GOP序列中的标定图像及其对应的MV候选列表和最佳搜索点输入到编码引擎中,对其进行数据压缩处理,得到视频编码码流;
同时,将每个标定图像对应的单应矩阵存入NAL单元报头,与视频编码码流一并输入到解码器中;
S7、在解码器中,基于NAL单元报头中的存储数据,对视频编码码流中的图像帧进行解码,实现UAV视频解码。
2.根据权利要求1所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S2具体为:
S21、构建用于表示视频数据图像帧的图像坐标系与相机坐标系之间的映射关系的内部矩阵K为:
Figure FDA0002392490000000021
式中,sx和sy分别为视频数据图像帧中每个像素的宽度和高度;
cx和cy分别为无人机机载相机的水平和垂直偏移量;
S22、构建用于表示相机坐标系相对于地面坐标系的外部矩阵;
所述外部矩阵包括位置关系矩阵T和方向关系矩阵R;
其中,位置关系矩阵T为:
T=[tx ty tz]′=[vxdt vydt vzdt]′
式中,tx、ty和tz分别表示沿X、Y和Z轴的平移量,dt为采样间隔,vx vy vz为分别为无人机沿x轴、y轴和z轴的速度;
方向关系矩阵R为:
Figure FDA0002392490000000022
式中,Rψ、Rφ和Rθ分别为无人机的航向旋转矩阵、俯仰旋转矩阵和横滚旋转矩阵;
ψ、φ和θ分别为无人机的航向旋转角度、俯仰旋转角度和横滚旋转角度;
S23、基于内部矩阵和外部矩阵,得到t时刻时,从图像坐标系到地面坐标系的透视变换矩阵,即单应矩阵Ht为:
Figure FDA0002392490000000023
式中,d为无人机所在的高度。
3.根据权利要求2所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S3中的标定图像Ft *为:
Ft *=HtFt
式中,Ft为t时刻的图像帧,且图像帧Ft与Ft+1的变换式为:
Figure FDA0002392490000000031
式中,D为标定图像的整体位移服从线性变换的变换式,且D=[dx dy]′,dx和dy分别为t时刻的全局运动矢量;
M为从Ft到Ft+1的运动矢量矩阵。
4.根据权利要求3所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S4具体为:
S41、设t+1时刻的图像帧Ft+1的预测帧为Ftmp
S42、计算图像帧Ft+1与预测帧Ftmp的结构相似性值SSIM;
S43、判断SSIM是否大于设定的阈值;
若是,则进入步骤S44;
若否,则进入步骤S45;
S44、跳过该图像帧,并将该图像帧Ft+1对应的结构相似性检查结果存入该图像帧Ft+1对应的NAL单元报头中;
S45、将图像帧Ft+1对应的标定图像
Figure FDA0002392490000000032
加入到GOP序列中,并将图像帧Ft+1
Figure FDA0002392490000000033
的全局运动矢量输入到编码器中的GMV中。
5.根据权利要求4所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S5中的MV候选列表Candidate_List为:
Figure FDA0002392490000000034
式中,
Figure FDA0002392490000000035
为第一个候选运动矢量,即为t时刻的全局运动矢量;
GMV为全局运动矢量集合;
Figure FDA0002392490000000041
为第二个候选运动矢量,且其为中值运动矢量,即局部运动矢量;
MedianMV为无人机传感器记录的传感器信息的分类集合,且
Figure FDA0002392490000000042
Figure FDA0002392490000000043
Figure FDA0002392490000000044
分别为传感器信息三种分类;
LMV为本地运动矢量集合。
6.根据权利要求5所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S5中,通过使用最小失真率代价方法从MV候选列表中选择最佳MV预测器,进而确定对应的最佳搜索点;
其中,最佳MV预测器
Figure FDA0002392490000000045
为:
Figure FDA0002392490000000046
式中,
Figure FDA0002392490000000047
为MV候选列表中的一个元素;
λ为用于速率控制调节的拉格朗日乘数;
Figure FDA0002392490000000048
为拉格朗日率失真代价函数,且
Figure FDA0002392490000000049
Figure FDA00023924900000000410
SAD(a,b)为a和b之间的绝对差之和;
PUorig和PUpred分别表示原始PU和被预测PU;
R为比特数;
Figure FDA00023924900000000411
为原始PU的预测矢量;
ph、pw分别为当前PU的高度和宽度;
Figure FDA00023924900000000412
Figure FDA00023924900000000413
分别为沿x轴和y轴方向的运动矢量;
通过最小化拉格朗日率失真代价函数
Figure FDA0002392490000000051
确定最佳搜索点
Figure FDA0002392490000000052
为:
Figure FDA0002392490000000053
式中,
Figure FDA0002392490000000054
为指向搜索窗口中所有搜索点的MV。
7.根据权利要求6所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S7具体为:
S71、根据NAL单元报头中存储的结构相似性检查结果,依次判断其对应的图像帧是否为被跳过的图像帧;
若是,则进入步骤S73;
若否,则进入步骤S72;
S72、将该图像帧对应的视频编码码流数据输入到解码引擎中,并将解码出的图像作为参考帧,进入步骤S73;
S73、根据存储在NAL单元报头中的单应矩阵和参考帧,重构出被跳过的图像帧对应的图像,进入步骤S74;
S74、重复步骤S71-步骤S73,直到所有的图像帧均被解码或重构,进入步骤S75;
S75、将重构出的图像和解码出的图像输入到解码引擎中,解码出所有的图像帧,并按照图像帧的图像顺序计数进行图像帧的显示,实现UAV视频解码。
8.根据权利要求7所述的基于传感器辅助全局运动估计的UAV视频编解码方法,其特征在于,所述步骤S72中,重构出被跳过的图像帧对应的图像的公式为:
Figure FDA0002392490000000055
式中,Fskipped为之前被跳过的但又重构出来的图像;
Hskipped为存储在NAL单元报头中的单应矩阵;
Fref为未被跳过的被解码出的作为参考帧的图像帧;
Dref和Href为参考帧的全局运动矢量和单应矩阵。
CN202010119355.8A 2020-02-26 2020-02-26 基于传感器辅助全局运动估计的uav视频编解码方法 Withdrawn CN111263167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010119355.8A CN111263167A (zh) 2020-02-26 2020-02-26 基于传感器辅助全局运动估计的uav视频编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010119355.8A CN111263167A (zh) 2020-02-26 2020-02-26 基于传感器辅助全局运动估计的uav视频编解码方法

Publications (1)

Publication Number Publication Date
CN111263167A true CN111263167A (zh) 2020-06-09

Family

ID=70952769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010119355.8A Withdrawn CN111263167A (zh) 2020-02-26 2020-02-26 基于传感器辅助全局运动估计的uav视频编解码方法

Country Status (1)

Country Link
CN (1) CN111263167A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911294A (zh) * 2021-03-22 2021-06-04 杭州灵伴科技有限公司 一种使用imu数据的视频编码、解码方法,xr设备和计算机存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911294A (zh) * 2021-03-22 2021-06-04 杭州灵伴科技有限公司 一种使用imu数据的视频编码、解码方法,xr设备和计算机存储介质

Similar Documents

Publication Publication Date Title
US11202081B2 (en) Interaction between IBC and BIO
Katsaggelos et al. Super resolution of images and video
US8351685B2 (en) Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
CN100544444C (zh) 用于全景图像的运动估计和补偿的方法和设备
US20070171987A1 (en) Method for optical flow field estimation using adaptive Filting
EP1809041A1 (en) Error concealement for scalable video coding
US20100272184A1 (en) System and Method for Real-Time Super-Resolution
CN108012155A (zh) 预拼接图像的视频编码方法、视频解码方法和相关的装置
EP3566451B1 (en) Processing of equirectangular object data to compensate for distortion by spherical projections
JP2008154015A (ja) 復号化方法および符号化方法
JP2011508517A (ja) 適応探索範囲を用いた動き推定
CN108449599B (zh) 一种基于面透射变换的视频编码与解码方法
WO2022174784A1 (en) On boundary padding motion vector clipping in image/video coding
US20220148131A1 (en) Image/video super resolution
CN113824961B (zh) 一种可适用于vvc编码标准的帧间图像编码方法与系统
Wang et al. Fast depth video compression for mobile RGB-D sensors
US20220116633A1 (en) Deep loop filter by temporal deformable convolution
CN111263167A (zh) 基于传感器辅助全局运动估计的uav视频编解码方法
EP0731612B1 (en) Apparatus for encoding a video signal using search grids for motion estimation and compensation
Chen et al. Multisource surveillance video coding with synthetic reference frame
US20220182676A1 (en) Visual Quality Assessment-based Affine Transformation
CN114915791B (zh) 基于二维规则化平面投影的点云序列编解码方法及装置
Chu et al. Hierarchical global motion estimation/compensation in low bitrate video coding
Kommerla et al. Real-Time Applications of Video Compression in the Field of Medical Environments
JP5067471B2 (ja) 復号化方法、復号化装置、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200609

WW01 Invention patent application withdrawn after publication