CN107360419B

CN107360419B - 一种基于透视模型的运动前视视频帧间预测编码方法

Info

Publication number: CN107360419B
Application number: CN201710584854.2A
Authority: CN
Inventors: 段昶; 冉攀; 朱策
Original assignee: Chengdu Map Technology Co Ltd
Current assignee: Jiangshan Zhitong Technology Co.,Ltd.
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2019-09-24
Anticipated expiration: 2037-07-18
Also published as: CN107360419A

Abstract

本发明属于视频编码技术领域，具体涉及一种基于透视模型的运动前视视频帧间预测编码方法，提出基于透视模型的新运动模型、根据新的运动模型设计模板、利用所设计的模板提取参考像素并插值以及根据率失真代价选择最优预测信息。本发明针对运动前视视频在连续视频帧间表现出的一种透视效果，提出一个针对运动前视视频的基于透视模型的新运动模型；在帧间运动搜索过程中，利用所设计的模板从矩形参考块中提取出梯形参考块像素并插值成原尺寸大小的新的矩形参考块；计算率失真代价时，考虑使用模板后的失真和添加模板使用信息后所共消耗的比特，从而选择最优的帧间预测结果。改善了运动前视视频的编码效率。

Description

一种基于透视模型的运动前视视频帧间预测编码方法

技术领域

本发明属于视频编码技术领域，具体涉及一种基于透视模型的运动前视视频帧间预测编码方法。

背景技术

帧间预测是指利用视频时间域的相关性，使用邻近已编码图像像素预测当前图像像素，以达到有效去除视频时域冗余的目的。目前主要的视频编码标准帧间预测部分都采用了基于块的运动补偿技术。其主要原理是为当前图像的每个像素块在之前已编码图像中寻找一个最佳匹配块，该过程称为运动估计(Motion Estimation,ME)。其中用于预测的图像称为参考图像(Reference Frame)，参考块到当前像素块的位移称为运动向量(MotionVector,MV)，当前像素块与参考块的差值称为预测残差(Prediction Residual)。由于视频序列通常包括较强的时域相关性，因此预测残差通常是“平坦的”，即很多残差值接近于“0”。对残差信号进行变换、量化和熵编码，可实现对视频信号的高效压缩。

基于平移运动模型的块匹配运动估计(Block Matching Motion Estimation,BMME)已被用于多种视频编码标准，例如：高级视频编码标准(Advanced Video Coding,AVC)和新一代高效视频编码标准(High Efficiency Video Coding,HEVC)。例如，在HEVC中，运动预测是基于预测单元(Prediction Unit,PU)来进行的。基于平移运动模型的块匹配运动估计假设一个预测块(Prediction Block,PB)中的所有像素具有相同的运动信息，可用一个运动向量来表示预测块中所有像素的运动。

BMME适用于符合平移运动模型的预测块，但对于非平移运动的块，如旋转、缩放和变形运动等，无法得到准确的预测。运动前视视频(如车载视频，但不仅限于车载视频)在连续视频帧间表现出一种透视效果，整个视频帧向四周扩展，视频帧边缘处视频内容逐渐消失，同时视频帧中心处又有新的视频内容添加进来。视频帧中物体的运动除了平移运动外，还包括缩放等运动，并且，物体运动的剧烈程度还与物体在视频帧中的相对位置有关。因此，运动前视视频编码的帧间预测过程不适宜采用基于平移运动模型的块匹配运动估计方法，希望开发出一种基于透视模型的运动前视视频帧间预测编码方法。

发明内容

为了提高运动前视视频编码的帧间预测精度，改善运动前视视频的编码效率，本发明提供了一种基于透视模型的运动前视视频帧间预测编码方法。

该基于透视模型的运动前视视频帧间预测编码方法主要包括：提出基于透视模型的新运动模型、根据新的运动模型设计模板、利用所设计的模板提取参考像素并插值以及根据率失真代价(Rate Distortion Cost,RDC)选择最优预测信息(包括预测模式，参考帧，运动向量和模板等信息)共四个步骤。

具体如下：

步骤1、提出基于透视模型的新运动模型：

运动前视视频(如车载视频，但不仅限于车载视频)在连续视频帧间表现出一种透视效果，整个视频帧向四周扩展，视频帧边缘处视频内容逐渐消失，同时视频帧中心处又有新的视频内容添加进来。运动前视视频帧中根据景物深度可分为近景和远景，不失一般性，视频帧边缘处景物通常为近景，视频帧中心处景物通常为远景。近景较之于远景，其平移、缩放等运动表现得更为剧烈。对于当前视频帧中的一个矩形块，矩形块靠视频帧边缘一侧运动更为剧烈，它在与其相邻的后续几个视频帧中应近似为一个放大的梯形块(梯形包括了平行四边形和矩形)。反之，当前视频帧中的一个矩形块在其前向参考帧中应近似为一个缩小的梯形块。

由此，提出一个针对运动前视视频的基于透视模型的新运动模型，即当前矩形预测块(Prediction Block)在其前向参考帧中的参考块(Reference Block)为缩小的梯形块，梯形包括了平行四边形和矩形。

步骤2、根据新的运动模型设计模板：

为了将改进的帧间预测编码方法集成到现今主流的国际视频编码标准(如AVC和HEVC)中，根据步骤1提出的基于透视模型的新运动模型设计一组模板。由于现今主流的国际视频编码标准(如AVC和HEVC)都是采用基于平移运动模型的块匹配运动估计(BlockMatching Motion Estimation,BMME)，即当前帧中的矩形预测块的参考块也为同样大小的矩形块。但是，根据步骤1提出的针对运动前视视频的基于透视模型的新运动模型，当前帧中的矩形预测块在其前向参考帧中的参考块应为缩小的梯形块。设计模板的作用是利用模板对通过采用基于平移运动模型的块匹配运动估计方法得到的参考块像素进行梯形块像素提取。

帧中矩形预测块采用的划分模式共有8种，依次为：

2Nx2N,2NxN,Nx2N,NxN,2NxnU,2NxnD,nLx2N,nRx2N；

根据步骤1提出的基于透视模型的新运动模型，对采用2Nx2N划分模式的帧中矩形预测块设计一组梯形模板，所有梯形模板都包含于2Nx2N矩形块内且具有统一形式：梯形模板上底和下底与矩形块左右两边平行，上底的长度不大于下底，上底位于下底左侧；

定义梯形模板设计参数如下：记2Nx2N矩形块的中心点为点v，记梯形模板上底与矩形块左侧边缘的距离为S1，距离变量的单位是像素；记梯形模板下底与矩形块右侧边缘的距离为S2，记梯形模板上底长度为H1，长度变量的单位为像素；记梯形模板下底长度为H2，记梯形模板上底的下端点与矩形块下侧边缘的距离为H3；

定义梯形模板中心如下：梯形模板下底长度H2若为偶数，梯形模板中心位于下底垂直平分线上，梯形模板下底长度H2若为奇数，梯形模板中心位于下底垂直平分线向上平移0.5个像素的直线上；梯形模板的高若为偶数，梯形模板中心位于高垂直平分线上，梯形模板的高若为奇数，梯形模板中心位于高垂直平分线向右平移0.5个像素的直线上；梯形下底的垂直平分线或其平移后的直线与梯形高的垂直平分线或其平移后的直线的交点定义为梯形模板中心；

固定梯形模板的中心于2Nx2N矩形块的中心点v处，在此基础上遍历各个距离和长度变量，可生成一组对应于2Nx2N矩形块的模板；各个距离和长度变量取值范围如下：

0≤S1≤N-1 (1)

S1≤S2≤S1+1 (2)

1≤H2≤2N (3)

1≤H1≤H2 (4)

0≤H3≤2N-H1 (5)

梯形模板斜边离散化准则：梯形模板两条斜边切割像素，将包含在梯形模板内侧且面积不小于0.5个的单像素取整并纳入梯形模板内，将包含在梯形模板内侧且面积小于0.5个的单像素舍去；

上述设计方案所生成的梯形模板，上底和下底与矩形块左右两边平行，上底的长度不大于下底，上底位于下底左侧，称具有这种方向形式的模板为“左短右长”形式的模板；将这种“左短右长”形式的模板连续三次逆时针旋转90°可以分别得到“上长下短”、“左长右短”和“上短下长”三种形式的模板；

步骤3、利用所设计的模板提取参考像素并插值：

通过采用基于平移运动模型的块匹配运动估计方法得到了参考块像素后，需要利用步骤2所设计的模板从矩形参考块像素中提取出梯形参考块像素，提取的方法就是从矩形参考块中取出对应于模板位置处的像素构成与模板形状相同的梯形参考块像素。为了计算预测的准确性以及实现编解码端的图像重建，需要将梯形参考块插值为与预测块相同大小的矩形参考块。

采用线性插值的方法，分别对梯形参考块像素进行水平和垂直方向插值。插值结果与进行水平和垂直方向插值的先后顺序有关。为了使梯形参考块的四个顶点像素对应到插值后的矩形参考块的四个顶点像素，根据步骤2所述的模板的四种形式选择插值顺序如下：若采用“左短右长”或“左长右短”形式的模板，则先进行垂直方向插值，再进行水平方向插值；若采用“上短下长”或“上长下短”形式的模板，则先进行水平方向插值，再进行垂直方向插值。

步骤4、根据率失真代价(Rate Distortion Cost,RDC)选择最优预测信息：

现今主流的国际视频编码标准(如AVC和HEVC)帧间运动估计会综合考虑码率和失真，计算率失真代价(Rate Distortion Cost,RDC)，选择使率失真代价最小的运动估计结果作为最优的帧间预测结果。根据步骤3，在帧间运动估计过程中，会用梯形模板对当前矩形预测块的矩形参考块进行梯形块像素提取和插值，这会对该预测块的解码重建产生影响。因此，需要编码该预测块的模板使用信息，解码端会根据编码端传来的模板使用信息对该预测块进行与编码端相同的梯形块像素提取和插值处理，使编解码图像一致。

视频编码率失真代价计算公式如下：

J＝D+λ·R (6)

上式中，J表示当前预测模式下的率失真代价，D表示当前预测模式下的失真，R表示编码当前预测模式下所有信息所需的比特数，λ为拉格朗日因子；根据步骤3，在帧间运动估计过程中，引入两个新的语法元素来记录模板使用信息：模板索引和模板方向；模板索引用于记录模板序号，模板方向用于记录模板的四种方向形式：“左短右长”、“上长下短”、“左长右短”和“上短下长”；由上述率失真代价公式，在帧间运动估计计算率失真代价时，要综合考虑使用模板后的失真D和添加模板使用信息后所共消耗的比特R，从而获得最优的帧间预测结果，包括预测模式，参考帧，运动向量和模板使用等信息。

本发明提供的一种基于透视模型的运动前视视频帧间预测编码方法：

1、针对运动前视视频在连续视频帧间表现出的一种透视效果，提出一个针对运动前视视频的基于透视模型的新运动模型；

2、根据新的运动模型设计模板，便于将改进的帧间预测编码方法集成到现今主流的国际视频编码标准(如AVC和HEVC)中；

3、在帧间运动搜索过程中，利用所设计的模板从矩形参考块中提取出梯形参考块像素并插值成原尺寸大小的新的矩形参考块；

4、计算率失真代价时，考虑使用模板后的失真和添加模板使用信息后所共消耗的比特，从而选择最优的帧间预测结果。提高了运动前视视频编码的帧间预测精度，改善了运动前视视频的编码效率。

附图说明

图1为实施例基于透视模型提出的新运动模型示意图；

图2为实施例模板设计示意图；

图3为实施例所设计的一个模板示例，其中预测块大小为8x8；

图4为实施例中帧间预测编码方法的流程图。

附图标记：

矩形块尺寸2Nx2N；矩形块中心点v；梯形模板上底与矩形块左侧边缘的距离S1；梯形模板下底与矩形块右侧边缘的距离S2；梯形模板上底长度H1；梯形模板下底长度H2；梯形模板上底的下端点与矩形块下侧边缘的距离H3。

具体实施方式

下文结合具体实例对本发明方法作进一步的详细说明，实例的目的是通过运动前视视频的编码结果来验证本发明所述方法的有效性。

本发明以HEVC为实施例提供一种基于透视模型的运动前视视频帧间预测编码方法，但可以理解这并不局限于HEVC，还可应用于AVC、AVS等视频编码标准。

在实施过程中，首先针对运动前视视频提出一种基于透视模型的新的运动模型，如图1所示，即当前帧中的矩形预测块在其前向参考帧中的参考块近似为缩小的梯形块。新一代高效视频编码标准HEVC采用基于平移运动模型的块匹配运动估计方法，其参考块和预测块均为相同尺寸大小的矩形块。为了将提出的新的运动模型运用到HEVC的帧间预测过程中，设计了一组模板，其作用是在HEVC帧间预测过程中，对当前预测块在其前向参考帧中搜索到矩形参考块后，利用模板提取出梯形参考块像素，再插值成原尺寸大小的新的矩形参考块。在本实施例中，针对尺寸为8x8，并且采用2Nx2N分割模式的帧间预测块设计一组模板。结合模板设计示意图，如图2，根据步骤2中所述的模板设计步骤，其中对于本实施例，N的取值为4，各个距离和长度变量在其取值范围内遍历，再去除部分冗余(相同模板以及相互间可通过平移获得的模板)，可获得一组对应于尺寸为8x8，并且采用2Nx2N分割模式的帧间预测块的模板，选择其中一个模板显示，如图3。

本实施例中，将本发明提出的基于透视模型的运动前视视频帧间预测编码方法集成到HEVC的参考软件HM-16.7中，具体实施流程如图4所示。在对帧间预测块进行运动搜索(包括整像素搜索和分像素搜索)过程中，搜索到一个搜索点后，获得该搜索点处的矩形块参考像素，然后判断该预测块是否满足模板使用条件。在本实施例中，模板使用条件设置为预测块尺寸为8x8，并且采用2Nx2N的分割模式。如果预测块满足模板使用条件，对于本实施例，若预测块尺寸为8x8，并且采用2Nx2N分割模式，则该预测块在帧间运动搜索过程中，在搜索到一个搜索点，获得该搜索点处的矩形块参考像素后，要遍历所有设计的模板(每个模板包括四种方向形式)，使用模板进行步骤3所述的梯形块像素提取，并插值成原尺寸大小的新的矩形参考块，再根据步骤4所述，计算率失真代价，保留使率失真代价最小的预测结果作为对应于该搜索点处的最优预测结果。如果预测块不满足模板使用条件，则按照HEVC中原有的帧间预测过程，计算率失真代价，保留最优预测结果。获得一个搜索点处的最优预测结果后，接着判断是否搜索完所有的搜索点。若没有搜索完所有的搜索点，则继续搜索下一个搜索点，重复上述过程；若已经搜索完所有的搜索点，则输出该预测块的最优预测结果(包括预测模式，参考帧，运动向量和模板等信息)，结束该预测块的帧间运动搜索。

根据步骤4所述，对于满足模板使用条件的帧间预测块，会额外编码两个语法元素，模板索引和模板方向，这将不可避免地造成比特消耗增加。综合考虑使用模板后的失真降低和比特消耗增加，在本实施例中，对所设计的模板进行排序和筛选处理。对未经处理的这组模板，将本发明提出的帧间预测编码方法集成到HEVC的参考软件HM-16.7中，在帧间运动搜索计算率失真代价时，只考虑使用模板后的失真，不计算编码模板索引和模板方向所增加的比特，同时也不编码模板索引和模板方向，仅从降低失真的角度来考虑模板的使用情况。输出并统计模板的使用情况，按模板使用概率从大到小对模板进行排序，然后筛选出使用概率最高的部分模板作为实际编解码过程中所使用的模板集合。对于本实施例，筛选出使用概率最高的前十个模板作为本实施例实际编解码过程中所使用的模板集合。特别说明的是，索引值为0的模板固定设置为与预测块尺寸大小相同的模板，即用索引值为0的模板对原始矩形参考块的梯形块像素提取和插值等价于未对原始矩形参考块做任何处理。这样设置的目的是为了使本发明提出的帧间预测编码方法可兼容原HEVC中的帧间预测编码方法。由于索引为0的模板的四种方向形式都相同，因此对于满足模板使用条件的帧间预测块，若帧间运动搜索过程中选择了索引值为0的模板，则只需编码其模板索引值，不需编码模板方向，这有助于节省比特。

由于本发明是针对运动前视视频提出的一种帧间预测编码方法，因此将摄像头固定在汽车车前盖上方，拍摄了一段运动前视视频作为编码测试序列，该段视频的分辨率为1280x720。为适应步骤1提出的基于透视模型的新运动模型，即当前帧中的矩形预测块在其前向参考帧中近似为一个缩小的梯形块，本实施例中，编码测试条件设置为低时延lowdelay P main测试条件，其帧间参考只向前参考。

将本发明方法与HEVC参考软件HM-16.7中帧间预测方法分别编码所拍摄的运动前视视频25帧，计算编码结果。编码评价指标为BD bitrate(G.Bjontegaard,“Improvementsof the BD-PSNR model,”ITU-T Video Coding Experts Group(VCEG),Heinrich-Hertz-Institute,Berlin,Germany,VCEG-AI11,Jul.2008.),负值表示有编码增益。编码结果显示如下表：

观察视频编码结果主要关注亮度分量，由上表结果可见亮度分量具有编码增益，同时综合亮度分量与色度分量，也具有编码增益。因此，本发明方法对于原HEVC中帧间预测方法有编码增益，针对运动前视视频的编码，本发明方法有效。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制。

上述实施例中，包括模板尺寸大小，模板使用条件，模板集合选择等均可进行调节。

本领域的技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型，但不论在其形式上作何种变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于透视模型的运动前视视频帧间预测编码方法，其特征在于，包括以下过程：

步骤1、提出基于透视模型的新运动模型：

运动前视视频在连续视频帧间表现出一种透视效果，根据视频帧中不同位置视频内容平移、缩放运动剧烈程度的不同，提出针对运动前视视频的基于透视模型的新运动模型，即当前待编码帧中矩形预测块在其前向参考帧中的参考块近似为缩小的梯形块，所述的梯形也包括平行四边形和矩形；

步骤2、根据新的运动模型设计模板：

帧中矩形预测块采用的划分模式共有8种，依次为：

2Nx2N,2NxN,Nx2N,NxN,2NxnU,2NxnD,nLx2N,nRx2N；

定义梯形模板设计参数如下：记2Nx2N矩形块的中心点为点v，记梯形模板上底与矩形块左侧边缘的距离为S1，距离变量的单位是像素；记梯形模板下底与矩形块右侧边缘的距离为S2，记梯形模板上底长度为H1，长度变量的单位是像素；记梯形模板下底长度为H2，记梯形模板上底的下端点与矩形块下侧边缘的距离为H3；

0≤S1≤N-1 (1)

S1≤S2≤S1+1 (2)

1≤H2≤2N (3)

1≤H1≤H2 (4)

0≤H3≤2N-H1 (5)

步骤3、利用所设计的模板提取参考像素并插值：

利用步骤2所设计的模板从原矩形参考块中提取出对应于梯形模板相对位置处的像素构成一个梯形参考块，然后将该梯形参考块插值为与原矩形参考块相同大小的新矩形参考块；此处采用线性插值的方法，分别对梯形参考块像素进行水平和垂直方向插值，插值结果与进行水平方向和垂直方向插值的先后顺序有关；根据步骤2所述的模板的四种形式选择插值顺序如下：若采用“左短右长”或“左长右短”形式的模板，则先进行垂直方向插值，再进行水平方向插值；若采用“上短下长”或“上长下短”形式的模板，则先进行水平方向插值，再进行垂直方向插值；

视频编码率失真代价计算公式如下：

J＝D+λ·R (6)

上式中，J表示当前预测模式下的率失真代价，D表示当前预测模式下的失真，R表示编码当前预测模式下所有信息所需的比特数，λ为拉格朗日因子；根据步骤3，在帧间运动估计过程中，引入两个新的语法元素来记录模板使用信息：模板索引和模板方向；模板索引用于记录模板序号，模板方向用于记录模板的四种方向形式：“左短右长”、“上长下短”、“左长右短”和“上短下长”；由上述率失真代价公式，在帧间运动估计计算率失真代价时，要综合考虑使用模板后的失真D和添加模板使用信息后所共消耗的比特R，从而获得最优的帧间预测结果。