CN103533348B

CN103533348B - 基于视觉感知的多视点快速模式选择方法

Info

Publication number: CN103533348B
Application number: CN201310444517.5A
Authority: CN
Inventors: 王永芳; 商习武; 罗丽冬; 张兆杨
Original assignee: University of Shanghai for Science and Technology
Current assignee: Jiangsu Kunhua Intelligent Technology Co ltd
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2017-02-01
Anticipated expiration: 2033-09-26
Also published as: CN103533348A

Abstract

本发明涉及基于视觉感知的多视点快速模式选择方法。本方法的操作步骤如下：(1) 读取B视点输入视频的每帧像素值，建立时域的恰可辨失真阈值模型;(2) 利用恰可辨失真模型，进行感知模式选择;(3) 输出视频比特流。本发明在保证编码性能几乎不变的同时，能够显著降低多视点视频编码的复杂度，能够满足实际应用中对视频通信的实时需求。

Description

基于视觉感知的多视点快速模式选择方法

技术领域

本发明涉及多视点编码技术领域，特别是利用恰可辨失真模型进行快速模式选择，提高了视频编码效率，便于网络通信。

背景技术

随着信息技术的发展，人们已经不满足于二维视频带来的视觉享受，而是追求更加身临其境的3D视频。3D视频在给人们带来新的视频盛宴的同时，对现有的网络通信技术也提出了更大的挑战。由于3D视频需要编码传输多路的视频信息，它的数据量相对于传统的单路视频增加了几倍。为此，视频编码联合开发小组制定了多视点视频编码标准，提高了视频的压缩效率。但是，视频编码复杂度的增加阻碍了多视点编码技术在实际中的应用。为此，广大视频研究者对多视点视频编码框架进行优化，提高视频的编码效率。

多视点编码技术是基于宏块编码，对于一帧图像的不同纹理和运动区域，找到最佳的参考帧，并采取穷尽所有的块预测模式，最终找到最优的预测模式。这种穷尽算法虽然能够获得最佳的编码性能，但是也大大增加了编码复杂度。

经过试验发现：在不同的图像区域里，各种参考帧和预测模式的选取概率是不同的。对于运动快的区域，通常选取相邻视点的参考帧。这是因为在视点内的参考帧中进行运动搜索，其搜索的运动矢量相当的大；而使用相邻视点的参考帧，由于只是摄像机拍摄的角度差异，其搜索的视差矢量比视点内搜索出的运动矢量小很多，所以只有在运动快的区域，才会进行视点间的参考，反之，在运动缓慢区域只使用视点内的参考帧。当我们检测出图像的某区域运动很缓慢，直接剔除视点间的参考帧，可以提高视频的编码效率。在纹理平滑的区域，由于纹理特性一致，适合大的块预测模式；在纹理复杂的区域，由于纹理的无规律性，需要用较小块进行预测。

因此，通过分析图像的特性，我们可以提前选取参考帧和块预测模式。恰可辨失真模型正是在分析图像的基本特性的情况下建立的，为此通过恰可辨失真阈值，选择不同的参考帧进行不同的块大小预测，可以提高视频的编码效率。

发明内容

本发明的目的是针对已有技术存在的缺陷，提供基于视觉感知的多视点快速模式选择方法，该方法通过恰可辨失真阈值的不同，通过提前选择不同参考帧和预测模式，来达到提高视频编码效率的目的。

为达到上述目的，本发明采用如下的技术方案：

基于视觉感知的多视点快速模式选择方法，其特征在于操作步骤如下：

(1) 读取B视点输入视频的每帧像素值，建立时域的恰可辨失真阈值模型;

(2) 利用恰可辨失真模型，进行感知模式选择;

(3) 输出视频比特流。

本发明的基于视觉感知的多视点快速模式选择方法与已有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

1）、该快速编码方法与原有的多视点参考方法相比，平均时间缩短了82%；

2）、该快速编码方法在提高编码效率的同时，其编码性能与参考代码的编码性能几乎一致。

附图说明

图1是本发明中的基于视觉感知的多视点快速模式选择方法的原理框图。

图2是时域的恰可辨失真模型的框图。

图3是进行感知模式选择的框图。

图4是输出比特流的框图。

图5是视频测试序列champagne在本发明提出的方法和多视点编码参考方法下的率失真代价曲线的对比图。

图6是四种有代表性的测试序列在本发明方法下，PSNR，比特率和编码时间相对于参考方法的变化情况。

具体实施方式

以下结合附图对本发明的优选实施例作进一步的详细说明：

实施例一：

本实施例基于视觉感知的多视点快速模式选择方法，参见图1，包括以下步骤：

(1) 读取B视点输入视频的每帧像素值，建立时域的恰可辨失真模型;

(2) 利用恰可辨失真模型，进行感知模式选择;

(3) 输出视频比特流。

实施例二：本实施例与实施例一基本相同，特别之处如下：

上述步骤(1)中读取B视点输入视频的每帧像素值，建立时域的恰可辨失真模型包括两个模型，参见图2：

（1-1）求出纹理恰可辨失真子模型，其公式为：

其中为通过canny算子检测到的边缘点的个数，为宏块的边长；

（1-2）计算时域掩盖恰可辨失真子模型曲线表示如下：

其中，，和为常数，分别取8,3.2和0.8，为当前编码帧和前一帧的平均亮度值的差值，表达式如下：

其中表示第帧坐标处的像素值，的表达式如下：

矩阵。

（1-3）求得的两种因子的加权乘积即构成当前图像的恰可辨失真阈值:

上述步骤(2)是利用恰可辨失真模型，进行感知模式选择，参见图3，其具体步骤如下：

（2-1）存储JND阈值，判断当前编码帧是否是关键帧，如果是跳入步骤（2-2）；否则进一步判断，如果否则跳入步骤（2-3），否则进一步判断（实验中取0.01），如果是则跳入步骤（2-4），如果否则比较当前宏块的恰可辨失真均值是否小于当前整帧的恰可辨失真均值，如果是则跳入步骤（2-5），否则跳入步骤（2-6），和的表达式分别如下：

，

其中，分别为图像的高度和宽度。

（2-2）计算阈值，并穷尽所有预测模式，的表达式为：

其中表示在关键帧中的进行视点间预测的的均值，表示在关键帧中进行视点内预测的的均值。

（2-3）剔除参考帧列表中的视点间预测帧。

（2-4）选取大小为16x16（skip，inter16x16和intra16x16）的预测模式。

（2-5）选取大小为16x16（skip，inter16x16和intra16x16）和intra4的预测模式，如果skip是最佳预测模式，则跳转到步骤（2-9），否则跳入步骤（2-7）。

（2-6）选取大小为16x16（skip，inter16x16和intra16x16）和intra4，inter16x8，inter8x16的预测模式，如果16x16（skip，inter16x16和intra16x16）是最佳预测模式，则跳入步骤（2-9），否则跳入步骤（2-8）。

（2-7）进行inter16x8，inter8x16模式预测：

（2-8）进行inter8x8模式预测。

（2-9）通过率失真代价函数选取最佳预测模式，并进行下一个宏块编码。

上述步骤(3) 输出视频比特流，参见图4，其具体步骤如下：

（3-1）对预测后的残差进行量化。

（3-2）对量化后的值进行DCT变换。

（3-3）进行熵编码，输出视频比特流。

下面进行仿真实验来评估本文所提出的基于视觉感知的多视点快速模式选择方法。在配置为Intel Core i3， CPU 3.3GHz, 4GB RAM, Window 7的PC机上，选取了四种典型的视频测试序列breakdancers，ballet，champagne和dog。其中breakdancers和ballet的大小为1024×768，breakdancers运动剧烈，纹理复杂，ballet运动剧烈，纹理简单，champagne和dog的大小为1280×960，champagne运动缓慢，纹理简单，dog运动适中，纹理适中。编码的环境为：量化参数分别为24,28,32,36；运动搜索范围为48；一个图像编码组（GOP）为8，熵编码方式为基于上下文的自适应二进制算术熵编码方式（CABAC）。

通过对比在本发明方法和参考方法（JMVC 8.2）下，PSNR，比特率和编码时间的变化情况来验证本方法的有效性。

图5对比了两种方法（本方法和JMVC）下，率失真代价（RD）性能曲线的差异。从图中可以看出，本发明提出的方法的RD性能和参考方法RD性能几乎一致。

图6给出了在本方法下，PSNR，比特率和编码时间的变化情况。其中DP表示在本方法作用下，PSNR相对于参考方法的变化，DR表示在本方法作用下，比特率相对于参考方法的变化率，DT表示在本方法作用下，编码时间相对于参考方法的变化率。由图中可以看出：在champagne序列中，最高可节省85.46%的编码时间，而PSNR仅下降0.01db，比特率几乎不增加（图中显示为零，是由于只保留小数点后两位）。这是由于在champagne序列中，大部分图像区域，纹理比较简单，运动比较缓慢。在四组测试序列中，PSNR平均下降了0.05db，比特率增加了0.28%，而编码时间下降了82.05%。

结合以上各图表可以看出，本发明基于视觉感知的多视点快速模式选择方法，利用JND模型，对多视点编码过程中的B视点进行加速，在保证编码性能基本不变的情况下，能够显著的提高编码效率，实用于实际视频通信中对实时性要求高的情况。

Claims

1.基于视觉感知的多视点快速模式选择方法，其特征在于操作步骤如下：

(2) 利用恰可辨失真模型，进行感知模式选择;

(3) 输出视频比特流；

所述步骤(2) 利用恰可辨失真模型，进行感知模式选择的操作步骤如下：

① 存储JND阈值，判断当前编码帧是否是关键帧，如果是跳入步骤②，否则进一步判断，如果否则跳入步骤③，否则进一步判断（），如果是则跳入步骤④，如果否则比较当前宏块的恰可辨失真均值是否小于当前帧的恰可辨失真均值，如果是则跳入步骤⑤，否则跳入步骤⑥，其中JNDtxt为纹理恰可辨失真子模型，JND_T为时域掩盖可辨失真子模型；

② 计算阈值，并穷尽所有预测模式，的表达式如下：

其中表示在关键帧中的进行视点间预测的的均值，表示在关键帧中进行视点内预测的的均值；

③ 剔除参考帧列表中的视点间预测帧；

④ 进行大小为16x16—skip，inter16x16和intra16x16的模式预测；

⑤ 进行大小为16x16—skip，inter16x16和intra16x16和intra4的预测模式，如果skip是最佳预测模式，则跳转到步骤⑨，否则跳入步骤⑦；

⑥进行大小为16x16—skip，inter16x16和intra16x16，intra4，inter16x8，inter8x16的预测模式，如果大小为16x16—skip，inter16x16和intra16x16模式是最佳预测模式，则跳入步骤⑨，否则跳入步骤⑧；

⑦ 进行inter16x8，inter8x16模式预测；

⑧ 进行inter8x8模式预测；

⑨ 通过率失真代价函数选取最佳预测模式，并进行下一个宏块编码。