CN102647591A

CN102647591A - 基于ssim评价的容错率失真优化视频编码方法、装置

Info

Publication number: CN102647591A
Application number: CN2012101131311A
Authority: CN
Inventors: 刘延伟; 赵平华; 要瑞宵; 慈松; 唐晖
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2012-04-17
Filing date: 2012-04-17
Publication date: 2012-08-22
Anticipated expiration: 2032-04-17
Also published as: CN102647591B

Abstract

本发明涉及一种基于主观视觉结构相似性SSIM评价的容错率失真优化视频编码方法、装置。所述方法包括利用SSIM作为失真的评价标准，结合信道的信息反馈，在编码端进行基于SSIM评价的端到端失真估计；根据帧内或帧间编码模式，计算该编码模式需要的比特数；通过计算容错拉格朗日因子，进行视频容错编码的率失真优化，在易出错网络传输的情况下找到最优的编码模式。本发明解决了传统联合信源信道视频编码中失真评价并不十分符合人类视觉特性的问题，同时在信源编码中引入了信道传输导致的主观失真的估计，能够抑制错误引起的主观失真传递的影响，形成了适应信道传输的容错率失真优化的主观视觉质量优化的视频编码技术。

Description

基于SSIM评价的容错率失真优化视频编码方法、装置

技术领域

本发明涉及无线通信视频编码领域，特别涉及一种基于主观视觉SSIM评价的容错率失真优化视频编码方法、装置。

背景技术

随着无线网络技术的快速发展，无线多媒体的应用得越来越广泛，例如无线视频会议系统，无线视频监控等。由于无线网络固有的不稳定，易出错的特性，为无线视频的传输质量带来了很大的影响。为提高视频传输质量，联合信源信道的方法可以相对有效的提高视频传输的质量。目前，联合信源信道编码主要采用基于MSE失真描述的率失真优化，控制端到端的视频失真。这主要是延续了H.264编码中的率失真优化的思路。H.264/AVC标准其较好地编码性能得益于它所采用的率失真优化(rate-distortion optimization，RDO)模型与一系列的编码模式等。RDO中所采用的客观的失真描述方式(如SAD，MSE等)具有计算简单实现简单的优点，但其并不能很好的体现人的视觉特性，因此H.264/AVC中已有的RDO模型并没有很好的考虑到人类的视觉特性。

近年来的研究表明，SSIM在视频质量评价中相对于以往的失真评价方法在人类视觉特性匹配上具有一定的优越性。将SSIM引入到了H.264/AVC编码的预测模式和宏块模式选择中，实验结果表明SSIM的引入在一定程度上提高了编码性能，较以往的SAD等失真描述方式，在相同的码率下，更能够提高人视觉感知到的视频质量。

虽然SSIM作为RDO模式选择的失真度量被引入到了H.264/AVC的编码过程中，提高了编码后的重构视频的视觉感知质量，但他们都没有考虑到由于传输和解码端错误隐藏所导致的视频主观质量的下降，因此不考虑信道导致主观SSIM失真的率失真优化编码方法，并不能很好的控制和适应无线传输过程中引起的端到端的视频质量下降。

发明内容

针对上述问题，本发明的目的在于提供一种基于主观视觉结构相似性SSIM评价的容错率失真优化视频编码方法、装置。

在第一方面，本发明实施例提供一种基于结构相似性SSIM主观评价的容错率失真视频编码方法，所述方法包括：在编码端进行基于SSIM评价的端到端主观失真估计，所述端到端指编码端到视频传输后的解码端；根据帧内或帧间编码模式，计算编码该模式需要的比特数；通过计算容错拉格朗日因子，进行视频容错编码的率失真优化，在易出错网络传输的情况下找到最优的编码模式；采用所述最优的编码模式进行容错率失真优化的联合信源信道编码。

在第二方面，本发明实施例提供一种基于结构相似性SSIM主观评价的容错率失真视频编码装置，所述装置包括：失真估计模块，用于在编码端进行基于SSIM评价的端到端主观失真估计，所述端到端指编码端到解码端；比特数计算模块，用于根据帧内或帧间编码模式，计算编码该模式需要的比特数；最优编码模式确定模块，用于通过计算容错拉格朗日因子，进行视频容错编码的率失真优化，在易出错网络传输的情况下找到最优的编码模式；编码模块，用于采用最优的编码模式进行容错率失真优化的联合信源信道编码。

本发明实施例的方案，借助信道导致主观SSIM失真的率失真优化编码，能较好控制和适应无线传输过程中引起的端到端的视频质量下降。

附图说明

下面结合附图，对本发明的具体实施方案做进一步的详细描述，附图中：

图1是端到端SSIM失真示意图；

图2是基于主观SSIM失真评价的容错率失真优化编码流程；

图3是基于主观SSIM失真评价的容错率失真优化编码装置示意图。

具体实施方式

本发明的目的在于，解决如何利用SSIM指导，进行主观容错率失真优化的联合信源信道编码，提高无线视频传输的主观质量，保证客户端得到较高的视频服务质量。

为了实现上述发明目的，本发明提供了一种基于SSIM评价的主观容错率失真优化的方法。该方法通过估计端到端SSIM失真，并结合编码的码率以及容错率失真优化的拉格朗日优化算子，进行率失真优化的编码模式选择，进而实现一种主观率失真优化的联合信源信道编码方法，优化无线视频的传输质量。

所述的一种基于SSIM评价的主观容错率失真优化的视频编码方法。该方法通过利用信道信息反馈，估计视频的丢包率，然后利用逐像素递归的方法估计当前编码块的端到端主观SSIM失真。通过编码码率和失真的平衡，找到最优的编码模式。率失真的平衡主要是通过拉格朗日因子来计算码率失真代价的形式来实现的。所提出的方法主要包含以下步骤，

步骤1)：在编码端进行基于SSIM评价的端到端失真估计，采用如下公式进行估计：

\tilde{D_{n, m}^{SSIM}} = 1 - (1 - ρ) SSIM (f_{n, m}, {\hat{f}}_{n, m}) - ρ \cdot SSIM (f_{n, m}, {\tilde{f}}_{n, m})

其中n为帧号，m为宏块号，f_n，m为第n帧原始图像第m个宏块，

为不丢包时解码端重构第n帧的第m个宏块，为丢包时解码端第n帧第m个宏块，ρ为丢包率，可以通过信道反馈SNR进行估计得到；

这里所述的SSIM(x，y)是表示图像x和y之间结构相似性度量，可以按如下公式计算。

SSIM (x, y) = \frac{(2 μ_{x} μ_{y} + C_{1}) (2 σ_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})},

这里μ_x和μ_y为x和y的均值，σ_x和σ_y为x和y的标准差，σ_xy为x和y之间的协方差。

其中

和

中的像素按如下方式得到：

对于帧内编码块不丢包时，帧内编码块的像素值

可以正常解码得到，当发生丢包时帧内编码块的像素值通过时域拷贝错误隐藏方式得到，也就是

对于帧间编码块的解码端重构像素按如下方式得到。当不发生丢包时，帧间编码块像素值可以正常解码得到，即

当发生丢包时，帧间编码块的像素值可以通过时域拷贝错误隐藏方式得到，即

{\tilde{f}}_{n, m}^{i} = E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}],

其中E[·]表示期望，

表示不丢包时解码端第n帧原始图像第m个宏块的第i个像素的重构值，

表示丢包时解码端第n帧原始图像第m个宏块的第i个像素的重构值，

表示解码端第n-1帧原始图像第m个宏块的第i个像素的重构值的期望值，

表示解码端第n帧原始图像第m个宏块的第i个像素的在第n-1帧中参考的某个宏块m′中的某个像素的期望值，

表示第n帧原始图像第m个宏块第i个像素相应的预测残差，

为编码时第n帧原始图像第m个宏块的第i个像素的在第n-1帧中参考的某个宏块m′中的某个像素值，所述的m与m′之间不存在特定的对应关系。

对于帧内编码块的

为

E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}] = (1 - ρ) {\hat{f}}_{n - 1, m}^{i} + ρE [{\tilde{\tilde{f}}}_{n - 2, m}^{i}];

对于帧间编码块的

为

E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}] = (1 - ρ) ({\hat{e}}_{n - 1, m}^{i} + E [{\tilde{\tilde{f}}}_{n - 2, m^{''}}^{i}]) + ρE [{\tilde{\tilde{f}}}_{n - 2, m}^{i}],

其中

表示不丢包时解码端第n-1帧原始图像第m个宏块的第i个像素的重构值，

表示解码端第n-2帧原始图像第m个宏块的第i个像素的重构值的期望值，

表示解码端第n-1帧原始图像第m个宏块的第i个像素的在第n-2帧中参考的某个宏块m″中的某个像素的期望值，表示第n-1帧原始图像第m个宏块第i个像素相应的预测残差，

为编码时第n-1帧原始图像第m个宏块的第i个像素的在第n-2帧中参考的某个宏块m″中的某个像素值，所述的m与m″之间不存在特定的对应关系。；

对于

也通过上面的计算方式得到，将

的计算公式下标中的m替换为m′，即可得到

步骤2)：根据帧内或帧间编码模式，计算每种编码模式需要的比特数，包括模式信息，运动信息，残差数据等必需的比特数；

步骤3)：计算拉格朗日因子，通过主观容错率失真优化模型，进行视频容错编码的率失真优化，在易出错网络传输的情况下找到最优的编码模式。所采用的主观容错率失真优化模型如下，

J＝D^SSIM+λ_SSIMR

其中D^SSIM是解码端重构值的SSIM主观端到端失真，λ_SSIM为基于主观SSIM失真评价的拉格朗日因子，R为编码产生的比特数，J为主观率失真代价。

拉格朗日因子λ_SSIM，在信道传输丢包环境下，通过下面公式计算，

λ_{SSIM} = {(1 - BER)}^{R} (\hat{λ} + λ^{'})

其中BER为信道误比特率，R为编码一个视频数据包的比特数，按照视频编码领域的理解，这里称之为码率。

为解码端不丢包时的SSIM失真对码率进行求导的偏导值，即为

其中

表示一个视频数据包解码后不丢包时的SSIM，

可以在编码端通过斜率近似法进行估计得到，λ′表达式为

λ^{'} = - (SSIM (f_{n, m}, {\tilde{f}}_{n, m}) - SSIM (f_{n, m}, {\hat{f}}_{n, m})) \ln (1 - BER)

本发明的优点在于可以实现一种主观失真评价的容错率失真优化编码方法，使得传输的码流能够抑制传输错误传递影响，保证客户端的主观视频服务体验。本发明提供的容错率失真编码方法可以应用于易错网络下的视频传输，特别是无线网络环境下的视频传输。

下面结合附图和具体实施方式，对本发明的方法进行进一步详细的说明。

传统的率失真优化视频编码方法采用MSE(均方误差)作为编码和传输失真的评价标准，尽管MSE可以刻画信号方面的损失情况，但是并不能很好的反应人类视觉对视频质量的感知情况。SSIM作为结构相似性的评价准则，能够很好的体现人类主观视觉的感知情况。在视频数据传输过程中，由于视频编码预测环节导致的预测依赖特性，一个数据包的丢失，不仅会给当前视频帧带来错误，还会给后续参考该帧的数据带来一定的错误传递，因此失真也必须以一种的递归的方式进行计算。

如图1所示，端到端的失真包含了编码量化引起的失真和传输错误导致的失真，这两部分失真如果都以SSIM的形式进行刻画，可以很好的支持主观率失真的编码。为了在编码端对传输丢包做出一个调整，视频编码端根据信道的丢包情况进行一定的编码适配，也就是选择率失真最优的编码模式来抑制传输错误引起的视觉主观上的影响。

下面结合实际的主观容错率失真优化编码说明本发明的具体实施步骤。

假设编码当前一帧的一个条带中的一个编码宏块a_n，则图2所示的详细实施步骤如下：

步骤1)：首先选择一种块尺寸模式编码当前这个宏块，估计宏块a_n在当前编码模式下的端到端SSIM失真。

\tilde{D_{n, m}^{SSIM}} = 1 - (1 - ρ) SSIM (f_{n, m}, {\hat{f}}_{n, m}) - ρ \cdot SSIM (f_{n, m}, {\tilde{f}}_{n, m}),

其中

和

中的像素按如下方式得到：

对于帧内编码块不丢包时，帧内编码块的像素值

可以正常解码得到，当发生丢包时帧内编码块的像素值

通过时域拷贝错误隐藏方式得到，也就是

{\tilde{f}}_{n, m}^{i} = E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}],

其中E[·]表示期望，

表示解码端第n-1帧原始图像第m个宏块的第i个像素的重构值的期望值，表示解码端第n帧原始图像第m个宏块的第i个像素的在第n-1帧中参考的某个宏块m′中的某个像素的期望值，

表示第n帧原始图像第m个宏块第i个像素相应的预测残差，

为编码时第n帧原始图像第m个宏块的第i个像素的在第n-1帧中参考的某个宏块m′中的某个像素值。

对于帧内编码块的

为

E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}] = (1 - ρ) {\hat{f}}_{n - 1, m}^{i} + ρE [{\tilde{\tilde{f}}}_{n - 2, m}^{i}];

对于帧间编码块的

为

E [{\tilde{\tilde{f}}}_{n - 1, m}^{i}] = (1 - ρ) ({\hat{e}}_{n - 1, m}^{i} + E [{\tilde{\tilde{f}}}_{n - 2, m^{''}}^{i}]) + ρE [{\tilde{\tilde{f}}}_{n - 2, m}^{i}],

其中

表示解码端第n-1帧原始图像第m个宏块的第i个像素的在第n-2帧中参考的某个宏块m″中的某个像素的期望值，

表示第n-1帧原始图像第m个宏块第i个像素相应的预测残差，为编码时第n-1帧原始图像第m个宏块的第i个像素的在第n-2帧中参考的某个宏块m″中的某个像素值。

对于

也通过上面的计算方式得到，将的计算公式下标中的m替换为m′，即可得到

由于

的计算依赖于前一帧的

所以基于SSIM端到端失真估计形成了递归过程。

步骤2)：根据当前宏块模式的编码，计算编码模式的比特数，包括模式信息，运动信息，残差数据等必需的比特数；

J＝D^SSIM+λ_SSIMR

在信道传输丢包环境下，通过条带编码这一层次得到相应的拉格朗日因子λ_SSIM，

λ_{SSIM} = - \frac{&PartialD; D^{SSIM}}{&PartialD; R},

由于D^SSIM可以通过估计得到，而丢包率理论上和信道的误比特率BER之间存在近似的关系

ρ＝1一(1-BER)^R，

这样D^SSIM表达式中与R有关的项为ρ和

则对上式求偏导为，

λ_{SSIM} = - \frac{&PartialD; D^{SSIM}}{&PartialD; R}

= - \frac{&PartialD; (1 - (1 - ρ) SSIM (f_{n, m}, {\hat{f}}_{n, m}) - ρ \cdot SSIM (f_{n, m}, {\tilde{f}}_{n, m}))}{&PartialD; R}

= (1 - ρ) \hat{λ} + \frac{&PartialD; (1 - ρ)}{&PartialD; R} SSIM (f_{n, m}, {\hat{f}}_{n, m}) + \frac{&PartialD; ρ}{&PartialD; R} SSIM (f_{n, m}, {\tilde{f}}_{n, m})

= {(1 - BER)}^{R} \hat{λ} + (SSIM (f_{n, m}, {\tilde{f}}_{n, m}) - SSIM (f_{n, m}, {\hat{f}}_{n, m})) \frac{&PartialD; (1 - {(1 - BER)}^{R})}{&PartialD; R}

= {(1 - BER)}^{R} \hat{λ} - {(1 - BER)}^{R} (SSIM (f_{n, m}, {\tilde{f}}_{n, m}) - SSIM (f_{n, m}, {\hat{f}}_{n, m})) \ln (1 - BER)

= {(1 - BER)}^{R} (\hat{λ} - (SSIM (f_{n, m}, {\tilde{f}}_{n, m}) - SSIM (f_{n, m}, {\hat{f}}_{n, m})) \ln (1 - BER))

= {(1 - BER)}^{R} (\hat{λ} + λ^{'})

其中R为编码一个视频数据包的比特数，即码率，

为解码端不丢包时的SSIM失真对码率进行求导的偏导值，即为

\hat{λ} = \frac{&PartialD; (SSIM (f, \hat{f}))}{&PartialD; R}

其中

表示一个视频数据包解码后不丢包时的SSIM，

可以在编码端通过斜率近似法进行估计得到，而λ′表达式为

λ^{'} = - (SSIM (f_{n, m}, {\tilde{f}}_{n, m}) - SSIM (f_{n, m}, {\hat{f}}_{n, m})) \ln (1 - BER) .

这里λ_SSIM是通过条带层次编码得到的。由于λ_SSIM不仅和当前编码得到的码率和失真有关系，而且和信道的传输条件(误比特率)也有一定的关系，因此兼顾了信道传输丢包的影响，是一种容错率失真的编码方式，特别是考虑了丢包造成的主观质量的影响也通过SSIM端到端失真进行了体现，因此这是一种考虑主观容错率失真优化的联合信源信道编码方式。

当以宏块或者块为单元进行编码时，我们依然可以采用相同的拉格朗日因子，因此通过前边得到D^SSIM+λ_SSIMR，得到当前编码模式的主观率失真代价，返回步骤1)继续执行，直到遍历完所有编码模式，然后找出一种主观率失真代价最小的模式进行码流的写入。

图3是基于主观SSIM失真评价的容错率失真优化编码装置示意图。所述装置包括：失真估计模块300，用于在编码端进行基于SSIM评价的端到端主观失真估计，所述端到端指编码端到解码端；比特数计算模块302，用于根据帧内或帧间编码模式，计算编码该模式需要的比特数；最优编码模式确定模块304，用于通过计算容错拉格朗日因子，进行视频容错编码的率失真优化，找到最优的编码模式；编码模块306，用于采用最优的编码模式进行容错率失真优化的联合信源信道编码。

所述端到端指编码端到解码端具体指编码端到视频传输后的解码端，或者编码端到视频传输接收后的解码端。

优选地，所述最优编码模式确定模块304，用于通过计算容错拉格朗日因子，进行视频容错编码的率失真优化，在易出错网络传输的情况下找到最优的编码模式。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元、器件可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。