CN103650493A

CN103650493A - 低复杂度模式选择

Info

Publication number: CN103650493A
Application number: CN201280031159.9A
Authority: CN
Inventors: M.尼尔松; R.瓦芬; S.V.安德森
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-06-24
Filing date: 2012-06-22
Publication date: 2014-03-19
Anticipated expiration: 2032-06-22
Also published as: GB2492163A; EP2712482B8; CN103650493B; US9131248B2; WO2012175721A1; EP2712482B1; EP2712482A1; GB201110763D0; US20120327998A1; GB2492163B

Abstract

一种编码包括多个帧的输出视频流的方法，其中每个帧包括多个图像部分，所述方法包括：针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；以及通过有损通道传输所述编码的输出视频流。所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失经历的失真的估计。所述偏置项基于根据视频流样本训练的训练参数确定。

Description

低复杂度模式选择

技术领域

本发明涉及当使用帧内编码和帧间编码来编码视频信号时，平衡码率与失真之间的均衡。

背景技术

要编码的视频数据流在图1a中示意性地示出。该视频数据流包括多个帧（F），每个帧表示不同时刻上的视频图像。本领域的技术人员将理解，为了进行编码，每个帧（F）被分为多个部分，并且每个部分还可被再细分为更小的子部分，每个部分或子部分包括多个像素。例如，根据一个术语，要编码的视频流的每个帧被分为多个宏块（MB）并且每个宏块被细分为块（b），每个块包括多个像素。每个帧还可以被分为可独立解码的片（slice）（S），每个片包括一个或多个宏块。注意，图1a所示的划分仅作为示例，用于说明的目的，应该理解，这些划分不一定旨在对应于任何实际的编码方案 - 例如，每个帧可能包含更多数量的宏块。

其中可采用视频编码的通信系统实例在图2的框图中示意性地示出。该通信系统包括第一发送端子12和第二接收端子22。例如，每个端子12、22可以包括移动电话或智能电话、平板计算机、膝上型计算机、桌面计算机或其它家用电器，例如电视机、机顶盒、立体音响系统等。第一和第二端子12、22分别在操作上与通信网络32相连，因此，第一发送端子12被设置为发送将被第二接收端子22接收的信号。当然，发送端子12还能从接收端子22接收信号或者接收端子22从发送端子12接收信号，但是为了进行说明，此处从第一端子12的角度描述发送，从第二端子22的角度描述接收。通信网络32例如可以包括基于分组的网络，例如广域互联网和/或局域网，和/或移动蜂窝网络。

第一端子12包括存储介质14，例如闪存或其它电子存储器、磁存储器件和/或光存储器件。第一端子12还包括处理装置16，该装置采取具有一个或多个核的CPU的形式；收发器，例如具有至少发送器18的有线或无线调制解调器；以及视频相机15，该相机可能（也可能不）与端子12的支架位于同一外壳内。存储介质14、视频相机15和发送器18分别在操作上与处理装置16相连，并且发送器18通过有线或无线链路在操作上与网络32相连。类似地，第二端子22包括存储介质24，例如电、磁和/或光存储器件；以及处理装置26，该装置采取具有一个或多个核的CPU的形式。该第二端子包括收发器，例如具有至少接收器28的有线或无线调制解调器；以及屏幕25，该屏幕可能（也可能不）与端子22的支架位于同一外壳内。第二端子的存储介质24、屏幕25和接收器28分别在操作上与各个处理装置26相连，并且接收器28通过有线或无线链路在操作上与网络32相连。

第一端子12上的存储介质14存储至少视频编码器，该编码器被设置为在处理装置16上执行。当被执行时，该编码器从视频相机15接收“原始”（未编码）输入视频流，将该视频流进行编码，从而将其压缩为较低码率的流，然后输出经过编码的视频流以便通过发送器18和通信网络32发送到第二端子22的接收器28。第二端子22上的存储介质存储至少视频解码器，该解码器被设置为在其自己的处理装置26上执行。当被执行时，该解码器从接收器28接收经过编码的视频流并对其进行解码，从而将其输出到屏幕25。可用于指代编码器和/或解码器的普通术语为编解码器。

视频编码解码器的目标是减小发送视频信号所需的码率，同时保持可能的最高质量。该目标利用统计冗余度（视频信号的相似度）和感知不相干性（与人类视觉系统的敏感性有关）来实现。

现今的多数视频编解码器基于包括根据其它像素块预测像素块，变换预测残差，量化变换系数，以及对量化指数进行熵编码的体系结构。这些步骤有助于减少冗余度和不相干性。

现在参考以下文档：

[1] ITU-T, Recommendation H.264, “Advanced video coding for generic audiovisual services”, 2007年；

[2] 张等人在2004年发表于IEEE国际图像处理会议记录163-166页的“Error resilience video coding in H.264 encoder with potential distortion tracking”;

[3] M. Barkowsky. B. Eskofier、R. Bitto、J. Bialkowski和A. Kaup在2007年发表于MobConQoE 07：移动内容质量体验研讨会的第1-7页的“Perceptually motivated spatial and temporal integration of pixel based video quality measures,”；

[4] ISO/IEC MPEG和ITU-T VCEG的视频联合组（JVT），文档号JVT-N046；

[5] ISO/IEC MPEG和ITU-T VCEG的视频联合组（JVT），文档号JVT- V079；

[6] G. J. Sullivan和T. Wiegand在1998年11月发表于IEEE信号处理杂志第5卷、第6号，17-90页上的“Rate-Distortion Optimization for Video Compression”）。

预测通常可根据不同于当前帧的视频帧中的像素执行（帧间预测）并且根据同一帧中的像素执行（帧内预测）。即，如果使用帧内编码进行编码，则帧的一个块或部分（目标块或部分）相对于帧中的另一块或图像部分（基准块或部分）进行编码；并且如果使用帧间编码进行编码，则目标块或部分相对于另一帧中的基准块或部分进行编码。此过程一般被称为预测或预测编码。因此，帧间或帧内预测模块在帧内编码的情况下产生例如采取邻近块指示形式的预测，和/或在帧间编码的情况下产生移动矢量。一般而言，编码器还产生表示预测块与实际块之间的“剩余”差的残差信号。残差移动矢量以及与帧内预测关联的任何所需数据然后被输出到经过编码的视频流，一般通过进一步的编码阶段（例如量化器或熵编码器）执行此操作。因此，视频中的多数块可根据块差进行编码，这样，与编码绝对像素值相比，编码所需的比特数较少，从而节省码率。帧内预测编码一般需要比帧间预测更多的比特数，但是仍然比编码绝对值省码率。适合于视频的帧间编码和帧内编码技术的细节对于本领域的技术人员而言是显而易见的。

现代编解码器允许针对帧内的不同部分使用不同的预测编码模式。具有不同编码选项的可能性增加了视频编解码器的率失真效率。必须找到每个帧区域的最优编码表示。一般而言，此类区域为宏块，例如16×16像素。即，对于帧内预测或帧间预测模式而言，因此可以针对每个宏块单独选择，以便同一帧内的不同宏块可使用不同的模式进行编码。在某些编解码器中，还可以根据不同的宏块划分水平使用不同的模式，例如，在较高复杂度模式或较低复杂度模式之间选择，在所述较高复杂度模式中，针对宏块内的每个4×4块执行单独的预测，在所述较低复杂度模式中，仅基于8×8或8×16块，甚至基于整个宏块执行预测。可用模式也可以包括用于执行预测的不同选项。例如，如图1b中示意性地示出那样，在一个帧内模式中，4×4块（b）的像素可通过从紧上面的块的邻近像素的向下外插或通过从紧左边的块向侧面外插确定。被称为“跳过模式”的另一特殊预测模式也可以在某些编解码器中提供，此模式可被视为帧间模式的备选类型。在跳过模式（Pskip）中，目标的移动矢量基于到上面和到左边的移动矢量推断，因此没有残差系数编码。推断移动矢量的方式与移动矢量预测一致，因此，移动矢量差为零，因此只需要信号通知MB是跳过块。

图3是示意性地示出例如可以在发送端子12上实现的编码器的高级框图。该编码器包括：离散余弦变换（DCT）模块51、量化器53、逆变换模块61、逆量化器63、帧内预测模块41、帧间预测模块43和减法级（-）。编码器还包括开关47和模式选择模块49。每个模块或块优选地被实现为在发送端子的存储介质14上存储的编码的一部分，并且被设置为在其处理装置16上执行，但是也不排除某些或所有这些模块全部或部分地在专用硬件电路中实现的可能性。

开关47和模式选择模块49中的每一者被设置为接收包括多个宏块MB的输入视频流的实例。模式选择模块49被设置为针对每个宏块选择编码模式“o”，并且在操作上与多工器47相连，以便以适合于选定模式的方式控制它将逆量化器63的输出传递到帧内预测模块41或帧间模块43的输入端。模式选择模块49也可被设置为将选定模式“o”指示给相关预测模块41、43（例如，指示4×4划分模式、8×8模式、跳过模式等）。帧内预测模块41或帧间预测模块43的输出端然后耦合到减法级（-）的输入端，该减法级被设置为在另一输入端上接收未编码的输入视频流并从未编码的部分减去预测块，从而产生残差信号。残差块然后通过变换（DCT）模块51传递，其中其残差值被转换为频域，然后转换为量化器53，其中变换的值被转换为离散量化指数。量化、变换的信号被反馈回逆量化器63和逆变换模块61以产生预测块版本（将在解码器上看到），以便由选定的预测模块41、43使用。在预测模块41、43中使用的预测的指示、帧间预测模块43产生的移动矢量，以及变换和量化模块51、53产生的残差的量化变换指数全部被输出，并包括在经过编码的视频流中，通常通过进一步无损编码阶段（例如熵编码器（未示出））执行此操作，在所述无损编码阶段中，预测值以及变换、量化的指数可使用本领域公知的无损编码技术进行进一步压缩。

根据上面的描述，编码表示因此可以包括块划分信息、预测模式、移动矢量、量化精确度等。最优编码选项依赖于视频内容、码率、较早期编码决策等。变换系数的量化精确度通常被选择为满足码率约束。而且可以最小化失真。

例如，H.264视频编码器在选择预测模式[1]方面提供极大的灵活性。对于亮度分量的帧间预测，16×16像素的宏块可被表示为一个16×16像素块，或两个16×8像素块，或两个8×16像素块，或四个8×8像素块。进一步地，8×8块可被表示为一个8×8像素块，或两个8×4像素块，或两个4×8像素块，或四个4×4像素块。帧间预测针对每个允许的宏块划分尝试。块的帧间预测通过检索（多个）基准帧和（多个）移动矢量（从相应基准帧中基准块的空间移动）表示，所述基准帧和移动矢量通常以子像素精确度估计。对于亮度分量的帧内预测，对于16×16块存在四种可能的模式，对于4×4块存在九种可能的模式。进一步地，对于色度分量，存在四种可能的模式。最佳预测模式通过比较帧间预测模式与帧内预测模式的性能来选择。

诸如H.264 AVC [1]之类的视频编解码器的率失真性能很大程度上依赖于宏模块模式选择o的性能。即，根据率失真确定宏块是否被最佳编码的过程使用例如帧间模式或帧内模式（根据之前编码的帧预测）进行平衡。从鲁棒的角度来看，帧内编码宏块是有利的，因为它们停止时间误差扩散（propagation）（假设使用受约束的帧内预测，即，禁止根据预测的宏块执行帧内预测）。但是，与帧间编码的宏块相比，帧内编码的宏块一般在码率方面支出更大，因此系统性地引入帧内编码的宏块非常重要，从而在给定特定码预算的情况下，最小化解码器上的失真（例如，平均失真）。

率失真性能优化问题可根据在码率约束R下最小化失真以公式表示。经常使用拉格朗日优化框架解决此问题。在此，优化标准用以下公式表示

J=D(m, o) + λR(m, o) (1)

其中J表示拉格朗日函数，D表示失真测量（模式o和宏块m或者宏块子划分的函数），R是码率，并且λ是定义失真与码率之间均衡的参数。

在该应用中，解决拉格朗日优化问题意味着查找最小化拉格朗日函数J的编码模式o，其中拉格朗日函数J包括至少表示失真的项、表示码率的项和表示二者之间均衡的系数（“拉格朗日乘数”）。当编码模式o朝着更细致或更佳质量编码模式变化时，失真项D将减小。但是，同时码率项R将增加，并且在依赖于λ的特定点上，R的增加比D的减小更重要。因此，表达式J将具有某一最小值，并且发生这一现象的编码模式o被视为最优编码模式。

在此方面，码率R而非λR项对最优化产生约束，因为该项将最优编码模式从不断增加的质量上拉回。找到此最优平衡的模式将依赖于λ，因此λ可被视为表示码率与失真间的均衡。

拉格朗日优化通常用于选择编码决策的过程，并且适合于每个帧区域（例如，每个16×16像素宏块）。

失真D可被量化为原始像素与重构像素之间平方差和（SSD）；并且可被计算为解释所有处理阶段，其中包括预测、变换（从每个块或宏块的像素空间域表示变换为诸如光频域表示之类的变换域表示）和量化（将连续信号的数字近似值转换为更离散的、低粒度量化水平的过程）。而且，为了计算重构像素，必须执行逆量化、逆变换和逆预测等步骤。SSD经常被优选为失真标准，因为它导致更高的质量。一般而言，码率项R还解释所有所需参数的编码，其中包括描述预测的参数和量化的变换系数[4、5、6]。这些参数一般使用熵编码器进行编码，并且在这种情况下，该码率可以是通过熵编码器获取，或者可通过实际运行熵编码器并测量每种候选模式的结果码率获取的码率的估计。熵编码/解码是无损过程，因此不影响失真。

此类过程在此可被称为完全复杂度率失真优化（或完全RDO）[4、5、6]。

张等人所发表的文档[2]提出了一种系统框架以介绍帧内编码宏块，其基于解码器上预期平均平方差和[SSD]的最小值。而且，张考虑了基于误差传输通道假设的端到端失真的估计。通过跟踪潜在的失真，张等人能够计算与预期误差扩散失真（在解码器上）相关的偏置项，当计算编码器率失真环路内宏块间的成本时，该预期误差扩散失真被添加到源编码失真上。

在[2]中，作者张等人估计由于源编码和通道误差导致的解码器中的潜在失真。估计的潜在失真然后被间接地用于使模式选择偏向帧内编码（如果存在通道误差的可能性）。

张所称的端到端失真表达式基于平方差和（SSD）失真测量并假设用于丢失宏块的伯努利分布。最优宏块模式O _opt通过以下公式给出：

（2）

其中D _s (m, o)表示针对宏块m和宏块模式o的原始像素块与重构像素块之间的SSD失真，R是总码率，λ是有关失真和码率项的拉格朗日乘数。D _ep-ref (m, o)表示由于误差扩散导致的解码器中的基准块内的预期失真。因此，D _ep-ref (m, o)提供偏置项，如果误差扩散失真变得太大，则该项使优化朝着帧内编码偏置。对于帧内编码的宏块模式，D _ep-ref (m, o)为零。表达式D _s (m, o)+ D _ep-ref (m, o)+ λR(m, o)可被视为拉格朗日函数J的实例。Argmin _o输出自变量o的值，对于该自变量，表达式J的值为最小值。

总预期误差扩散失真图D _ep由误差隐蔽的性能驱动并且在每次宏块模式选择之后更新为：

(3)

其中n是帧编号，m(k)表示宏块m的第k个子划分（即，块），p表示丢失分组的概率。在张等人所发表的[2]中，误差扩散失真以4×4像素块粒度存储。块的误差扩散基准失真D _ep-ref (m, o)通过平均化先前帧的误差扩散失真图中的失真进行估计，所述先前帧对应于当前块的移动矢量所指示的块位置。D _ec-rec表示编码器中的重构像素与误差隐蔽像素之间的SSD，D _ec-ep表示编码器和解码器中的误差隐蔽像素之间的预期SSD。一般而言，丢失的块通过从先前帧复制块来重构（例如，使用帧复制或移动复制误差隐蔽法来实现）。在此情况下，D _ec-ep通过从用于误差隐蔽的帧的误差扩散失真图中提取对应的失真来获取。

但是，通过上述所有内容可看出，编码选项的数量可能非常大，因此估计它们所需的计算负荷就变为限制因素。在给定大量可能的编码选项的情况下，估计解释所有处理级的拉格朗日优化标准（还需要所有要执行的逆处理级）可能变为更迫切的计算任务。因此，通常还使用备选的低复杂度优化标准：

(1a)

其中D’是预测失真，R’是描述预测的参数（例如，预测模式、移动矢量）的码率。

预测失真D’仅考虑在帧间预测或帧内预测之后的失真（或者更精确地说，仅考虑预测之后的残差），并未考虑其它编码器级（例如从空间域变换为变换域并量化或者它们的逆运算）的影响。因此，D’表示原始样本与预测样本（帧间或帧内）之间的差值，而非原始样本与完全重构的样本之间的差值。进一步地，该简化的失真测量被量化为原始样本与预测样本（帧间或帧内）的绝对差值和（SAD），与SSD相比，此操作所需的计算量较小。即：

(1b)

其中s _i是原始输入样本， s’ _predi是预测样本，其中不考虑通过正变换、正量化以及逆变换和逆量化进行重构的影响。因此，另外基于SAD而非SSD，低复杂度失真项D’表示原始样本与预测样本之间的差值，而非在上面计算的完全复杂度版本中表示的原始像素与重构像素之间的差值。

进一步地，码率项R’仅表示边信息的码率成本（帧内预测的移动矢量或指示、预测模式以及宏块划分的指示）；并且不考虑变换的量化残差的码率成本。

这样，简化的计算仅需要执行预测步骤。省略变换和量化，以及逆量化、逆变换和逆预测等步骤。现在参考图3，这表示为了执行RDO计算，元件51、53、61和63有效地从环路中省略。因此，估计编码选项性能的复杂度在此得以降低。此类处理在此可被称为低复杂度率失真优化（低复杂度RDO）。

另一方面，由于低复杂度RDO仅近似预测步骤，因此所形成的最终率失真性能通常被降低。在发明者的试验中，他们观察到与同一码率上的完全RDO相比，低复杂度RDO导致性能降低0.5-1.5 dB。主观地讲，重构的视频也具有较低的质量。

发明内容

本发明旨在实现比低复杂度、无损自适应RDO处理导致的性能率失真优化更高的性能率失真优化；但是不会产生完全复杂度有损自适应RDO的完全处理成本。一种实现方式就是使用“混合”RDO处理，该处理结合使用简化的源编码失真测量与较高复杂度有损自适应偏置项。但是，良好的性能不一定通过简单地组合基于两个不同类型失真测量（例如，基于SAD的源编码失真预测误差测量和基于SSD的有损自适应偏置项失真测量）的项来实现。

因此，本发明的目标是尝试最大化在简化的率失真表达式环境中使用的有损自适应RDO处理的性能。

根据本发明的一方面，提供一种编码包括多个帧的输出视频流的方法，其中每个帧包括多个图像部分，所述方法包括：针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；以及通过有损通道传输所述编码的输出视频流；其中所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于所述通道上的丢失而经历的失真的估计；并且其中所述偏置项基于根据视频流样本训练的训练参数确定。

因此本发明提供一种训练率失真优化处理的方法，此方法可有利地用于支持“混合”RDO处理，该处理接近完全复杂度有损自适应RDO的性能优势，但是计算复杂度降低。

在实施例中，所述偏置项基于第二项，其表示在所述目标部分未通过所述通道到达的情况下，由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计，该偏置项还基于隐蔽项，其表示由于隐蔽而经历的失真的估计；所述隐蔽项可以包括第三项，其表示所述目标部分相对于图像部分的隐蔽失真的测量，该图像部分在所述目标部分在所述通道上丢失时，用于隐蔽所述目标部分的丢失，所述隐蔽项还可以包括第四项，其表示由于隐蔽所述目标部分所依赖的所述目标部分的历史中的图像部分丢失而经历的失真的估计；并且所述第三项和所述第二项之一可以包括所述训练参数。

在一个实施例中，所述第三项可以包括所述训练参数。

所述第一项可以基于复杂度比所述偏置项所基于的一个或多个项更低的样本差值测量。

所述第一项可以基于所述目标图像部分的原始样本与预测样本的绝对差值和。

所述第三项可以基于所述目标图像部分的重构样本与用于隐蔽所述目标部分的丢失的所述图像部分的重构样本的绝对差值和。

所述第三项可以包括绝对差值和的所述训练参数次幂。

所述第三项可以包括平方差和乘以所述训练参数。

所述训练参数可被训练为最大化信噪比。

所述训练参数可以是丢失概率、编码率和往返时间中的一项或多项的函数。

所述第二和第四项中的一个或全部可以基于所述样本之间的平方差之和。

所述方法可以包括确定在所述通道上丢失分组的概率p，其中所述第二项可以根据因子1-p进行加权，并且所述隐蔽项可以根据因子p进行加权。

所述方法可以包括确定在所述通道上丢失分组的概率p，其中所述第二项可以根据作为p和码率R的函数的训练因子α（p，R）进行加权，并且所述隐蔽项可以根据还作为p和码率R的函数的训练因子β（p，R）进行加权。

所述偏置项可以基于包括所述第二项和所述隐蔽项的误差扩散失真图中的条目，并且所述方法可以包括：在每次选择编码模式之后更新所述误差扩散失真图，并且根据用于每个相应后续的编码模式选择的误差扩散失真图确定误差扩散偏置项。

所述选定的编码模式o _opt可通过以下公式计算：

其中D’(m, o)+D _ep-rep (m, o)+λR’(m, o)是所述函数，D’是第一项，D _ep-rep (m, o)是偏置项，R’(m, o)是码率，λ是表示失真与码率之间均衡的因子，并且m是目标图像部分的指数。

所述方法可以包括将在所述通道上丢失分组的概率p，其中更新的帧n+1的失真图D _ep可根据以下公式计算：

其中n表示先前编码的帧，m(k)表示第m个图像部分的第k个划分，D _ep-ref是第二项，

是第三项，D _ec-ep是第四项。

第三项可根据以下公式计算：

其中SAD是绝对差值和，γ是训练参数。

第三项可根据以下公式计算：

其中SSD是平方差和，并且γ(p, R)是训练参数。

编码模式至少可以包括(i)帧内模式，该模式相对于同一帧中的基准图像部分编码目标图像部分，以及(ii)帧间编码模式，该模式相对于先前编码的帧中的基准图像部分编码目标图像部分。

所述编码模式集可以包括多个帧内模式。

所述编码模式集可以包括跳过模式。

所述第一项可以考虑由于预测编码导致的失真而非由于量化导致的失真。

所述第三项可以考虑由于预测编码导致的失真而非由于量化导致的失真。

所述第二和第四项中的一个或全部可以考虑同时由于预测编码和量化导致的失真。

所述第一项可以考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。

所述第二和第四项中的一个或全部可以考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。

所述码率可以不考虑编码残差信号的成本。

所述偏置项可以整合过去的丢失随时间继续的效应。

在又一实施例中，所述第二项可以包括所述训练参数，所述方法可以包括在所述通道上丢失分组的概率p，更新的帧n+1的失真图D _ep可根据以下公式计算：

其中

或

，并且γ是训练参数。

根据本发明的另一方面，提供一种用于编码包括多个帧的输出视频流的计算机程序产品，其中每个帧包括多个图像部分，所述计算机程序产品体现在非临时性计算机可读介质上并且被配置为当在处理器上执行时，可执行以下操作：针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；并通过有损通道传输所述编码的输出视频流；其中所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失而经历的失真的估计；并且其中所述偏置项基于根据视频流样本训练的训练参数确定。

在实施例中，所述计算机程序产品可被进一步配置为当被执行时，执行根据上述方法特征中的任一项的操作。

根据本发明的另一方面，提供一种用于编码包括多个帧的输出视频流的装置，其中每个帧包括多个图像部分，所述装置包括：编码器，其被配置为针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；其中所述编码器被配置为使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；所述装置包括发送器，用于通过有损通道传输所述编码的输出视频流；所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失而经历的失真的估计；并且所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定。

在实施例中，所述编码器可被进一步配置为执行根据上述方法特征中的任一项的操作。

附图说明

为了更好地理解本发明并示出其如何实施，可以借助实例参考附图，其中：

图1a是视频流的示意性表示，

图1b是某一帧内预测编码模式的示意性表示，

图1c是帧间预测编码模式的示意性表示，

图2是通信系统的示意性框图，以及

图3是编码器的示意性框图。

具体实施方式

如上所述，本发明可实现混合RDO处理，该处理接近完全复杂度有损自适应RDO的性能优势，但是计算复杂度有所降低。在本文中，低复杂度表示当在处理器上执行时，导致较少的处理周期。特别是，本发明可用于支持简化的RDO与有损自适应RDO处理之间的交互，从而当在简化的率失真表达式上下文中使用时，最大化有损自适应RDO处理的性能。

现今实时视频编码的典型问题是宏块模式选择中的SSD计算由于CPU的限制而不可行。可备选地使用简化的类率失真成本函数（1a、1b），但是这不提供解码视频质量方面的最佳性能。

本发明使用简化的源编码失真测量，但是添加了有损自适应偏置项D。在实施例中，可通过拉格朗日函数表示此行为：

(1c)

其中

(1b)

并且D _ep-ref表示由于误差扩散导致的解码器中基准块内的预期失真，并且根据误差扩散图D _ep确定。

表示同一优化的另一方式是：

(1d)

源编码失真D’的低复杂度测量是原始样本与预测样本之间的简化SAD（不需要正变换、正量化以及逆变换、逆量化），并且较低复杂度码率项R’仅测量边信息的码率成本（并非残差）。

D _ep-ref基于平方差和（SSD）失真测量导出，因此严格地讲，不应作为简化RDO方程式中的项发挥作用。但是，发明者发现，实际上该混合物表现出良好的性能，接近张等人所发表的文档[2]中的完全有损自适应RDO，但是具有较低复杂度。

无论如何，作为结果，当使用简化的率失真失真标准时，张等人所发表的文档[2]中的算法并非最优。上面简化的率失真标准基于启发法并且与使用SSD的完全RDO非常不同。因此，仅使用张等人所发表的文档[2]中的算法不可能产生最优性能，即，使用上一节中的(3)添加偏置项D _ep-ref (m, o)。因此，本发明的特别优选的实施例使用[2]中算法的改编用于简化的宏块模式选择的率失真表达式。具体而言，提供一种数据驱动的程序，以便在有损条件下最大化端到端率失真性能。

在优选实施例中，误差扩散失真图的计算适合于使用利用数据驱动训练程序的简化率失真表达式。这可能导致率失真性能提高。即，例如，(3)的部分被修正为使得计算的D _ep-ref (m, o)更适合简化的率失真表达式。

该优选实施例背后的理念与上面介绍的预期误差扩散失真图的计算有关。在优选实施例中，对上面的表达式做出下面的改变以更新误差扩散失真图：

(4)

其中

表示当前和先前编码的块m(k)的重构像素的函数，该函数表示导出误差扩散递归的误差隐蔽重构失真。

根据先前的误差扩散失真图以及当前的模式和移动矢量（上面简单描述）进行计算。D_ec-ep可根据用于上面简单描述的用于误差隐蔽的帧的误差扩散失真图进行估计。在一个实施例实例中，函数的形式被选定为：

(4a)

或备选地被选定为：

(4b)

其中参数γ(p, R)例如可被训练为针对相关数据集以及诸如通道帧丢失率p和/或编码率R之类的传输性质在解码器上最大化峰值信噪比（PSNR）。该参数还可依赖于帧在从发送器到接收器的通道上传输并且又返回所用的往返时间（RTT）（如果RTT很大，则对有损自适应机制的需求可能大于RTT很小时的需求，其中假设当出现丢失时，获取恢复帧）。即，上述公式中的函数γ将变为γ(p, R, RTT)，或者实际上可以是这些参数的其它组合的函数。

也就是说，在设计阶段，算法(4)和(4a)被“离线”应用到视频流样本，并且尝试了大量不同的γ值，然后比较它们的结果以最大化PSNR或充当训练标准的其它此类传输性质。在实际部署中，参数γ(p, R)然后可从预训练的表中读取。通过训练参数γ(p, R)，改编D _ep，从而改编D _ep-ref (m, o)，这样便可在方程式(1d)的简化率失真标准中更好地平衡源编码失真与误差扩散基准失真。与结合简化的率失真标准的张等人的算法[2]相比，这可能导致提高有损条件下解码器上的率失真性能。

在实施例中，不同的γ(p, R)或γ(p, R, RTT)值可针对不同的训练场景提前确定，p、R和/或RRT然后被根据对应于p、R和/或RTT的已检测到的传输场景应用于实际的输出视频流。在具有不同的γ值可用的情况下，在某些实施例中，当前值的选择可基于已检测到的当前场景（例如，基于已检测到的丢失率、编码率和/或RTT）动态地适配（即，运作中，实时地适配）。

在另一实施例中，方程式(3)和(4)中的因子(1-p)和p之一可被两个训练参数α(p, R)和β(p, R)替代，这两个参数均被优化为在特定的预定条件下最大化例如PSNR（峰值信噪比）。

适配误差扩散的表达式以适应简化的率失真表达式的备选或补充将是通过用于残差量化的率失真模型来估计方程式(1a)或(1d)中的失真偏置项和码率项，从而最小化简化的率失真表达式与方程式(2)的原始率失真表达式之间的失配。

本发明可以在类似于结合图3描述的编码器中实现，但是具有修正的模式选择模块49。它可用于编码图1所示类型的视频流，并且在诸如图2所示的通信系统中实现。

方程式(4)、(4a)和(4b)背后的工作将在下面更详细地说明。

如上所述，模式选择可以包含优化（例如，最小化）拉格朗日类型函数：

J=D(m, o) + λR(m, o) (1)

在一般情况下，失真项D仅考虑源编码失真，即，由于编码器的不完美导致的失真（例如量化引入的失真）。它不考虑可能由于通道上的数据丢失导致的失真，例如，由于在基于帧的网络32上传输中丢失分组导致的失真。

另一方面，诸如本发明和张等人所发表的文档[2]中介绍的有损自适应技术尝试在同时考虑源编码和由于通道上数据丢失导致的失真的情况下，定义“端到端”失真的测量。给定（目标）块的端到端失真可被描述为：

(5)

其中D_arrival是目标块到达解码器的情况下经历的失真的估计，D_loss是目标块由于通道上的分组丢失（例如，由于包括该块的分组在基于分组的网络32上丢失）未到达解码器的情况下经历的失真的估计。参数p是在通道上出现导致所述块丢失的丢失事件概率的估计，例如分组丢失概率的估计。

D_arrival不仅表示源编码失真，还表示由于块过去的失真导致的失真，即预测目标块所依据的一个或多个基准块中的失真。因此，D_arrival同时包括源编码失真项D_s和误差扩散失真项D_ef-ref，后一项表示预测的目标块的历史中的失真（即，目标块的基准块中的失真，该失真将继续到目标块）：

(6)

D _loss包括由于隐蔽导致的丢失。如未接收到目标块，则解码器将应用隐蔽算法，该算法可包含冻结先前解码的块，或者从一个或多个成功解码的块（从当前的帧和/或先前的帧）内插或外插。因此，D _loss可被识别为由于该隐蔽处理导致的失真：

D_loss = D_ec (7)

因此查看方程式(5)，项D_s表示在根本没有任何丢失的情况下经历的失真的估计，项D_ec表示在目标块丢失时经历的失真的估计的估计，项D_ep-ref表示当目标块被成功接收但是其历史中的某些内容丢失的情况下（如果目标块的基准块丢失，或者基准块的基准块丢失等）经历的失真的估计。

D_s和D_ep-ref是编码模式选择o的函数。D_ec不是模式选择o的函数，因此从拉格朗日表达式中丢弃（丢失的块如何编码并不重要，它始终会丢失）。因此，优化可被编写为：

(2)

D_s是确定的，因为它基于可在编码器上获知的信息，例如，基于原始输入样本值s与重构样本值

之间的差值。编码器在编码器端运行解码器的平行实例（或其近似值）——请参阅图3中详细说明帧间预测模块43的插图。帧间预测模块43包括运动补偿预测（MCP）块44和加法级（+），该级被配置为通过组合每个样本指数i的预测样本

和重构残差

，即来确定重构样本

。在帧间编码的情况下，在编码器上，预测样本

可以与基准块

的样本完全相同（基准帧中的基准块根据相对于目标帧的移动矢量发生偏置——请参阅图1c，其中将再次简单地介绍）。

因此，编码器可以确定实际样本s与重构样本之间的差值，可以在编码器上看到此差值（到目前为止忽略了进一步引入在解码器上经历的失真的丢失的可能性）。样本中的差值例如可被计算为所述目标块的所有样本指数i上的平方差和（SSD）误差：

(8)

但是，D_ep-ref仍旧被估计，该估计基于针对发送编码数据时使用的通道做出某些估计（例如，通过基于分组的网络32）。

为了实现此目标，编码器中的模式选择模块49可被配置为保持误差扩散失真图D_ep，该图描述最近编码的帧内的每个宏块或宏块划分的失真。模式选择模块49还被配置为确定在通道上丢失分组（包含预测目标块时依据的基准块）的概率p（因此还暗示地或明确地确定分组到达的概率1-p）。在优选实施例中，概率p在设计阶段基于统计建模预先确定，在这种情况下，模式选择模块49通过从存储器14检索值来确定p。但是，另一可能性是模式选择模块49基于接收器22的反馈确定p。

误差扩散图可被表示为：

(9)

误差扩散图D_ep包括最近编码的帧内的宏块m或更优选地说，包括最近编码的帧内的每个子划分（块）m(k)的失真估计。因此，该图可以更明确地编写为：

(10)

其中m(k)表示宏块m的第k个子划分（例如，块），p是分组丢失的概率。

如上所述，D_loss等于D_ec。D_ep-arrival表示通道上的差值，即，编码器上的重构样本与解码器上的重构样本之间的差值。例如，它可被量化为平方差和（SSD）：

(11)

其中

是在同时考虑源编码失真和由于通道导致的失真的情况下，在解码器上接收的样本（或指数i）。即，

是原始未编码的输入样本，

是在考虑源编码失真（例如，由于量化）的情况下，编码器上的重构样本，并且

是在考虑总体端到端失真的情况下的样本，该端到端失真包括通道的有损效应；

。

D_ep-arrival可被扩展为：

(12)

其中

是重构残差的样本。因此：

(13)

这样，替换到方程式(9)和(11)，误差扩散图可被重写为：

(14)

或者：

(15)

考虑模式优化问题，该方程式还可编写为：

(16)

其中n是帧编号，即，D_ep(n+1)是在给定现有决策O_opt和帧n的失真图D_ep(n)的情况下，用于针对帧编号n+1做出模式选择的误差扩散图。

如张等人发表的文档[2]中所述，D_ec项也可进行扩展：

(3)

其中D_ec-rec表示编码器中重构像素和误差隐蔽像素之间的SSD，并且D_ec-ep是编码器和解码器中误差隐蔽像素之间的预期SSD。

现在看方程式(3)，如上所述，项D_ep-ref表示当目标块被成功接收但是其历史中的某些内容丢失的情况下（如果目标块的基准块丢失，或者基准块的基准块丢失等）经历的失真，进一步地，D_ec-rec表示由于隐蔽算法本身的性质导致的失真的估计（在某些方面类似于用于预测的内在源编码失真D_s）。D_ec-ep然后表示当目标块丢失（因此需要在解码器上隐蔽）并且隐蔽目标块的历史中的某些内容也丢失（如果完成隐蔽所依据的块丢失，或者预测或隐蔽块所依据的块丢失等）的情况下经历的失真的估计。即，D_ec-ep表示由于隐蔽基准损坏（源于先前的丢失）而在误差隐蔽块中引入的失真，即，编码器-解码器基准失配。

因此，失真图D_ep包括由来自于D_ec-rec以及部分地来自于D_ec-ep的新丢失导致的贡献；以及由来自于D_ep-ref以及部分地来自于D_ec-ep的过去的丢失导致的贡献。

对于序列中的第一帧，该帧将使用帧内编码进行编码，在这种情况下，D_ep-ref= 0，因此D_ep= pD_ec。

误差隐蔽失真D_ec由模式选择模块49计算。项D_ec-rec基于对隐蔽算法的了解，并且可以依赖于所用的特定误差隐蔽算法。D_ec-ep基于现有（或最新）的失真图进行计算，其方式与D_ep-ref类似，例如，通过在基本隐蔽算法的情况下复制同位块的失真，或者在使用尝试外插运动（同样参阅下面的图1c中的相关介绍）的更复杂的隐蔽的情况下，计算多个先前编码的块b1-b4中失真的加权和。可使用计算D_ec的其它方法——所述方法可以是对编码器中的重构样本与可在解码器上看到的隐蔽误差样本之间差值的任何估计（即，复制样本，从先前接收的帧或同一帧中已接收的区域开始内插或外插以隐蔽丢失的帧或区域）。

模式选择模块49然后维护每个后续帧间预测帧的误差扩散图，其方式是在每次模式选择决策之后更新该图，现在包括使用所述帧的运动矢量，根据对现有误差图的了解计算D_ep-ref。

帧间预测实例（运动估计）在图1c中示出。在基准帧F_t（编号n）中示出四个块实例b1、b2、b3和b4，基准帧已被编码。目标帧F_t+1（编号n+1）的块将根据基准帧F_t进行预测。例如考虑目标帧F_t+1中的目标块b₁’。为此，运动预测块44确定定义目标帧F_t+1中目标块与基准帧F_t中基准块（通过虚线示出）之间偏移的运动矢量，以便当基准块从基准帧F_t中的偏置位置转换为目标帧F_t+1中的目标块b₁’的位置时，提供目标块b₁’的最佳估计。因此需要指出，虚线表示的基准块不一定是基准帧F_t的可索引块。即，它不一定是基准帧的预定子划分，并且可以偏移任意量（实际上，甚至可以偏移一小部分像素）。因此，基准块由来自四个实际可索引的块b1、b2、b3和b4的贡献组成。

因此，模式选择模块49在确定用于更新误差扩散图D_ep(n+1)的D_ep-ref时执行的计算包括计算针对现有图D_ep(n)中的块b1至b4记录的失真的加权和：

(17)

其中w_i是表示来自块b_i的贡献的权重，D_ep(i)是块b_i的误差扩散图项目。

上面描述了确定初始误差扩散图D_ep的过程，其中使用该误差扩散图选择后续编码的最优编码模式决策o_opt，使用该编码决策更新图D_ep，然后在接下来的编码决策中使用更新的图等等，其中该误差扩散图表示端到端失真，其中包括估计的通道上丢失的效应。例如，再次参考张等人所发表的文档[2]。此处可被称为有损自适应率失真优化（LARDO）。

但是，在本发明的优选实施例中，误差扩散图被修正为以下形式：

(4)

其中f是基于所述当前帧中块的重构样本与先前编码的帧中块的重构样本之间的绝对差值和的函数，先前编码的帧将用于掩蔽丢失的样本。例如：

(4a)

因此，表示隐蔽算法内在失真的项D_ec-rec被修正为基于SAD类型测量而非SSD。优选地，这是SAD的训练参数γ次幂。

另一选项是：

(4b)

如上所述，方程式(1d)中的因子(1-p)和p也可分别由两个训练参数α(p, R)和β(p, R)替代。

在上述任一实例中，γ还可以是往返时间RTT的函数，即，γ(p, R, RTT)或者是这些参数的其它组合。

现在描述可选择与本发明结合使用的进一步的修正。

张等人所发表的文档[2]中算法的问题是不一定以最优方式考虑潜在失真对将来的影响，从感知的角度来看，误差时长是重要因素[3]，并且发明者认为持续存在的潜在预期误差扩散失真即使很小，最终也会触发选择帧内编码模式。在下面描述的实施例中，将例证如何将时间整合到预期误差扩散失真的表达式中以便利实现此目的。

使用张等人所发表的文档[2]中的算法，来自(3)的预期的潜在误差扩散失真并不总是高得足以触发帧内编码，因此将存在伪影，直到下一帧内或场景发生改变。相反，如果潜在误差扩散在一段时间之后整合，便可能触发帧内编码并且剩余的伪影将在一段时间之后消失。如何实现此目的的实施例实例在下面描述。

如上所述，现有有损自适应RDO技术的问题是它们不考虑过去的丢失累积到将来的影响，特别是在其中没有运动或运动量很小的情况下，例如静态背景或近似静态背景。在这些情况下，发明者注意到：

(18)

在基本隐蔽算法中，这是因为隐蔽块从先前的同位块进行复制，在静态背景的情况下，先前的同位块与当前的隐蔽块相同。即，编码器中的误差隐蔽样本和重构样本将相同；或者换言之，隐蔽算法本身不会内在地引入任何失真。类似的效应将在更复杂的隐蔽算法中出现。

此外：

(19)

这是因为，在缺乏任何来自隐蔽的内在失真的情况下，编码器上的误差隐蔽样本与可在解码器上看到的估计样本之间的差值仅从现有误差扩散图中进行复制。

将(18)和(19)替换到方程式(3)，可看出这表示：

(20)

即，在其中由新丢失导致的贡献为零或者可被忽略的情况下，更新的扩散图被精简为仅包括由过去的丢失（用于预测和/或隐蔽的历史中的丢失）导致的贡献。现在看另一方式，在其中运动量很小或没有运动的情况下，例如，在基本静止的背景中，通道上任何进一步的丢失以及解码器上关联隐蔽的效应本身对失真没有内在影响，因为从一个帧到下一帧的块复制或外插基本应该相同（或者在空间隐蔽算法的情况下，从统一背景的一个大型静态区域的一个或多个附近块复制、外插或内插的块将极为相似）。结果是D_ep将无限期保持相同，并且在一段时间之后不会扩大。

但是在现实中，从感知的角度来看，失真将变得越来越相关，因为误差时长在误差感知中非常重要。也就是说，从感知的角度来看，不仅失真程度相关，而且失真时长也相关。

因此，存在的问题是：使用诸如张等人所发表的文档[2]中的现有技术，形成做出编码模式决策基础的失真图不会总是足够早地触发帧内编码以防止感知相关的伪影。

在张等人所发表的文档[2]中，误差扩散图可以在一段时间之后扩大，但是仅由于通道上持续发生的丢失导致失真的贡献，即，仅由于新丢失及其关联的掩蔽。

为了解决此问题，本发明规定使用误差扩散图，在诸如其中由新丢失导致的贡献为零或可被忽略的静态背景的情况下，该误差扩散图精简为以下表达式，该表达式将过去的丢失导致的贡献累积到将来：

(21)

其中ε > 1。这可被视为过去的丢失随时间的贡献的时间整合。

例如，修正张等人所发表的文档[2]，失真图公式变为：

(22)

其中ε > 1。如上所述，足够大的因子ε和非零D_ep-ref将导致即使在误差隐蔽重构失真D_ec-rec为零的情况下，D_ep也会扩大，因此，最终触发帧内编码。

即，历史丢失的影响随着时间的推移不断地扩大，使得该失真在优化问题中的比重不断增加。即使所估计的样本之间差值的实际失真不一定扩大，失真的感知也会随着时间变得更显著，因此在选择使用帧间编码还是帧内编码对下一帧或区域进行编码时，应该更关注较老的失真。

方程式(22)可以选择性地与上述其它技术进行组合，以便D_ec-rec变为方程式(4a)的基于SAD的测量，或变为方程式(4b)的基于SSD的测量。

将理解，上述实施例仅作为实例进行描述。

例如，本发明可以扩展到除了调谐D_ec-rec之外还调谐有损自适应优化处理的其它方式。备选实例为：使D_ec-rec保持不变（例如，如张等人所发表的文档中所述）并且相反地将函数应用于D_ep-ref，以便D_ep-ref变为训练参数γ的函数，例如，D_ep-ref的γ次幂或者D_ep-ref乘以γ。在这种情况下，误差扩散图表示为：

其中例如可以是或

或或

。

进一步地，在上述各个公式中，参数λ、α、β和ε可由系统设计者进行调谐。对于这些参数，没有正确或错误的值——优选值将依赖于系统设计者决定容忍的特定质量以及通道可支持的码率。例如，在一个实施例中，ε可处于1.03到1.05的范围内。特定的λ值由H.264推荐，尽管该值还可根据系统设计进行调谐。

在特别有利的实施例中，模式选择模块49可被配置为针对不同的码率和/或通道条件（例如，帧丢失和往返时间）使用不同的λ、α、β和/或ε值。在这种情况下，这些值可基于当前检测到的通道（多个）条件动态地适配，例如基于解码器的反馈所报告的通道条件；或者基于码率的动态设定或改变动态的适配，例如基于解码器所请求的码率或基于用户设定。

再次注意，当在本申请中提到由于丢失导致的贡献时，或者当任何内容宣称在通道上发生“如果”数据丢失等情况时，这仅涉及概率假设（例如，p），该假设是编码器针对解码器可能遇到的状况做出的假设——编码器当然不知道将发生什么情况。此概率假设可在设计阶段基于统计网络建模预先确定，和/或甚至可以基于来自解码器的反馈动态地确定。

尽管上面按照片、宏块和块进行描述，但是这些术语并非旨在作为限制，并且此处描述的理念不限于对权利要求进行划分或子划分的任何特定方式。进一步地，失真图可涵盖整个帧或帧内的区域，并且编码决策处理可应用于整个帧或仅应用于帧的一部分。

进一步地，可以使用其它处理，这些处理使用上述简化近似值的其它组合。例如，基于低复杂度SAD的测量可以仅排除变换，不排除量化（即，在空间域中进行量化）。另一实例是在实时编码中排除量化并使用变换（例如，使用绝对变换差值和作为失真测量，该失真测量将频率变换应用于原始块与基准块中像素之间的差值，这样提高了编码性能，但是处理成本稍高于基本SAD）。另一实例是包括所有预测、变换和量化，但是仍使用绝对差值和（SAD）作为失真测量，而非使用平方差和（SSD）。在其它实例中，基于较高复杂度SSD的测量可以考虑通道上丢失或误差扩散的效应，但是仍排除变换和/或量化，并且/或者仍基于SAD或其它失真测量。进一步地，可针对偏置项使用SAD和/或SSD的不同组合。一般而言，所有组合都是可能的。

进一步地，尽管本发明根据两个帧n和n+1进行描述，但是根据本发明的特定实施例，这些帧不一定指示两个相邻的帧（尽管在现有编解码器中，可以是这种情况）。在某些实施例中，可以相对于甚至更早的帧执行帧间预测，并且例如n和n+1可以结合本发明使用以分别指示任何先前编码的帧或图像部分以及根据其预测的后续帧或部分。

在给定此处公开内容的情况下，对于本领域的技术人员而言，其它变形可变得显而易见。本发明的范围并非由所述的实施例限定，而是仅由所附权利要求限定。

权利要求书(按照条约第19条的修改)

1.一种编码包括多个帧的输出视频流的方法，其中每个帧包括多个图像部分，所述方法包括：

针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；

使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；以及

通过有损通道传输所述编码的输出视频流；

其中所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失经历的失真的估计；并且其中所述偏置项基于根据视频流样本训练的训练参数确定，其中

所述第一项基于复杂度比所述偏置项所基于的一个或多个项更低的样本之间差值的测量；

所述第一项基于所述目标图像部分的原始样本与预测样本的绝对差值和，而所述偏置项所基于的一个或多个项基于样本之间的平方差和，

所述第一项考虑由于预测编码导致的失真而非由于量化导致的失真，而所述偏置项所基于的一个或多个项考虑同时由于预测编码和量化导致的失真；

所述第一项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真，而所述偏置项所基于的一个或多个项考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。

2.根据权利要求1的方法，其中：

所述偏置项基于第二项，其表示在所述目标部分通过所述通道到达的情况下，由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计，并且该偏置项还基于隐蔽项，其表示由于隐蔽而经历的失真的估计；

所述隐蔽项包括第三项，其表示所述目标部分相对于图像部分的隐蔽失真的测量，在所述目标部分在所述通道上丢失的情况下，所述图像部分用于隐蔽所述目标部分的丢失，所述隐蔽项还包括第四项，其表示由于隐蔽所述目标部分所依赖的所述目标部分的历史中的图像部分丢失而经历的失真的估计；并且

所述第三项和所述第二项之一包括所述训练参数。

3.根据权利要求1或2的方法，其中包括以下至少一项：

所述第三项包括所述训练参数；

所述第三项基于所述目标图像部分的重构样本与用于隐蔽所述目标部分的丢失的所述图像部分的重构样本的绝对差值和；

所述第三项包括绝对差值和的所述训练参数次幂；

所述第三项包括平方差和乘以所述训练参数；并且

所述第三项考虑由于预测编码导致的失真而非由于量化导致的失真；并且

所述第三项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。

4.根据上述任一权利要求的方法，其中所述训练参数被训练为最大化信噪比。

5.根据权利要求2至5中任一项的方法，其中包括以下至少一项：

所述第二和第四项中的一个或全部基于所述样本之间的平方差和；

所述第二和第四项中的一个或全部考虑同时由于预测编码和量化导致的失真；以及

所述第二和第四项中的一个或全部考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。

6.根据权利要求2至6中任一项的方法，其中包括确定在所述通道上丢失分组的概率p，其中所述第二项根据因子1-p或根据作为p和码率R的函数的训练因子α(p, R)进行加权，并且所述隐蔽项根据因子p或根据也作为p和码率R的函数的训练因子进行加权。

7.根据权利要求2至7中任一项的方法，其中所述偏置项基于包括所述第二项和所述隐蔽项的误差扩散失真图中的项，并且所述方法包括：

在每次选择编码模式之后更新所述误差扩散失真图，并且根据用于每个相应的后续编码模式选择的误差扩散失真图确定误差扩散偏置项。

8.根据上述任一权利要求的方法，其中所述偏置项整合过去的丢失随时间继续的效应。

9.一种用于编码包括多个帧的输出视频流的计算机程序产品，其中每个帧包括多个图像部分，所述计算机程序产品体现在非临时性计算机可读介质上并且被配置为当在处理器上执行时，执行上述任一权利要求中的操作。

10.一种用于编码包括多个帧的输出视频流的装置，其中每个帧包括多个图像部分，所述装置包括：

编码器，其被配置为针对每个要编码的目标图像部分，通过优化包括失真估计和码率测量的函数，从编码模式集中选择优选的模式，所述码率是编码所述目标图像部分所需的码率；

其中所述编码器被配置为使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流；

所述装置包括发送器，用于通过有损通道传输所述编码的输出视频流；

所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失经历的失真的估计；并且

所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定，其中

Claims

1. 一种编码包括多个帧的输出视频流的方法，其中每个帧包括多个图像部分，所述方法包括：

通过有损通道传输所述编码的输出视频流；

其中所述失真估计包括第一项，其表示源编码失真，以及偏置项，其表示由于在所述通道上的丢失经历的失真的估计；并且其中所述偏置项基于根据视频流样本训练的训练参数确定。

2. 根据权利要求1的方法，其中：

所述偏置项基于第二项，其在表示所述目标部分通过所述通道到达的情况下，由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计，该偏置项还基于隐蔽项，其表示由于隐蔽而经历的失真的估计；

所述第三项和所述第二项之一包括所述训练参数。

3. 根据权利要求1或2的方法，其中包括以下至少一项：

所述第一项基于复杂度比所述偏置项所基于的一个或多个项更低的样本之间差值测量；

所述第一项基于所述目标图像部分的原始样本与预测样本的绝对差值和；

所述第一项考虑由于预测编码导致的失真而非由于量化导致的失真；并且

所述第一项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。

4. 根据权利要求2或3的方法，其中包括以下至少一项：

所述第三项包括所述训练参数；

所述第三项包括绝对差值和的所述训练参数次幂；

所述第三项包括平方差和乘以所述训练参数；并且

5. 根据上述任一权利要求的方法，其中所述训练参数被训练为最大化信噪比。

6. 根据权利要求2至5中任一项的方法，其中包括以下至少一项：

7. 根据权利要求2至6中任一项的方法，其中包括确定在所述通道上丢失分组的概率p，其中所述第二项根据因子1-p或根据作为p和码率R的函数的训练因子α(p, R)进行加权，并且所述隐蔽项根据因子p或根据也作为p和码率R的函数的训练因子进行加权。

8. 根据权利要求2至7中任一项的方法，其中所述偏置项基于包括所述第二项和所述隐蔽项的误差扩散失真图中的项，并且所述方法包括：

9. 根据上述任一权利要求的方法，其中所述偏置项整合过去的丢失随时间继续的效应。

10. 一种用于编码包括多个帧的输出视频流的装置，其中每个帧包括多个图像部分，所述装置包括：

所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定。