CN105409216A

CN105409216A - 丢失视频数据的条件隐藏

Info

Publication number: CN105409216A
Application number: CN201480018456.9A
Authority: CN
Inventors: D.赵; S.尼基富罗夫; K.霍夫鲍尔; M.亨门多夫; P.卡尔松
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-01-28
Filing date: 2014-01-28
Publication date: 2016-03-16
Anticipated expiration: 2034-01-28
Also published as: WO2014117182A1; KR20150111993A; US20140211860A1; US9609321B2; EP2936812B1; KR102185803B1; GB201301449D0; EP2936812A1; GB2513090B; GB2513090A; CN105409216B

Abstract

一种接收设备包括：接收器，用于接收视频信号；输出端，用于将所述视频信号输出到屏幕、存储装置或另一终端；以及隐藏模块，用于对所述视频信号的丢失区域应用隐藏算法。所述隐藏模块被配置成选择性地针对所讨论的所述区域内的感兴趣区确定隐藏质量的估计，并且基于这个估计来确定是否应用所述隐藏算法。

Description

丢失视频数据的条件隐藏

背景技术

在现代通信系统中可以通过诸如有线和/或无线网络（常常为诸如因特网这样的基于分组的网络）这样的介质将视频信号从一个终端发送到另一终端。通常视频的帧由在发送终端处的构码器构码以便对它们进行压缩以用于通过网络传输。针对给定帧的构码可以包括帧内构码，借此块相对于同一帧中的其它块被构码。在这种情况下块是按该块与邻近块之间的差（残差）构码的。可替换地针对一些帧的构码可以包括帧间构码，借此目标帧中的块通常基于运动预测相对于前面帧中的对应部分被构码。在这种情况下块是按标识该块与根据其将预测该块的对应部分之间的偏移以及该块与根据其预测该块的对应部分之间的差（残差）的运动矢量构码的。在接收器处的对应解码器基于适当类型的预测对所接收到的视频信号的帧进行解码，以便对它们进行解压缩以用于输出到屏幕。

然而，帧或帧的部分可能在传输中丢失。例如，通常基于分组的网络不保证所有分组的递送，例如分组中的一个或多个可能由于拥塞而在中间路由器处被丢弃。作为另一示例，数据可能由于网络介质的不良条件（例如噪声或干扰）而毁坏。前向纠错（FEC）或其它这样的编码技术有时能够被用来基于在构码比特流中包括的冗余信息来恢复丢失分组。然而，如果在FEC之后仍然未恢复某些分组，则不能够在解码器处对信号的丢失部分进行解码。

为了适应这个，已知在解码器侧提供隐藏算法，以将丢失数据的补片隐藏在当前帧内。隐藏算法通过根据已被成功地接收和解码的信息来外推或者内插对于丢失数据的替换——要么通过根据前面接收到的帧外推替换数据；要么根据同一帧的另一接收到的部分外推替换数据；或者通过在同一帧的接收到的部分之间内插而工作。也就是说，通常隐藏是对解码数据（图像、运动矢量）进行操作并且设法重建相同类型的数据。应用隐藏算法的替代方案是简单地丢弃当前帧并且替代地冻结前面帧直到后续可用的帧被接收到并且解码能够重新开始为止。有时隐藏提供比仅仅冻结先前帧更好的质量，但是其它时间不是。例如隐藏可能导致比仅仅冻结感知上坏的可见赝像。

发明内容

在下文中提供了确定何时应用隐藏并且何时不应用隐藏的方式。能够在操作期间动态地（例如在逐帧基础上）做出确定。为了做这个，确定是基于如果跨越从所接收到的信号丢失的区域（诸如丢失帧）应用了隐藏则将获得的质量的估计的。

根据本文中所公开的实施例，接收设备包括：接收器；用于接收视频信号；输出端，用于将视频信号输出到屏幕；以及隐藏模块，用于对具有丢失数据的视频信号的区域应用隐藏算法。例如视频信号可以包括多个帧，并且待潜在地隐藏的区域可以是丢失帧。隐藏模块选择性地针对所讨论的区域内的感兴趣区确定隐藏质量的估计。也就是说，估计致力于比具有丢失数据的区域小的特定区——要么因为估计是仅基于感兴趣区的，要么因为估计被至少向该区偏置。基于这样的估计，隐藏模块确定是否应用隐藏算法。在一个或多个实施例中，隐藏模块可以使用这个估计来对于考虑中的整个区域做出隐藏判定，所述考虑中的整个区域包括对其做出估计的感兴趣区和在感兴趣区外部的另一区两者。也就是说，估计可以致力于比将做出隐藏判定所针对的区域小的特定感兴趣区。例如可以关于是否跨越整个丢失帧隐藏各种补片但是基于致力于帧内的较小感兴趣区的隐藏质量的估计而做出单一判定。

通过图示，在一个示例性实施方式中可以通过基于分组的网络在第一用户的终端与第二用户的终端之间建立实况视频呼叫。作为呼叫的一部分，第一用户的终端可以以构码形式接收包括表示第二用户的多个帧的实况视频流。在第一（接收）用户的终端上运行的代码可以被用来对视频流的所接收到的帧进行解码以将视频流输出到屏幕，并且还用来对包含丢失数据的视频流的目标帧有条件地应用隐藏算法，其中当应用隐藏算法时根据先前接收到的解码帧提出目标帧的丢失数据。隐藏算法的条件应用可以包括在目标帧的区域内确定包括第二用户的面部的至少一部分的感兴趣区。隐藏质量的估计然后选择性地针对感兴趣区被确定；并且，基于这个估计，可以关于是否应用隐藏算法针对整个目标帧做出一次判定。当未应用隐藏算法时，替代地可以冻结前面帧持续与目标帧相对应的持续时间。

本发明内容被提供来以简化形式引入在下面在具体实施方式中被进一步描述的构思的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，它也不旨在被用来限制所要求保护的主题的范围。所要求保护的主题也不限于解决背景技术部分中指出的缺点中的任一个或全部的实施方式。

附图说明

图1是视频流的示意表示，

图2是通信系统的示意框图，

图3是构码视频流的示意表示，

图4是构码器的示意框图，

图5是解码器的示意框图，

图6是待构码的视频图像中的感兴趣区的示意表示，以及

图7是用于估计隐藏质量的示例技术的示意表示。

具体实施方式

隐藏质量估计可以被用来例如通过估计隐藏帧的峰值信噪比（PSNR）来估计隐藏帧的质量。如果质量估计足够好，则应用隐藏。否则接收终端仅仅冻结最后帧。

然而，在通信场景中，面部相对于背景或其它对象常常是最重要的。在确定是否显示隐藏帧时，如果隐藏质量估计仅仅估计全帧的质量而不考虑内容，则即使面部区域包含较多（major）赝像这也可能导致隐藏帧被显示。相反，即使面部在仅背景包含赝像的同时有良好质量也可以丢弃潜在的隐藏帧。因此存在潜在问题的原因在于可能对显示有利的隐藏帧有时未被显示，然而对显示不利的隐藏帧却被显示。

在本文中所公开的实施例中，感兴趣区（ROI）或感知重要性图被发送到接收终端以指导隐藏质量估计。可替换地，可以在接收器侧运行面部检测以提取感兴趣区，或者ROI能够由用户通过某种手段（例如在眼睛正聚焦处或者通过在触摸屏上指向）来指示。

使用感兴趣区的一个方式将是取决于它们是否位于感兴趣区中来选择是否隐藏单独的块或宏块。也就是说，如果块或宏块在感兴趣区内（并且隐藏质量将足够好）则仅对块或宏块应用隐藏。然而，那可能引入比必定所希望的更大的复杂性。

因此在实施例中，感兴趣区被用来通知适用于整个帧的是/否判定。质量估计是在感兴趣区上以偏见方式作为目标的以判定是否应用隐藏，但是一旦已经做出了判定它就被应用于整个帧，潜在地包括诸如背景这样的其它区。也就是说，虽然可以总是在本地应用隐藏，但是为了改正丢失补片，在实施例中确定了在应该丢弃整个帧之前能够在本地修补多少。即虽然仅数据丢失的那些单独的补片被隐藏，但是关于隐藏的判定在逐帧基础上每帧应用一次。在一个这样的实施例中，如果面部区足够好则显示图像的隐藏版本。如果使用隐藏使面部区降级太多，则替代地丢弃整个帧可能是更好的。

在一些实施例中，隐藏可以附加地包括用于在区包含严重赝像情况下使在ROI外部的赝像衰减的手段。这例如可以包括使毁坏区模糊或者将噪声添加到毁坏区。

图1给出了从相机捕获并且划分成准备好由视频构码器构码以便生成构码比特流的部分的输入视频信号的示意图示。信号包括在时间上划分成多个帧（F）的运动视频图像，每个帧表示在不同的相应时刻（...t-1、t、t+1...）的图像。在每个帧内，帧被在空间上划分成各自表示多个像素的多个部分。这些部分例如可以被称为块。在某些方案中，帧被划分并且细分成不同级别的部分或块。例如可以将每个帧划分成宏块（MB）并且可以将每个宏块划分成块（b），例如每个块表示帧内8×8个像素的区并且每个宏块表示2×2个块（16×16个像素）的区。在某些方案中还能够将每个帧划分成各自包括多个宏块的码片（S）。

可以最初在空间域中表示输入信号中的块，其中每个通道被表示为块内的空间位置的函数，例如亮度（Y）通道和色度（U,V）通道中的每一个是笛卡尔坐标x和y的函数（Y(x,y)、U(x,y)以及V(x,y)）。在这个表示中，每个块或部分由在不同的空间坐标（例如，x和y坐标）处的一组像素值来表示，使得颜色空间的每个通道是按在块内的特定位置处的特定值、在块内的另一位置处的另一值等来表示的。

然而块可以被变换成作为构码过程的一部分的变换域表示，通常为空间频域表示（有时仅仅被称为频域）。在频域中块是按表示跨越块的每个颜色空间通道的变化（例如跨越块的亮度Y以及两个色度U和V中的每一个的变化）的频率分量的系统来表示的。从数学角度讲，在频域中通道中的每一个（亮度通道和两个色度通道等类似物中的每一个）被表示为在给定方向上具有1/长度的维度的空间频率的函数。例如这能够由分别在水平方向和垂直方向上的波数k_x和k_y来表示，使得通道可以被分别表示Y(k_x,k_y)、U(k_x,k_y)和V(k_x,k_y)。块因此被变换为可以被认为表示组成块的不同空间频率项的振幅的系数的集合。针对这样的变换的可能性包括离散余弦变换（DCT）、卡洛变换（KLT）或其它变换。

在图2的框图中示意性地图示了其中可以采用各种实施例的示例通信系统。该通信系统包括第一传送终端12和第二接收终端22。例如，每个终端12、22可以包括移动电话或智能电话、平板、膝上型计算机、台式计算机，或诸如电视机、机顶盒、立体声系统等这样的其它家用器具中的一个。第一终端12和第二终端22被各自在操作上耦接到通信网络32，并且第一传送终端12由此被布置成传送将由第二接收终端22接收的信号。当然传送终端12也许还能够从接收终端22接收信号并且反之亦然，但是出于讨论的目的，在本文中从第一终端12的角度对传送进行描述并且从第二终端22的角度对接收进行描述。通信网络32可以例如包括诸如广域互联网和/或局域网和/或移动蜂窝网络这样的基于分组的网络。

第一终端12包括诸如闪速存储器或其它电子存储器、磁存储装置和/或光学存储装置这样的计算机可读存储介质14。第一终端12还包括形式为具有一个或多个执行单元的处理器或CPU的处理设备16；至少具有传送器18的诸如有线或无线调制解调器这样的收发器；以及可以或者可能未被收容在与终端12的其余部分所在的相同的壳体内的视频相机15。存储介质14、视频相机15以及传送器18被各自在操作上耦接到处理设备16，并且传送器18经由有线或无线链路在操作上耦接到网络32。类似地，第二终端22包括诸如电子、磁和/或光学存储装置这样的计算机可读存储介质24；以及形式为具有一个或多个执行单元的CPU的处理设备26。第二终端包括至少具有接收器28的诸如有线或无线调制解调器这样的收发器；以及可以或者可能未被收容在与终端22的其余部分所在的相同的壳体内的屏幕25。第二终端的存储介质24、屏幕25以及接收器28被各自在操作上耦接到相应的处理设备26，并且接收器28经由有线或无线链路在操作上耦接到网络32。

第一终端12上的存储装置14至少存储被布置成在处理设备16上被执行的视频构码器。当被执行时构码器从视频相机15接收“原始”（未构码的）输入视频流，对该视频流进行构码以便将它压缩成较低比特率流，并且输出经构码的视频流以用于经由传送器18和通信网络32传送到第二终端22的接收器28。第二终端22上的存储装置24至少存储被布置成在它自己的处理设备26上被执行的视频解码器。当被执行时解码器从接收器28接收经构码的视频流并且对它进行解码以用于输出到屏幕25。可以被用来指代构码器和/或解码器的通用术语是编解码器（codec）。

图3给出了如将从在传送终端12上运行的构码器发送到在接收终端22上运行的解码器的构码比特流33的示意表示。比特流33对于每个帧包括多个构码样本34，包括任何运动矢量。在一个应用中，比特流可以作为诸如VoIP（IP语言电话）呼叫这样的实况（实时）视频电话呼叫的一部分在传送终端12与接收终端22之间被传送（VoIP呼叫还能够包括视频）。

图4是示意性地图示了诸如可能被实现在传送终端12上的构码器的高级框图。该构码器包括：离散余弦变换（DCT）模块51、量化器53、逆变换模块61、逆量化器63、帧内预测模块41、帧间预测模块43、开关47以及减法级（-）49。在一些实施例中，构码器还可以包括感兴趣区（ROI）标识模块57，并且可能包括隐藏质量估计模块55。这些模块或级中的每一个可以作为存储在传送终端的存储介质14上并且被布置用于在其处理设备16上执行的代码的一部分被实现，但是不排除这些中的一些或全部用专用硬件电路完全地或部分地实现的可能性。

减法级49被布置成接收遍及多个帧（F）包括多个块（b）的输入视频信号的实例。输入视频流是从耦接到减法级49的输入端的相机15接收的。帧内预测41或帧间预测43基于根据另一已经构码的块或其它这样的部分的预测来生成待构码的当前（目标）块的预测版本。预测版本被供应给减法级49的输入端，其中输入信号（即实际信号）减去它以产生表示块的预测版本与实际输入信号中的对应块之间的差的残差信号。

在帧内预测模式下，帧内预测41模块基于根据同一帧中的另一已经构码的块（通常是邻近块）的预测来生成待构码的当前（目标）块的预测版本。当执行帧内构码时，构思是将仅对帧内的图像数据的一部分如何不同于该同一帧内的另一部分的量度进行构码和传送。然后能够在解码器处（考虑到要始于的某个绝对数据）预测该部分，并且所以仅有必要传送预测与实际数据之间的差而不是实际数据它本身。差信号在大小上通常较小，所以取较少比特来构码。

在帧间预测模式下，帧间预测模块43基于根据偏移了由帧间预测模块43预测的运动矢量的与当前块不同的帧中的另一已经构码的区的预测来生成待构码的当前（目标）块的预测版本（帧间预测还可以被称为运动预测）。在这种情况下，帧间预测模块43通过开关47被切换到反馈路径中代替帧内预测级41，并且所以如此在一个帧和另一帧的块之间创建了反馈回路，以便相对于前面帧的那些对帧间帧进行构码。这通常取比帧内帧构码甚至更少的比特来构码。

残差信号的样本（包括在将输入信号减去预测之后的残差块）通过其中它们的残差值被转换到频域的变换（DCT）模块51（或其它合适的变换）被从减法级49输出，然后输出到其中经变换的值被转换为离散量化索引的量化器53。如由变换模块51和量化模块53所生成的残差的经量化变换的索引以及在预测模块41、43中使用的预测的指示和由帧间预测模块43所生成的任何运动矢量被全部输出以用于包括在经构码的视频流33（参见图3中的元素34）中；通常经由诸如其中预测值和变换的量化的索引可以使用本领域中已知的无损构码技术来进一步压缩的熵构码器（未示出）这样的另一个无损构码级。

经量化变换的信号的实例还通过逆量化器63和逆变换模块61来反馈以生成块的预测版本（如将在解码器处所看到的）以用于由所选择的预测模块41或预测模块43在预测待构码的后续块时使用。类似地，正被构码的当前目标块是基于先前构码的块的逆量化和逆变换版本来预测的。开关47被布置成将逆量化器63的输出传递给如适于用于当前正被构码的帧或块的构码的帧内预测模块41或帧间预测模块43的输入端。

在一些可选的实施例中，隐藏质量估计模块55可以被包括在构码器侧，耦接到构码器的输入端和输出端两者，以接收原始（未构码的）输入样本和构码信号的反馈两者。隐藏质量估计模块55包括解码器的包括其隐藏模块75（待不久讨论）的实例，所述隐藏模块75被布置成产生信号的解码版本，从而使得构码器能够看到解码器将看到什么。隐藏质量估计模块55还被配置成针对每个帧（例如针对确定了如果目标帧或该帧的一部分丢失了但是接收到前面帧则所对应的隐藏帧将是什么样子的每个目标帧）运行一个或多个丢失场景，并且目标帧是根据前面帧而外推的。基于此，它将帧的隐藏版本与原始输入样本或与帧的解码版本相比较，以为目标帧产生隐藏质量的估计。因为可以针对其它丢失场景运行类似的过程，所以尽管考虑了更多场景，但是这将更多处理负担放在构码器侧。

在隐藏质量估计模块55处应用的比较例如可以基于样本的隐藏版本与样本的解码（或原先）版本之间的平均误差（诸如均方误差（MSE））；或者基于诸如峰值信噪比（PSNR）这样的基于信噪的量度。例如两个图像g(x,y)和g’(x,y)之间的均方误差（MSE）可以计算为：。或者峰值信噪比（PSNR）根据图像范围来依比例决定（scale）MSE，例如：，其中A是最大像素值并且PSNR用分贝（dB）测量。将被使用的不同量度的其它示例包括平方差的和（SSD）、绝对差的和（SAD）或结构化相似性指标（SSIM）。

针对帧中的每一个的一个或多个丢失场景的一个或多个隐藏质量估计35被传送到接收终端22上的解码器，例如被嵌入在构码比特流中（例如正在熵构码器级处连同构码样本一起被构码）。参见图3。这提供了使得如果发生丢失则在接收终端22处的解码器能够确定隐藏的估计效果的一个方式。

然而，注意这个构码器侧隐藏质量估计对传送和比特流（在所引发的复杂性和比特率方面）带来负担，并且这个实施方式决不是必要的。如将在下面更详细地讨论的，在不太复杂的实施例中隐藏质量是例如考虑到运动、浏览一个或多个过去接收和解码的帧的历史和/或探测与丢失区相邻的区中的目前帧而在解码器侧替代地确定的。

转向ROI估计，在实施例中ROI标识模块57被提供在构码器侧，耦接来从构码器的输入端接收原先未构码的视频的实例。在这种情况下感兴趣区标识模块57被配置成在正被构码以用于传输的视频中标识感兴趣区。在实施例中，这通过应用面部识别算法来完成，所述面部识别算法的示例本身在本领域中是已知的。面部识别算法在待构码的视频图像中识别面部，并且基于此将包括面部或面部的至少一些（例如像口和眉毛这样的面部特征）的图像的区标识为感兴趣区。面部识别算法可以被具体地配置成识别人类面部，或者可以识别一个或多个其它生物的面部。在其它实施例中可以在除面部识别外的另一基础上标识感兴趣区。其它替代方案包括诸如用于将运动对象标识为感兴趣区的运动识别算法或由传送终端12的用户所规定的用户定义的感兴趣区这样的其它类型的图像识别算法。

示例被示意性地图示在图6中。该图示出了例如如将通常在视频呼叫中发生的“头部特写”型视频图像的一个帧。图6中的顶部图示示出了被划分成包括背景块（b_b）的块（b）的帧。注意，出于图示目的放大了块的大小（相对于典型的视频编解码器的那些，但是一般而言能够使用任何大小块）。图6中的底部图示示出了与已被标识为形成感兴趣区（面部或前景块）的仅那些块（b_f）（例如，包括面部的至少一些的任何块或涵盖面部的主要特征的块的选择）相同的帧。在实施例中，ROI图36可以指示组成感兴趣区的块b_f（例如通过块索引或坐标），和/或未被包括在感兴趣区中的那些块（b_b）。

无论使用哪一个技术，ROI标识模块57输出感兴趣区的指示36，其被传送到在接收终端22处的解码器，例如被嵌入在构码比特流中（例如正在熵构码器级处连同构码样本一起被构码）。再次参见图3。

这提供了使得在接收终端22处的解码器可以确定感兴趣区的一个方式。在实施例中，这个指示可以采取标识帧的哪些部分形成感兴趣区（例如哪些块（b_f）或宏块）的感知重要性图的形式。可以每帧或每帧一次少于发送ROI图36或其它指示（在此情况下它被认为表示当前ROI直到下一个图被发送为止）。

在实施例中可以在除用来对该帧进行构码的一个或多个分组外的单独分组中发送针对目标帧的ROI图36（和/或任何隐藏估计35），以减小目标帧及其隐藏估计两者由于分组丢失而丢失的可能性（注意，图3仅是示意的）。然而，这不是绝对必要的，因为在同一分组中发送的信息可以仍然防止由于分组的一部分的毁坏而导致的丢失，或在另一分组中发送的同一帧的另一部分的丢失。

在使用在构码器侧的隐藏质量估计模块55和在构码器侧的ROI标识模块57的实施例中，隐藏质量估计模块55可以将其比较仅基于所标识的感兴趣区中的样本，例如仅组成感兴趣区的那些块或宏块的样本。例如，在针对MSE或PSNR的上述计算中所比较的样本g(x,y)和g’(x,y）仅是感兴趣区内的那些样本。可替换地，隐藏质量估计模块55可以将其比较基于帧中的所有样本（或比感兴趣区范围更宽的样本），但是同时更大加权被应用于感兴趣区内的样本。例如在针对MSE或PSNR的上述计算中所比较的样本g(x,y)和g’(x,y)可以包括帧中的所有样本，但是在和中每个项可以由对在感兴趣区内部的那些样本比在它外部的那些样本给予更大重要性的因子w_n,m加权。例如w_n,m对于感兴趣区中的样本能够具有一个预定值（假定1）而对于在该区外部的样本具有另一预定值（假定0.5）。

图5是示意性地图示了诸如可能被实现在接收终端22上的解码器的高级框图。该解码器包括逆量化级83、逆DCT变换级81、开关70以及帧内预测级71和运动补偿级73。该解码器还包括含有感兴趣区（ROI）处理模块77的隐藏模块75。这些模块或级中的每一个可以作为存储在接收终端的存储介质24上并且被布置用于在其处理设备26上执行的代码的一部分被实现，但是不排除这些中的一些或全部用专用硬件电路完全地或部分地实现的可能性。

逆量化器81被布置成经由接收器28从构码器接收构码信号33。逆量化器81将构码信号中的量化索引转换成残差信号（包括残差块）的去量化样本并且将去量化样本传递给其中它们被从频域变换回为空间域的逆DCT模块81。开关70然后将经去量化的空间域残差样本酌情传递给用于正被解码的当前帧或块的预测模式的帧内预测模块71或帧间预测模块73，其中帧内预测或帧间预测分别被用来（酌情使用在构码比特流33中接收到的预测的指示和/或任何运动矢量）对块进行解码。DCT模块51（或其它适合的变换）的输出是包括针对每个帧的多个变换块的变换残差信号。解码块被输出到接收终端22处的屏幕25。

隐藏模块75被耦接以便具有来自接收器28的传入比特流33的可见性。在帧或帧的一部分（例如由于分组丢失或数据的毁坏而）丢失的情况下，隐藏模块75检测这个并且选择是否应用隐藏算法。如果应用了隐藏算法，则这通过根据前面接收到的帧对于帧的丢失补片（或甚至整个丢失帧）提出替换而工作；或者根据同一帧的一个或多个其它接收到的部分对于帧的丢失补片提出替换。也就是说，要么通过根据前面接收到的帧来外推丢失帧或帧的丢失部分；要么根据同一帧的另一接收到的部分来外推帧的丢失部分；或者通过在同一帧的接收到的部分之间内插来估计帧的丢失部分。隐藏算法的细节本身在本领域中是已知的。在实施例中，隐藏算法被配置成在整个帧基础上工作，所以如果目标帧的补片丢失了，则隐藏算法根据先前接收到的帧（例如，最后成功地接收到的帧）从该整个帧的任何部分中提出丢失补片的替换版本。进一步地，关于是否隐藏的判定是总体上针对帧而做出的，即跨越整个帧的任何丢失补片被隐藏或者否则整个帧未被隐藏。如果未隐藏，则替代地最后接收到的成功地解码的帧被冻结持续包含丢失的目标帧的持续时间。

ROI处理模块77被配置成在传入视频图像中标识感兴趣区。在实施例中，它使用从传送终端12接收到的ROI图36来做这个，例如从传入比特流33中提取它。例如，ROI处理模块77从而能够确定哪些块（b_f）或宏块组成感兴趣区。在替代实施例中，可能不需要在构码器侧的ROI标识模块57，并且可以替代地在接收终端22处在解码器侧应用用于标识感兴趣区的上面所描述的技术中的任一个。例如可以在接收终端22处的解码器的ROI处理模块77中应用面部识别算法或其它图像识别算法，或者用户定义感兴趣区可以由接收终端22的用户来规定。在诸如在解码器侧应用的面部识别算法这样的图像识别算法的情况下，在大多数情况下感兴趣区不可能已从一个帧显著地移动到下一个帧的假定下，这将基于先前接收到的、成功地解码的帧。

进一步地，隐藏模块75被配置成为丢失帧或该帧的一部分确定隐藏质量的估计。隐藏质量提供了丢失区域的隐藏版本如果使用隐藏算法来隐藏的质量的估计。

在一些实施例中，隐藏模块75能够使用从传送终端12接收到的推测的估计35来确定隐藏质量（这是基于经仿真的丢失场景的），例如从构码比特流33中提取它。然而在以下实施例中，构码器侧隐藏质量估计模块55是不需要的，并且替代地隐藏质量估计由在解码器侧的隐藏模块75执行。在这种情况下，因为在解码器处没有实际丢失数据的知识，所以替代地必须基于目标帧和/或一个或多个先前接收到的帧的成功地接收到的部分“盲”估计隐藏质量。

在实施例中，为了估计隐藏质量解码器侧模块75可以查看目前帧的与（多个）丢失补片相邻的部分。例如，这个技术能够被用来使得隐藏质量估计模块75能够在解码器侧预测隐藏帧的PSNR。质量的估计可以是基于对所接收到的与隐藏块相邻的像素（即，在当前目标帧中围绕隐藏块的像素）与隐藏块的参考块的对应相邻像素（即，在视频信号的参考帧中围绕参考块的像素）之间的差的分析的。可以为每个块测量所述差以提供可以被存储的差量度（或“差度量”）。关于图7讨论了示例。

图7示出了在接收终端12处接收到的视频信号的三个连续帧。三个帧是其在视频信号的帧的序列中的位置为t-2的帧F_t-2（402）、其在视频信号的帧的序列中的位置为t-1的帧F_t-1（406）以及其在视频信号的帧的序列中的位置为t的帧F_t（410）。帧F_t的块412参考如图7中所示出的帧F_t-1的一部分408被编码。然而，在视频信号从传送终端12到接收终端22的传输期间帧F_t-1的部分408已丢失（例如由于分组丢失或毁坏），使得不能够使用部分408来对帧F_t的块412进行解码。

帧F_t的块412的运动矢量被外推回到先于帧F_t-1的帧F_t-2。如图7中所示，块412的运动矢量被外推到帧F_t-2的段404。帧F_t-2的部分404已经在接收终端22处被正确地接收和解码。因此部分404能够被用来提供隐藏块以用于在帧F_t中用来替换块412。例如，隐藏块可以是来自帧F_t-2的部分404的像素的拷贝，但是偏移了经外推的运动矢量。

对于帧F_t的隐藏的质量是通过针对感兴趣区中的块来分析误差隐藏而确定的。通过替换帧F_t中的块412的隐藏块所提供的误差隐藏的成功的量度被确定。该量度包括在帧F_t中围绕块412的像素中的至少一些与围绕帧F_t-2的部分404的对应像素之间的差的量度。差量度的高值指示差大。等效地，差量度可以在一些实施例中作为相似性量度被实现，其中相似性量度的高值指示差小（即相似性高）。确定是基于与块412相邻的帧F_t中的像素与与参考帧F_t-2中的部分404相邻的对应像素之间的差的估计的。差量度可以作为差的函数被实现。例如，在各种实施例中，差量度作为绝对差的和（SAD）、平方差的和（SSD）或均方误差（MSE）被实现。例如，两组对应像素g(x,y)和g’(x,y)之间的均方误差可以被计算为：。

在图7中被比较的像素被划上阴影线。围绕块412的像素中的至少一些被使用并且围绕段404的对应像素也被使用。例如，如图7中所示，在块412左边并且与块412相邻的一列像素、在块412右边并且与块412相邻的一列像素以及在块412下方并且与块412相邻的一行像素与在段404左边并且与部分404相邻的对应的一列像素、在段404右边并且与部分404相邻的一列像素以及在段404下方并且与部分404相邻的一行像素相比较。

在估计中使用的周围像素可以或者可能不完全围绕块412（和对应部分404）。如果例如不是，则帧F_t中的相邻像素可以在它们在被估计为具有非线性运动超过基于它遍及最后两个或更多个帧的运动矢量的线性的阈值的块（例如416）中的情况下被从估计中排除。或者如果隐藏块412是在帧的边缘处，则在它上方可能简单地不存在相邻块416要包括在估计中。可替换地，可以从隐藏块四处在左边、右边、上面和下面包括相邻像素。例如在图7中，比较还可以包括在块412上方并且与块412相邻的一行像素与在段404上方并且与部分404相邻的一行像素相比较。

周围像素可以与块412相邻（并且与对应段404相邻）、在块412的边界上（并且在对应部分404的边界上）。周围像素可以是来自块412的边缘（以及来自对应部分404的边缘）深处的一个或多个像素。

在实施例中，被用来替换帧F_t中的块412的隐藏块是帧F_t-2的部分404的像素的拷贝（偏移了经外推的运动矢量）。因为在接收终端22处正确地接收到帧F_t-2，所以假定了在帧F_t-2中的部分404的像素和周围像素中存在小误差或没有误差。因此部分404与在比较中使用的周围像素（其在图7中被划上阴影线）之间的边界（例如在亮度或色度方面）有平滑过渡。因此为了让帧F_t中的隐藏块在该隐藏块与在比较步骤中使用的周围像素（其在图7中被划上阴影线）之间具有平滑过渡，帧F_t中的周围像素将趋于与帧F_t-2中的周围像素类似。因此在图7中被示出为划上阴影线的帧F_t和帧F_t-2中的周围像素之间的差的量度能够提供关于由隐藏块所提供的误差隐藏的成功的良好指示。在各种实施例中，比较牵涉确定对应像素的值之间的SAD、SSD或MSE。像素的值例如可以是像素的亮度值或色度值。所确定的差值被分配给块412。

还确定了在帧F_t中的感兴趣区中是否存在参考先前帧的丢失段（例如丢失帧F_t-1或F_t-2的段）编码并且将在确定帧F_t的质量的估计时考虑的任何其它块。如果确定了在帧F_t中存在待考虑的更多隐藏块，则该方法然后对于新近考虑的块重复。一旦确定了不存在帧F_t的需要在隐藏质量的估计中考虑的更多隐藏块，那么该方法就通过计算已被分配给所考虑的帧F_t的隐藏块的所有MSE（或SSD或SAD）值的和或平均值而继续，以由此提供感兴趣区的质量的估计。MSE、SSD或SAD的和可以被用来确定峰值信号噪声比（PSNR）。和、平均值或PSNR（等）越大，隐藏的质量越低。

因此在实施例中有可能在解码器侧确定隐藏质量的估计，而无需对于待在没有在比特流33中传送的任何显式边信息的情况下在构码器侧实现的估计的任何显式支持。

在另一这样的示例中，可以在解码器侧使用在误差区的边界处的亮度不连续性来评估误差隐藏有效性。如果亮度不连续大于预定阈值则误差隐藏被认为是无效的。

在又一个示例中，隐藏质量估计可以是基于两个或更多个前面成功地接收并且解码的帧之间的差的。例如，可以在两个前面成功地接收并且解码的帧或那些帧的部分之间的感兴趣区中替代地计算MSE或PSNR。在当前帧如果被接收到则将很可能继续改变类似程度的假定下，那两个前面帧之间的差可以被认为是从前面帧到当前目标帧（丢失了的那个）预期的改变的程度的估计。例如如果在最后两个接收到的帧之间的感兴趣区中存在大平均差（例如按MSE或PSNR测量），则很可能的是，当前目标帧将继续展示这种程度的差并且隐藏将是不良的。但是如果在最后两个接收到的帧之间的感兴趣区中仅存在小平均差，则很可能的是，当前目标帧将不继续为非常不同的并且隐藏将是相对良好的质量。作为另一替代方案，有可能查看前面帧的运动矢量。例如，如果感兴趣区中的运动矢量的平均大小大，则预期到许多改变并且隐藏将很可能是不良质量；但是如果运动矢量的平均大小小，则预期到不多的改变并且隐藏将很可能提供相当良好的质量。例如如果运动矢量指示大于阈值的运动，则误差隐藏可以被认为是无效的。

通过无论什么技术估计隐藏质量，如关于构码器侧估计所讨论的，隐藏质量的估计集中于感兴趣区——要么因为差量度（无论应用在构码器侧还是解码侧）仅基于感兴趣区中的样本、块或宏块，不计及外部的那些；要么因为差和或平均值中的项用感兴趣区中的样本、块或宏块相对于在感兴趣区外部的那些的更大重要性进行加权。例如能够使用加权得分即通过重要性掩码或重要性的中心来实现选择性。

所以在图6的示例中，隐藏质量估计是仅基于涵盖主要面部区的块b_f（或者被向所述块b_f偏置）来做出的。

然而质量被估计，隐藏模块75被配置成基于针对感兴趣区的隐藏质量估计来做出关于是否应用隐藏算法的选择。在实施例中，隐藏模块75被配置成对隐藏质量估计应用阈值。如果隐藏质量估计相对于阈值是良好的（满足和/或好于阈值），则隐藏模块75选择应用隐藏算法。如果隐藏质量估计相对于阈值是坏的（坏于和/或不好于阈值），则隐藏模块75选择不应用隐藏算法。替代地它可以冻结前面帧。

在实施例中，即使隐藏质量估计是仅基于该区域内的较小感兴趣区的（或者至少向该区域内的感兴趣区偏置），例如在小于帧的区域的感兴趣区内，选择也被应用于考虑中的整个区域，例如整个帧。也就是说，针对感兴趣区的隐藏质量的估计被用来判定是否产生整个区域（例如整个帧，包括感兴趣区以及该区域在感兴趣区外部的剩余区（例如帧的其余部分）两者）的隐藏版本——隐藏算法隐藏感兴趣区内部和感兴趣区外部的补片。所以在图6的示例中，隐藏质量估计可以仅基于涵盖主要面部区的块b_f（或向其偏置）来做出，但是可以被用来做出对于包括从前景块b_f之中丢失的任何块和从背景块b_b之中丢失的任何块的整个帧来说被认为是相关的隐藏判定。这可以提供与对于单独的块做出逐块判定将需要的相比不太复杂的解决方案，同时仍然获得基于ROI的隐藏的利益。例如，背景是否包含隐藏赝像通常对用于而言没有关系，所以可能不值得单独地选择如何处理那些块。

应当了解，已经仅通过示例描述了上述实施例。

例如，尽管已经在整个帧隐藏方面描述了上述实施例，但是情况不必是这样的。替代地构思能够被应用于帧的另一区域，诸如码片。例如可以基于比码片小的码片内的感兴趣区做出关于隐藏的判定，并且一旦做出就可以跨越整个码片应用该判定。进一步地，虽然已经在块和宏块方面描述了上文，但是不必在任何特定标准的块或宏块方面映射或者定义感兴趣区。在实施例中可以在帧的任何一个或多个部分方面映射或者定义感兴趣区，甚至直到逐像素级别，并且用来定义感兴趣区的部分不必与用于诸如预测这样的其它构码/解码操作的划分相同（尽管在实施例中它们也可以如此）。

进一步地，丢失不限于分组丢弃，而是还能够例如指代由于毁坏而导致的任何丢失。在这种情况下一些数据可以被接收但是不具有可用形式，即并非所有预定数据都被接收，意味着信息丢失了。进一步地，各种实施例不限于其中构码视频通过网络来传送的应用。例如在另一应用中，接收还可以指代从诸如光盘、硬盘或其它磁存储装置或“闪速”存储器棒或其它电子存储器这样的存储装置接收视频。在这种情况下，可以通过将视频存储在在传送装置处的存储介质上、移除存储介质并且物理上传输它以便被连接到它被检索所在的接收装置来转移视频。可替换地接收装置可能先前已将视频它本身存储在本地存储装置处。即便当终端将从诸如硬盘、光盘、存储器棒等这样的存储介质接收构码视频时，存储的数据也仍然可能随着时间的推移而变得毁坏，导致信息的丢失。

进一步地，解码器和/或隐藏软件未必必须被实现在最终用户终端处，也不必在接收终端处输出视频以用于中间消费。在替代实施方式中，接收终端可以是运行解码器和/或隐藏软件以便以解码和/或隐藏形式将视频输出到另一终端或者存储解码和/或隐藏视频以供以后消费的服务器。在另一替代方案中，隐藏可以采取能够与解码器单独地下载的给查看者的插件的形式。

在实施例中，ROI图不必被嵌入在所传送的比特流中。在其它实施例中能够通过网络32或另一网络单独地发送它。例如ROI信息可以是带内（嵌入在视频比特流中）或带外（在更高级协议层上传送）。可替换地如所讨论的，在仍然另外的实施例中可以在解码器侧而不是构码器侧确定ROI。类似地在实施例中，隐藏估计不必被嵌入在所传送的比特流中，但是在其它实施例中能够通过其它网络的网络32单独地发送，或者可以在解码器侧被确定。由本文公开所涵盖的系统的操作的模式包括（但不限于）：

●ROI的转移；

●转移重要性图；

●接收器对先前帧运行面部检测算法；或者

●接收器根据量化参数（QP）得到重要性图——应用其中QP不固定的内插，例如使用运动矢量来将重要性从一个帧转移到另一帧。不太复杂的替代方案在于将跳过的宏块视为不太重要的。

进一步地，本公开不限于任何特定隐藏算法的使用并且各种适合的隐藏算法本身将为本领域的技术人员所知。上面所使用的术语“提出”、“外推”或“内插”不旨在限于任何特定数学操作。一般地隐藏可以使用任何操作以便试图通过从在空间和/或时间上靠近的其它接收到的图像数据提出来为丢失数据再生成替换（与仅仅冻结过去的数据相反）。

进一步地，在据说隐藏质量的量度选择性地致力于感兴趣区的情况下，这能够包括基于感兴趣区和另一区两者但是向感兴趣区偏置的加权估计的可能性。它不仅仅限于不同区在质量估计中的严格包括或排除。即这涵盖至少偏见地看待感兴趣区中的质量的任何量度。

本文中所公开的技术能够作为构码器或解码器的内在部分被实现，例如作为对诸如H.264或H.265这样的现有标准的更新并入，或者能够作为诸如对H.264或H.265的附加这样的对现有标准的附加被实现。进一步地，本公开的范围不具体地局限于视频样本无论在RGB、YUV方面还是在其它方面的任何特定表示。范围也不限于任何特定量化，也不限于DCT变换。例如能够使用诸如卡洛变换（KLT）这样的替代变换，或者可以不使用变换。进一步地，本公开不限于VoIP通信或通过任何特定类型的网络的通信，而是能够被用在能够传送数字数据的任何网络中，或在用于将构码数据存储在存储介质上的系统中。

一般地，本文中所描述的功能中的任一个都能够使用软件、固件、硬件（例如，固定逻辑电路）或这些实施方式的组合来实现。如本文中所使用的术语“模块”、“功能性”、“组件”以及“逻辑”一般地表示软件、固件、硬件或其组合。在软件实施方式的情况下，模块、功能性或逻辑表示当在处理器（例如一个或多个CPU）上执行时执行规定任务的程序代码。程序代码能够被存储在一个或多个计算机可读存储器装置中。在下面所描述的技术的特征是平台无关的，意味着技术可以被实现在具有各种处理器的各种商业计算平台上。

例如，用户终端还可以包括使用户终端的硬件执行操作（例如，处理器功能块）等等的实体（例如软件）。例如，用户终端可以包括可以被配置成维持指令的计算机可读介质，所述指令使用户终端并且更特别地使用户终端的操作系统和关联的硬件执行操作。因此，指令作用来将操作系统和关联的硬件配置成执行操作并且以这种方式导致操作系统和关联的硬件的变换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给用户终端。

计算机可读介质的一个这样的配置是信号承载介质并且因此被配置成诸如经由网络将指令（例如作为载波）传送到计算装置。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器（RAM）、只读存储器（ROM）、光盘、闪速存储器、硬盘存储器以及可以使用磁、光学和其它技术来存储指令和其它数据的其它存储装置。

尽管已经用特定于结构特征和/或方法学行为的语言对主题进行了描述，但是应当理解，在所附权利要求中定义的主题未必限于上面所描述的特定特征或行为。相反，上面所描述的特定特征和行为作为实现权利要求的示例形式被公开。

Claims

1.一种接收设备，其包括：

接收器，用于接收视频信号；

输出端，用于将所述视频信号输出到屏幕、存储装置或另一终端；以及

隐藏模块，用于对具有丢失数据的所述视频信号的区域应用隐藏算法；

其中所述隐藏模块被配置成选择性地针对所述区域内的感兴趣区确定隐藏质量的估计，并且基于所述估计来确定是否应用所述隐藏算法。

2.根据权利要求1所述的设备，其中倘若当被应用来隐藏从所述感兴趣区丢失的数据以及从在所述感兴趣区外部的另一区丢失的数据时，所述隐藏模块被配置成基于致力于所述感兴趣区的所述估计来做出关于是否对于所述区域的整体应用所述隐藏算法的所述确定。

3.根据权利要求2所述的设备，其中所述视频信号包括多个帧，并且所述区域包括整个帧，所述隐藏模块基于针对该帧内的所述感兴趣区的隐藏质量的所述估计来做出关于是否对于所述整个帧应用一次所述隐藏算法的所述确定。

4.根据权利要求1、2或3所述的设备，其中所述感兴趣区包括面部的至少一部分的图像。

5.根据任何前述权利要求所述的设备，其中所述视频信号包括实况视频流。

6.根据任何前述权利要求所述的设备，其中所述隐藏模块被配置成通过接收从传送所述视频信号的终端接收到的所述感兴趣区的指示来确定所述感兴趣区。

7.根据任何前述权利要求中的任一项所述的设备，其中所述隐藏模块被配置成通过在所述接收设备处应用图像识别算法来确定所述感兴趣区。

8.根据任何前述权利要求所述的设备，其中所述隐藏模块被配置成仅基于所述感兴趣区来确定隐藏质量的所述估计，并且配置成确定是否遍及所述区域应用所述隐藏算法，而不用对于所述另一区考虑隐藏质量。

9.根据权利要求1至7中的任一项所述的设备，其中所述隐藏模块被配置成基于所述感兴趣区和所述另一区来确定隐藏质量的所述估计，但是偏重于所述感兴趣区。

10.一种用于处理包括多个帧的视频信号的计算机程序产品，包括被具体化在计算机可读存储介质上并且被配置以便当在接收终端上执行时执行以下步骤的操作的代码：

处理所述视频信号以用于输出到屏幕、存储装置或另一终端；以及

遍及具有丢失数据的所述视频信号的区域有条件地应用隐藏算法；

其中所述隐藏算法的条件应用包括选择性地针对所述区域内的感兴趣区确定隐藏质量的估计，并且基于所述估计，确定是否应用所述隐藏算法。