CN104041003B

CN104041003B - 用于视频序列中的感知质量评估的场景变换检测

Info

Publication number: CN104041003B
Application number: CN201180074123.4A
Authority: CN
Inventors: M.佩特斯森; S.阿格罗波洛斯; D.林德格伦; P.里斯特
Original assignee: Deutsche Telekom AG; Telefonaktiebolaget LM Ericsson AB
Current assignee: Deutsche Telekom AG; Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-10-11
Filing date: 2011-10-11
Publication date: 2018-12-21
Anticipated expiration: 2031-10-11
Also published as: BR112014008734A2; WO2013053385A1; US20200007859A1; CN109510919A; ZA201402196B; US11012685B2; BR112014008734B1; CN104041003A; EP3171586A3; EP3171586B1; MY168103A; US20140376886A1; JP2015501568A; US10349048B2; JP5957532B2; EP3171586A2; KR101601788B1; EP2756662A1; CN109510919B; KR20140088148A

Abstract

提供多种用于检测流播视频中的场景变换的方法，流播视频包括一系列图片。示例方法包括：对于多个位置，计算连续图片中的相同位置处的宏块的编码成本之间的差。方法还包括：当多个位置的差的总和满足阈值准则时，标识新场景。还提供确定分组丢失对流播视频的感知影响的方法，该方法包括：标识分组丢失；以及确定丢失的分组是否包含有关新场景开始时的图片的信息，其中利用本文公开的方法之一检测新场景。

Description

用于视频序列中的感知质量评估的场景变换检测

技术领域

本申请涉及：多种检测流播的视频中的场景变换的方法；一种确定分组丢失对流播的视频的感知影响的方法；一种确定流播的视频中新场景的出现的感知影响的方法；以及一种计算机可读介质。

背景技术

可以跨IP网络将电视内容或视频内容从内容提供商传送到供最终用户使用的装置。该装置可以是个人计算机、无线通信装置、机顶盒、具有内置机顶盒功能性的电视、智能TV或智能机顶盒。电视内容或视频内容可以具有通常与其一起传送的与其相关联的音频内容。出现“实时”传送时表示，在传送完成之前就显示内容，这称为“流播（streaming）”。

跨通信网络的视频流播正变得越来越普遍。为了确保在通信网络上流播的视频的端到端质量，网络运营商和视频服务提供商可以使用视频质量模型。视频质量模型通过测量对于人类观察者来说可感知的来自编码和传送的假象或误差来生成视频质量的客观评价。这可以取代主观质量评价，在主观质量评价中，人们观看视频样本并评定其质量。

学术界对视频质量模型的认知已经有一段时间了，但是将其使用标准化也只是最近的事。在国际电信联盟（ITU）标准J.144、J.247和J.341中描述了感知视频质量模型。感知模型的优点在于，它们可以使用经过处理的视频中的像素值来确定质量分数。在全参考模型的情况下（如在上述ITU标准中），还使用参考信号来预测经过处理的视频的降级。感知模型的一个大的缺点是它们在计算上要求高，并且不适合大规模部署用于网络监视的目的。

因此，当前正在ITU-T SG12/Q14中以工作名称P.NAMS标准化一种更轻量的方法。该模型采用网络层协议报头作为其输入，并且利用它们来对所传送的视频进行质量估计。这使得该模型可以非常有效率地实现和使用，但是它独自对所传送的视频的质量估计相当粗糙。因此，ITU-T SG12/Q14还将对工作名称为P.NBAMS的视频比特流质量模型进行标准化。该模型不只使用网络层协议报头，而且还使用编码的基本流或“比特流”。利用两种输入集合的优点是，与P.NAMS模型相比，在获得视频质量的更佳估计的同时它将是相当轻量的。

基于块的编码是主要的视频编码技术，其具有编解码标准例如H.263、MPEG-4Visual、MPEG-4 AVC（H.264）以及在ITU视频编码联合协作组（JCT-VC）中开发的新兴的H.265标准。基于块的编码使用不同类型的图片（它们采用不同类型的预测）以便能够尽可能有效率地压缩视频。帧内图片（I-图片）只可以在空间上从图片本身中的区域预测。预测图片（P-图片）则在时间上从之前的一个或多个编码图片预测。但是，P-图片中的一些宏块可以是帧内编码。双向预测的图片（B-图片）从之前的图片以及随后的图片预测。具有在此之前没有图片可用于预测的限制的I-图片称为即时解码刷新（IDR）图片。与P-图片和B-图片相比，I图片和IDR图片在比特方面通常要花费多得多来编码。

为了增加易于发生误差的通信网络中的误差复原能力，定期插入I或IDR图片以刷新视频。定期插入I或IDR图片也是为了允许随机接入和信道切换。此外，当将图片编码为P-图片的成本（在诱导失真和比特分配方面）大于将它编码为I或IDR图片的成本时，插入I或IDR图片。当图片的空间冗余度大于具有其参考图片的图片的时间冗余度时，会出现这种情况。当考虑中的图片是场景变换时通常会发生这种情况，场景变换又称为场景切换，它意味着所描绘的场景与它之前的图片完全不同。是否应当及时插入强制的帧内图片不是由视频编码标准（它只定义解码过程）定义的，而是由编码器来决定。

平均而言，电视内容通常每3-5秒包含场景之间的转变，称为场景变换。场景变换可以即刻出现在两个图片之间或者在若干图片上逐渐消失。由于从场景变换的一侧到另一侧无法进行好的时间预测是常有的情形，所以智能编码器通常试图将场景切换与I-图片或IDR-图片对准。

WO 2009/012297描述了一种通过只利用来自分组报头的信息来估计加密分组视频流中的帧的内容而无需对分组解密的方法和系统。如果之前的图片组（GOP）的长度异常短并且倒数第二个GOP长度等于其最大值，那么将I-帧表示为新场景的开始。但是，这种方法的主要缺点是无法标识在正常GOP长度中出现的场景变换。例如，如果正常GOP长度是25个帧，那么无法检测在帧号25、50、75、100等中出现的场景变换。此外，较短的GOP长度并一定意味着考虑中的图片是场景变换，从而导致许多错误肯定。

发明内容

本文提供多种适合在质量评价模型中使用的场景变换检测方法。此外，提供一种采用场景变换检测的质量评价模型。

在场景变换期间出现的分组丢失通常比在场景中间出现的分组丢失明显得多。因此，提供一种质量检测模型，它结合诸如分组丢失的错误检测利用场景变换检测。但是，为了质量评价模型的目的的场景变换检测方法必须非常准确，因为场景变换检测中的任何误差都可能会在质量评价中放大。

图1示出两种情形中的I-图片中的数据丢失的相对影响。图1a示出新场景开始时的I-图片中的数据丢失，而图1b示出类似的丢失但是在场景中间的I-图片。在图1a中，图片110的特征是“缺失片段”115，其中解码器尚未接收到与新场景的这部分有关的数据，并且因此使用来自之前场景的图片的对应片段。这里，新场景是场上的选手的场景，而之前的场景是人群的场景。在图1b中，在显示场上选手的场景期间出现数据丢失，并且因此数据丢失远远不引人注意。图片120的右手边的上面的选手的细节发生了失真，但是数据丢失几乎不太能察觉。

而且，即使没有出现传送错误，场景变换仍会对视频信号的质量有影响。通常，具有场景变换的序列具有较低的质量，因为它们代表一般要更费成本来编码的更加复杂的内容。另外，在新场景开始时的I-图片通常是（或者至少表现为好像它们是）IDR图片。这会使压缩效率下降，因为参考图片的数量是有限的。

提供一种检测流播视频中的场景变换的方法，其中流播视频包括一系列图片。该方法包括对于多个位置，计算连续图片中的相同位置处的宏块的编码成本之间的差。该方法还包括当多个位置的差的总和满足阈值准则时，标识新场景。

在流播视频已编码的情况下，以上方法可以对已编码的比特流进行操作。该方法无需解码流播视频。

用于计算差的位置可以是像素位置、子块位置和/或宏块位置。像素位置可以包括单独像素的位置或像素组的位置。

宏块的编码成本可以根据宏块类型来确定。宏块类型可以包括以下之一：跳过（skip）、作为一个分区的帧间编码的宏块、细分为多个分区的帧间编码的宏块；作为一个分区的帧内编码的宏块；以及细分为多个分区的帧内编码的宏块。可以利用每种宏块类型的历史平均编码成本来将编码成本指派给只利用特定宏块类型的特定宏块。

该方法还可包括应用运动补偿，借此在已经应用运动补偿之后，对于像素位置计算连续图片中相同位置处的像素的宏块的编码成本之间的差。这意味着，在当前图片的位置和它在参考（之前）图片中的运动补偿的位置之间计算像素值之间的差。

该方法还可以包括包含连续图片中的位置之间的偏移。对于多个偏移值中的每个偏移值，可以计算多个位置的差的总和以获得对应于所述多个偏移值的多个差总值。该方法还可以包括将所述多个差总值的最小值与阈值准则进行比较。这允许另外的类似宏块的不对准，例如由于连续图片之间的摇摄运动。

该方法还可以包括当多个像素位置的差的总和大于最大阈值或小于最小阈值时，标识新场景。至少一个阈值可以通过对在预定数量的紧接的之前的图片之间计算的差取加权平均值来确定，其中赋予较近期的图片之间的差较大的权。这有时称为使用滑动窗。

还提供一种用于检测流播视频中的场景变换的设备，流播视频包括一系列图片。该设备包括处理器，它布置成对于多个位置计算连续图片中的相同位置处的宏块的编码成本之间的差。该设备还包括场景变换检测器，它布置成当多个位置的差的总和满足阈值准则时标识新场景。

还提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片。该方法包括对于多个位置，计算连续图片中的相同位置处的像素值之间的差。该方法还包括对差应用加权，加权取决于与位置相关联的宏块类型。该方法还包括当多个位置的加权的差的总和超过阈值时，标识新场景。

该方法还可以包括应用运动补偿，并且其中在已经应用运动补偿之后，对于像素位置计算连续图片中的相同位置处的像素的宏块的编码成本之间的差。这意味着，在当前图片的位置和它在参考（之前）图片中的运动补偿位置之间计算像素值之间的差。

还提供一种用于检测流播视频中的场景变换的设备，流播视频包括一系列图片。该设备包括像素信息分析器，它布置成对于多个位置计算连续图片中的相同位置处的像素值之间的差。该设备还包括处理器，它布置成对差应用加权，加权取决于与位置相关联的宏块类型。该设备还包括场景变换检测器，它布置成当多个位置的加权的差的总和超过阈值时标识新场景。

还提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片。该方法包括确定图片的编码大小。该方法还包括确定图片的图片类型。该方法还包括当编码图片大小超过所检测的图片类型的阈值时标识新场景。

图片类型可以根据从流播视频的分组报头提取的信息来确定。图片类型可以从包含在RTP或MPEG2-TS PES报头中的时间戳信息来确定。

图片类型可以包括以下之一：帧内编码、单向预测图片以及双向预测图片。双向预测图片可以是参考和/或非参考图片。

还提供一种用于检测流播视频中的场景变换的设备，流播视频包括一系列图片。该设备包括处理器，它布置成确定图片的编码大小，并确定图片的图片类型。该设备还包括场景变换检测器，它布置成当编码图片大小超过所检测的图片类型的阈值时标识新场景。

还提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片。该方法包括确定图片的编码大小。该方法还包括根据图片的编码大小确定图片类型。该方法还包括对于多个像素位置计算连续图片中的相同位置处的像素值之间的差。该方法还包括通过将像素差求和来计算连续图片之间的差的量度。该方法还包括对连续图片之间的差的量度应用加权，加权取决于图片类型。该方法还包括当加权的差超过阈值时标识新场景。

图片类型可以包括以下之一：帧内编码、单向预测图片以及双向预测图片。双向预测图片可以是分级的和/或非分级的。

还提供一种用于检测流播视频中的场景变换的设备，流播视频包括一系列图片。该设备包括处理器，它布置成确定图片的编码大小，并根据图片的编码大小确定图片类型。处理器还布置成对于多个像素位置计算连续图片中的相同位置处的像素值之间的差；以及通过将像素差求和来计算连续图片之间的差的量度。处理器还布置成对连续图片之间的差的量度应用加权，加权取决于图片类型。该设备还包括场景变换检测器，它布置成当加权的差超过阈值时标识新场景。

还提供一种确定分组丢失对流播视频的感知影响的方法，流播视频包括一系列图片。该方法包括标识分组丢失。该方法还包括确定丢失的分组是否包含有关新场景开始时的图片的信息，其中利用根据上述方法中的任一方法的检测场景变换的方法来检测新场景。

还提供一种携带指令的计算机可读介质，所述指令在由计算机逻辑执行时使所述计算机逻辑执行上文所描述的方法中的任一方法。

附图说明

现在将参考附图仅仅通过示例的方式来描述场景变换检测方法和质量评价模型，附图中：

图1示出两种情形中的I-图片中的数据丢失的相对影响；

图2是示出利用从编码视频流提取的特征来标识场景变换的方法的流程图；

图3示出利用宏块类型的图片比较；

图4是示出利用从视频流和解码的像素数据提取的特征来标识场景变换的方法的流程图；

图5是示出利用编码的视频信号的分组报头信息来标识场景变换的方法的流程图；

图6示出如何从每个图片的大小确定图片类型的示例；

图7是实施上述方法的场景变换检测过程的流程图；

图8是示出利用分组报头信息和解码的像素数据来标识场景变换的方法的流程图；以及

图9示出用于执行上述方法的设备。

具体实施方式

本文呈现用于在以下四组情形下的视频质量模型中使用的四种不同类型的场景变换检测：

i）当像素数据的解码不可能或者不被允许时，利用从编码视频比特流提取或计算的特征；

ii）当允许解码像素数据时，利用从视频比特流提取或计算的特征；

iii）利用编码视频信号的分组报头信息；以及

iv）利用分组报头信息和通过解码视频比特流获得的像素数据。

对解码的像素数据具有接入权的模型将潜在地能够对感知的视频质量进行更准确的估计。但是，这是以更高的复杂度和对包括存储器和处理能力的资源的增加的需求为代价。

本文呈现的这四种不同的操作模式或者从视频质量评价模块的复杂度要求指定，或者从由于视频信号加密而缺少特定信息指定。例如，如果在具有有限功率资源的网络位置中部署视频质量测量，或者如果视频信号被加密，那么模式(iii)将是合适的。如果该模型部署在最终用户驻地的解码装置中并且视频信号被加密，那么本发明可以另外使用来自重构图片（例如，它可以从最终用户装置捕获）的像素数据，并且模式(iv)将是合适的。如果视频信号没有加密，那么取决于复杂度规范和要求，系统可以利用如模式(i)和(ii)中所描述的视频比特流的特征。

将依次描述所述模式中的每种模式。

(i) 利用从编码视频流提取的特征

这种检测流播视频中的场景变换的方法包括对于多个位置计算连续图片中的相同位置处的宏块的编码成本之间的差；以及当多个位置的差的总和满足阈值准则时，标识新场景。

图2中的流程图示出了应用于流播视频中的两个连续图片的这种方法。在210，选择将进行比较的图片位置。对于一些实现，可以比较每个图片位置，但是对于其它实现，根据预定或甚至随机的模式选择子集。在220，确定与两个图片中的选定图片位置中的每个图片位置处的宏块的编码成本有关的值。在230，在选定位置中的每个位置计算两个图片之间的编码成本的差。在240，将这些差求和，并将总差与阈值进行比较。如果总差超过阈值，那么确定已经发生了场景变换。

当质量评价模型检测到以下情形之一时，可以采用这种场景变换检测方法：

-一个或多个图片的丢失；

-图片的部分的丢失，该图片编码为I-图片或IDR图片；

-图片的部分的丢失，其中图片中的帧内编码宏块的比例超过阈值，使得图片具有类似于I-图片或IDR图片的影响。

该方法可以应用于两种图片，一种图片出现在数据丢失之前，另一种图片出现在数据丢失之后。该方法包括在两个图片之间进行比较。这允许确定在场景变换期间是否发生了丢失。但是，即使没有发生丢失，场景变换检测方法仍可以应用。

可以利用以下来确定图片中的一个位置处的宏块的编码成本的指示：运动向量、宏块类型、用于宏块编码的比特数和/或量化值。

在使用运动向量来确定宏块的编码成本的情况下，使用宏块的运动向量的方向和大小。运动向量的大小越大，那么编码成本也越大。运动向量的方向对编码成本也有影响。该方法可以检测发生场景变换的许多情形。但是，对于非常静态的场景，仅运动向量方法将不能够检测场景变换（即，从一个静态场景到另一个静态场景的场景变换难以通过查看运动向量来检测）。

编码成本也可以通过分析图片的特定区域的复杂度来确定。复杂度可以通过查看在特定宏块位置中使用的宏块的所用比特数或类型来测量。对于宏块类型，可以根据下表为每种类型的宏块指派一个数值，其中为昂贵的宏块指派较大值。

图3中示出的图片比较利用宏块类型以及对应于表1的评分系统。为了说明的目的，该示例中的每个图片的大小只是5×5宏块。实际上，典型的图片大小通常介于QCIF视频格式（11×9宏块）和全HD视频（120×68宏块）之间。在图3a中，用符号示出宏块类型：用圆圈示出包括子块的帧内宏块；用正方形示出帧内16×16；用三角形示出包括子块的帧间宏块；用空格示出帧间16×16；用叉示出跳过。图3a示出三个连续图片301、302、303。

图3b示出图3a中的连续图片对的差映射。第一个差映射包含图片301和302之间的每个宏块值的绝对差。第二个差映射包含图片302和303之间的每个宏块的绝对差。第一个差映射中的平均差是3.8，而在第二个差映射中则是22.4。宏块类型的分布对于该示例中的这三个图片是相同的，但是由于复杂度的位置，所以差非常不同。图片301和302中的复杂度在非常类似的位置，而图片302和303中的复杂度在非常不同的位置。

以上方法可以扩展以便允许一个或两个宏块的不对准。这可以补偿诸如相机摇摄的某些运动，并且可以使结果更准确。即使在涉及例如宏块类型模式时将进行比较的两个图片非常类似，如果图片之一中的所有块都略微漂移（例如，由于相机运动），那么它们仍可获得大的差值。允许一个或两个块的不对准意味着计算这些块之间的差时将考虑周围块的值。实际上，这可以意味着块的差将是通过将该块与所有周围块比较而获得的多个差值的最小值。

图片302的一个位置处的宏块的差是图片301的位置(m+x, n+y)处的宏块的差值（例如，表1）的最小值，m和n指示图片301中的宏块的位置，而x和y分别指示图片301和302的宏块位置之间在水平和垂直方向上的偏移，其中x和y取值(-1, -1)、(-1, 0)、(-1, 1)、(0,-1)、(0, 0)、(0, 1)、(1, -1)、(1, 0)和(1, 1)中的任一值。

此外，以上方法可以扩展以便考虑运动补偿。与只可从它本身预测的I-图片相比，P-图片和B-图片从之前（以及有时从未来）图片预测。从其它图片预测可以通过只从另一图片中的确切对应的像素位置预测来进行，或者可以应用运动向量以便从另一图片中的不同的空间位置预测。当这两个图片之间存在自然运动时，这尤其有用。

在计算差之前，为了根据运动向量将要进行比较的块对准的目的，这里可以应用运动补偿。例如，考虑用三角形标记的图3a的图片302中的最上面的包括子块的帧间宏块。图片的左上方的像素具有像素位置(0, 0)，并且每个宏块包括16×16像素。目标宏块具有像素位置(16, 16)中的左上方的像素。如果这是从之前图片中与它相邻并向右移动1的宏块位置中的宏块导出，那么它将具有指向图片301中的像素位置(32, 16)的运动向量mv(x,y)=(16, 0)。通过在计算差之前执行运动补偿，对于该宏块将以0而不是35的差结束。

当然，运动向量不一定必须与宏块的大小对准，而是可以指向任何像素（在H.264中，甚至可以是半个像素和四分之一像素位置）。为了适应此，该方法可以选择最靠近运动向量所指向的像素位置的块，或者该方法可以执行与预测块相交的四个块的加权。例如，假定在编码图片302中的相同目标宏块（用三角形标记的最上方的宏块）中使用运动向量mv(x, y)=(-12, 3)。然后，将从具有位置(4, 19)中的左上方的像素的16×16块进行预测，并且从来自图片301的位置(0, 16)、(16, 16)、(0, 32)和(16, 32)中的宏块进行加权。加权可以如下计算：

获得参数匹配的更稳定结果的又一方法是利用滑动窗方法在若干图片上求平均值。将平均差与之前图片的平均差相除将使得利用n和1/n的静态阈值检测场景变换变成可能。例如，我们可以有以下两个系列的平均绝对差：

序列a：3.3 2.3 3.8 22.4 20.3 21.0

序列b：8.4 7.3 7.8 1.2 2.2 2.0

将这些值与之前值相除得到：

序列a：0.7 1.7 9.7 0.9 1.0

序列b：0.9 1.1 0.2 1.8 0.9

利用n=3意味着大于3或小于0.33的值指示发生了场景变换。在以上示例中，我们在两个序列的第四个图片处检测到新场景。

在备选实施例中，通过用于对每个宏块进行编码的比特数来取代如以上方法中所使用的表1中的根据宏块类型的指派值。

在另外的实施例中，如果量化参数（QP）在一个图片上突然下降或增大，那么QP的差也可以指示场景变换。

量化参数（QP）确定应当将两个块之间的差量化为多少。将转换后的像素差的每个系数量化为由QP和对应的查找表确定的量化步长之一。大QP意味着导致较低质量的量化步长的较低保真度，而小QP意味着赋予较高质量的量化步长的较高保真度。因此，QP是由于编码引起的质量降级的良好的指示符，并且频繁地由比特率控制算法利用以便在给定可用比特率的情况下使质量最大化。对于每个宏块，QP可以个别设置，但是由于对于每个宏块来回变QP相对昂贵，所以通常每个图片设置大的QP差。

(ii) 利用从视频流和解码的像素数据提取的特征

当解码的像素数据可用于分析时，可以扩展以上用于从视频流信息检测场景变换的方法。这在机顶盒中可以如此，它可以解码加密的视频比特流以便生成像素数据并显示流播视频。当然，可以在分布网络中的其它节点处执行这样的解码，但是由于存在处理要求，所以通常不这样做，并且如果视频流加密，那么这可能是不可能的。

提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片，该方法包括对于多个位置计算连续图片中的相同位置处的像素值之间的差；对差应用加权，加权取决于与位置相关联的宏块类型；以及当多个位置的加权的差的总和超过阈值时，标识新场景。

这基于以下原理：属于相同场景的两个连续图片的像素值将略微不同（因为所描绘的场景从一个图片到另一个图片经历小的平移、旋转或缩放），而如果这两个连续图片属于不同场景（即，如果在检查的两个图片之间存在场景变换），那么预期像素值的差将大得多。

此外，包含宏块类型作为加权因子的动机源自以下事实：它提供考虑中的图片和它的一个或多个参考图片的特定位置之间的可预测性和时间冗余度的指示。在下文中，描述在H.264/AVC视频编码标准中所指定的宏块编码模式的解决方案。但是，相同的原理可以适用于其它基于块的视频编码标准。

在SKIP模式中编码的宏块可能属于像它的参考图片的图片，并且因此不是场景变换。类似地，通常为代表可以通过之前一个或多个图片在时间上非常有效率地预测的均匀区域的宏块选择INTER-16×16编码模式。因此，再次显然地，这些宏块不太可能出现在作为场景变换的帧中。

另一方面，通常为以它们的时间和空间预测符展现非常低时间冗余度的那些宏块选择INTRA-4×4编码模式。因此，这些宏块更可能出现在作为场景变换的帧中。

因此，根据宏块类型对随后图片的像素值中的差加权。具体来说，在将宏块划分成多个子块的情况下，预期同位置的像素值将从之前图片变到当前图片，并且因此赋予与这些宏块类型相关联的像素差增大的加权。预期跳过宏块（以及略微较小程度的全尺寸帧内和帧间宏块）在当前帧与之前帧之间取非常类似的同位置的像素值，并且因此赋予这些宏块的任何像素值差较低的加权。

图4中示出图示应用于流播视频中的两个连续图片的这个方法的流程图。在410，选择将进行比较的图片位置。对于一些实现，可以比较每个图片位置，但是对于其它实现，根据预定或甚至随机的模式选择子集。在420，在选定位置中的每个位置处计算两个图片之间的像素值中的差。在430，对计算的差应用加权，加权取决于用于编码后一图片中的每个位置的像素值的宏块类型。在440，将这些加权差求和。在450，将总差与阈值进行比较。如果总差超过阈值，那么确定发生了场景变换。

检查两个相继图片中的同位置中的像素值之间的加权差。更具体来说，令表示第k个图片的第m行和第n列处的像素值。然后，按照下式计算考虑中的图片与之前图片之间的差：

作为备选，该方法可以扩展以使得在当前图片与之前的运动补偿图片之间计算差，从而解决连续图片之间的运动。此外，可以使用任何其它失真度量，例如绝对差的和或方差的和。

利用差或运动补偿差，基于当前图片中的像素所属的宏块类型对当前图片与之前图片相比的像素差进行加权。表2中提供指派给每个宏块类型的权的示例。

因此，对于每个图片，计算以下加权和：

随后，将加权和与阈值T _scene进行比较，以便确定所检查的图片是否是新场景的开始。如果计算的差超过阈值，那么将当前图片表示为场景变换。

(iii) 利用编码视频信号的分组报头信息

在一些情况下，沿着流播视频的传送路径，确定场景变换的唯一可用的信息是传输视频信号的分组报头。在这种情况下，可以通过从分组报头提取信息来计算每个图片的大小和类型。

因此，提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片，该方法包括：确定图片的编码大小；确定图片的图片类型；以及当编码图片大小超过所检测的图片类型的阈值时，标识新场景。

图5中的流程图示出该方法。在510，从视频比特流的分组报头确定编码图片大小。在520，利用图片大小来确定图片类型。这之所以可能是因为，不同图片类型的大小落在可标识的范围内，这将在下文解释。然后，在530，将I-图片的图片大小与阈值准则进行比较，阈值准则取决于所确定的图片类型。当一种图片类型的大小发生显著变化时，检测到场景变换。当一种图片类型的大小超过阈值时，可以检测场景变换。阈值可以是：预先确定的；预先确定的并且取决于视频流的编码参数；或者根据最近接收的一种或多种类型的图片的大小确定。

从每个图片的大小确定图片类型。图6示出如何可以这样做的示例。图6中示出的图表600示出编号为0-59的一系列60个图片的图片大小。水平轴610上示出图片编号，垂直轴620中示出图片大小。根据图表600的左上角的图例示出I-图片、P-图片和B-图片。如图6中所示，I-图片大于P-图片，而P-图片大于B-图片。从图6显而易见的，I-图片的编码大小落在第一范围601内，P-图片的编码大小落在第二范围602内，而B-图片的编码大小落在第三范围603内。

备选地，可以利用所检查的视频比特流的GOP模式和它们的大小从分组报头信息确定图片类型。欧洲专利申请号2010171431.9中对这样的方法进行了描述，该专利申请通过引用并入本文。通过在每个GOP中遇到的帧的大小与典型的预定义GOP模式的模式匹配来估计GOP模式。在获悉该估计的GOP模式的情况下，可以估计每个随后帧的类型。

这种备选的图片类型确定方法包括：

a. 捕获在初始帧内帧I-帧之后的每个视频帧的帧大小（单位为字节），以便获得帧大小的阵列；

b. 在多个帧之后，将帧大小的阵列转化为0和1的阵列，其中0代表小的帧大小，如对于双向帧B-帧假设的，而1代表大的帧大小，如对于预测帧P-帧假设的；

c. 将在(b)中获得的0和1的阵列与多个预定义的二进制模式匹配，所述预定义的二进制模式描绘可能的GOP结构；

d. 将步骤(c)中的所述匹配的结果转化为形成单个分数值；以及

e. 根据预定义的度量确定所述多个预定义的二进制模式中具有最佳分数值的特定模式。

这种备选方法不基于单个帧的帧大小来确定帧类型，而是考虑多个帧及其相应的帧大小以便将它们与预定义模式匹配，并从那个匹配确定GOP的结构并且因此确定每个图片的类型。

图6仅仅是图示；第一、第二和第三范围取决于多个因素，包括视频分辨率、编码参数和内容的空间-时间复杂度。但是，这三种类型的图片之间的相对差是这种基于块的编码的特性，并且可以从紧接的之前的图片导出范围。

以下是实施上述方法的场景变换检测过程的详细解释。图7中的流程图示出该过程。通常，新场景将以I-图片开始，并且因此该过程适用于视频流中的每个检测的I-图片以便确定它是否是新场景的开始。

接收视频比特流，并且在710，如上所述执行图片大小和图片类型的计算。在720，基于之前的P-图片的大小将I-图片的大小归一化以便反映最近图片中的内容变化。I-图片的新归一化的大小由下式给定：

其中，表示第k个I-图片的大小，并且缩放因子由下式给定：

其中，是当前GOP中的第k个P图片的图片大小，并且M是当前GOP中的P图片的总数。

在730，根据下式计算当前I-图片的图片大小和它的之前的I-图片的归一化图片大小的比：

并且，根据下式计算当前I-图片之前以及之后的P-图片大小的比：

并根据下式计算当前I-图片之前以及之后的B-图片大小的比：

在740，做出关于比值是否大于预定值T_I_high或小于另一个值T_I_low的判定。下表3中进一步给出本文提到的每个预定阈值“T”的示例。

如果比值大于预定值T_I_high或小于另一个值T_I_low，那么做出进一步判定750。在750，确定是否、或或或。如果满足这些条件中的任一条件，那么在780，确定当前I-图片是新场景的开始。如果不满足这些条件中的任一条件，那么确定当前I-图片不开始新场景，并且过程在790继续进行至下一个I-图片。

如果比值既不大于预定值T_I_high也不小于另一个值T_I_low，那么做出进一步判定760。在760，确定是否或。如果不满足这些条件中的任一条件，那么确定当前I-图片不开始新场景，并且过程在790继续进行至下一个I-图片。如果满足判定760处的任一条件，那么过程继续进行至判定770。

在770，确定是否或或或。如果满足这些条件中的任一条件，那么在780，确定当前I图片是新场景的开始。如果不满足这些条件中的任一条件，那么确定当前I-图片不开始新场景，并且过程在790继续进行至下一个I-图片。

从上文可见，如果满足以下条件(a)或条件(b)，那么将I-图片表示为场景切换：

在所有其它情况下，不将当前I-图片表示为场景变换。

表3中给出上述阈值的值。也可以使用其它阈值。

(iv) 利用分组报头信息和解码的像素数据

在该方法中，通过利用来自传输视频信号的分组报头的信息以及来自像素值（或从像素值提取的特征）的信息检测场景变换。如以上部分(ii)中所解释的，解码的像素数据可用于在例如机顶盒中的分析。此外，可以在分布网络中的其它节点处执行这样的解码，但是由于处理要求，所以通常不这样做，并且如果视频流加密，那么这可能是不可能的。

这种方法利用像素值来确定两个图片之间的差，如果差足够显著，那么确定在这两个图片之间发生了场景变换。本方法并入此：I-图片更有可能、P-图片不太可能、而B-图片非常不可能发生场景变换。对从两个图片之间的像素位置的比较计算的差加权以便将此考虑进去。

因此，提供一种检测流播视频中的场景变换的方法，流播视频包括一系列图片，该方法包括：确定图片的编码大小；根据图片的编码大小确定图片类型；对于多个像素位置，计算连续图片中的相同位置处的像素值之间的差；通过将像素差求和来计算连续图片之间的差的量度；对连续图片之间的差的量度应用加权，加权取决于图片类型；以及当加权差超过阈值时，标识新场景。

图8中示出图示该方法的流程图。在810，从视频比特流的分组报头确定编码图片大小。在820，利用图片大小来确定图片类型。这之所以可能是因为，不同图片类型的大小落在可标识的范围内，如上文所解释。在830，选择将进行比较的图片位置。对于一些实现，可以比较每个图片位置，但是对于其它实现，根据预定的或甚至随机的模式来选择子集。在840，在选定的位置中的每个位置计算两个图片之间的像素值的差。在850，将这些差求和。在860，对求和的差应用加权，加权取决于后一图片的图片类型。在870，将加权差与阈值进行比较。如果总差超过阈值，那么确定所述两个图片的后一图片发生了场景变换。

当视频比特流加密时，当从视频比特流直接提取特征将不可行时，可以应用该方法。尽管加密，但是仍捕获最终显示在显示装置中的重构图片并利用其来进行场景变换检测。

如之前部分中描述地执行利用分组报头信息计算图片类型和大小。随后，检查两个随后图片的像素值以便确定所考虑的图片之间的差异程度。根据所计算的图片类型对图片之间的差加权，因为预期在编码阶段将已经检测到场景变换。因此，I-图片比P-图片或B-图片更有可能代表新场景的开始。

更具体地，令表示第k个图片的第m行和第n列处的像素值。然后，根据下式计算考虑中的图片与随后图片之间的差：

其中，k=0、…、K-1，m=0、…、M，n=0、…、N，并且K、M、N分别表示视频序列的图片数、图片中的行数以及图片中的列数。下一步，基于图片类型对两个考虑的图片中的像素的差加权。表4中提供指派给每个宏块类型的权的示例。

因此，对于每个图片，计算以下加权和：

随后，将加权和与阈值进行比较以便确定所检查的图片是否是场景切换。

图9示出用于执行上述方法的设备。通过解码器910和分组报头分析器920接收视频比特流。解码器910解码视频比特流并且以像素值的形式将解码的视频输出至输出装置930。解码的视频还从解码器910输出至像素信息分析器940。场景切换检测器950利用来自分组报头分析器920的图片类型指示以及来自像素信息分析器940的像素差值做出何时发生场景变换的判定。分组报头分析器920、像素信息分析器940和场景切换检测器950可以全都包含在通用处理器960中。

上述场景变换检测方法适合在质量模型中使用。为了获得更具鲁棒性的指示，可以并行操作以上方法中的一种或多种方法。例如，相同方法可以利用不同的准则操作两次，例如在一种方法中从它的运动向量确定宏块的编码成本，并且然后在另一方法中从它的类型确定宏块的编码成本。来自这些方法中的每种方法的独立指示可以组合以便获得场景变换的更具鲁棒性的检测。

在质量模型中，一旦检测到数据丢失，那么便可以做出关于数据丢失是否影响新场景开始时的图片的判定。将丢失的影响结合到总质量分数中。例如，与另一图片比较，新场景开始时的I-图片中的大丢失将比同等丢失对质量具有更大的影响。

在一个实施例中，利用加法模型来构建质量模型。然后，根据下式从总分中减去I-图片场景变换丢失的降级：

在另一个实施例中，利用乘法模型来构建质量模型。然后，通过下式来寻找I-图片场景变换丢失的降级：

在以上两个示例中，“packet_loss_degradation”和“scene_change_loss_degradation”是介于0和1之间的值。

对于本领域技术人员将显而易见的是，根据执行参数的特定集合的要求，本文所描述的方法中执行的动作的确切顺序和内容可以改变。因此，描述和/或要求保护动作所按照的顺序将不解释为对将执行动作所按照的顺序的严格限制。

此外，尽管已经在特定视频传送标准的上下文中给出示例，但是这些示例不意图作为所公开的方法和设备可以适用的通信标准的限制。

Claims

1.一种检测流播视频中的场景变换的方法，所述流播视频包括一系列图片，所述方法包括：

对于多个位置，计算连续图片中的相同位置处的宏块的编码成本之间的差；以及

当多个位置的所述差的总和满足阈值准则时，标识新场景。

2.如权利要求1所述的方法，其中宏块的所述编码成本根据用于编码所述宏块的比特数来确定。

3.如权利要求1所述的方法，其中宏块的所述编码成本根据用于编码所述宏块的运动向量来确定。

4.如权利要求1所述的方法，其中宏块的所述编码成本根据用于编码所述宏块的量化参数值来确定。

5.如权利要求1所述的方法，其中宏块的所述编码成本根据宏块类型来确定。

6.如权利要求5所述的方法，其中所述宏块类型包括以下之一：跳过；作为一个分区的帧间编码的宏块；细分为多个分区的帧间编码的宏块；作为一个分区的帧内编码的宏块；以及细分为多个分区的帧内编码的宏块。

7.如前述权利要求中的任一项所述的方法，还包括应用运动补偿，并且其中在已经应用运动补偿之后，对于像素位置计算连续图片中的相同位置处的所述像素的宏块的编码成本之间的差。

8.如权利要求1所述的方法，所述方法还包括：

包含连续图片中的所述位置之间的偏移；

对于多个偏移值中的每个偏移值，计算多个位置的所述差的总和以便获得对应于所述多个偏移值的多个差总值；以及

将所述多个差总值的最小值与所述阈值准则进行比较。

9.如权利要求1-6和8中的任一项所述的方法，其中当多个像素位置的所述差的所述总和大于最大阈值或小于最小阈值时，标识新场景。

10.如权利要求9所述的方法，其中从在多个之前图片中的连续图片之间的计算的所述差确定至少一个阈值。

11.如权利要求9所述的方法，其中通过对在预定数量的紧接的之前的图片之间的计算的差取加权平均值来确定至少一个阈值，其中赋予较近期的图片之间的所述差较大的权。

12.一种检测流播视频中的场景变换的方法，所述流播视频包括一系列图片，所述方法包括：

对于多个位置，计算连续图片中的相同位置处的像素值之间的差；

对所述差应用加权，所述加权取决于与所述位置相关联的宏块类型；以及

当多个位置的加权差的总和超过阈值时，标识新场景。

13.如权利要求12所述的方法，其中与所述像素位置相关联的所述宏块类型是在所述连续图片的后一图片中的所述像素位置的编码中使用的宏块类型。

14.如权利要求12-13中的任一项所述的方法，还包括应用运动补偿，并且其中在已经应用运动补偿之后，对于像素位置计算连续图片中的相同位置处的所述像素的宏块的编码成本之间的差。

15.如权利要求12-13中的任一项所述的方法，其中所述宏块类型包括以下之一：跳过；帧间编码的宏块；帧间编码的子块；帧内编码的宏块；以及帧内编码的子块。

16.一种检测流播视频中的场景变换的方法，所述流播视频包括一系列图片，所述方法包括：

确定图片的编码大小；

根据所述图片的所述编码大小确定图片类型；

对于多个像素位置，计算连续图片中的相同位置处的像素值之间的差；

通过将所述像素差求和来计算连续图片之间的差的量度；

对连续图片之间的差的所述量度应用加权，所述加权取决于所述图片类型；

当加权差超过阈值时，标识新场景。

17.如权利要求16所述的方法，其中所述图片类型包括以下之一：帧内编码；单向预测图片；以及双向预测图片。

18.一种确定分组丢失对流播视频的感知影响的方法，所述流播视频包括一系列图片，所述方法包括：

标识分组丢失；

确定丢失的分组是否包含有关新场景开始时的图片的信息，其中利用根据前述权利要求中任一项所述的检测场景变换的方法来检测新场景。

19.一种确定流播视频中新场景的出现的感知影响的方法，所述流播视频包括一系列图片，其中利用根据权利要求1-17中任一项所述的检测场景变换的方法来检测新场景。

20.一种用于检测流播视频中的场景变换的设备，包括用于执行权利要求1-19定义的方法中的任一方法的部件。

21.一种用于检测流播视频中的场景变换的设备，所述流播视频包括一系列图片，所述设备包括：

处理器，布置成对于多个位置计算连续图片中的相同位置处的宏块的编码成本之间的差；以及

场景变换检测器，布置成当多个位置的所述差的总和满足阈值准则时标识新场景。

22.一种用于检测流播视频中的场景变换的设备，所述流播视频包括一系列图片，所述设备包括：

像素信息分析器，布置成对于多个位置计算连续图片中的相同位置处的像素值之间的差；

处理器，布置成对所述差应用加权，所述加权取决于与所述位置相关联的宏块类型；以及

场景变换检测器，布置成当多个位置的加权差的总和超过阈值时标识新场景。

23.一种用于检测流播视频中的场景变换的设备，所述流播视频包括一系列图片，所述设备包括：

处理器，布置成确定图片的编码大小，并根据所述图片的所述编码大小确定图片类型；

所述处理器还布置成：对于多个像素位置计算连续图片中的相同位置处的像素值之间的差；并通过将所述像素差求和来计算连续图片之间的差的量度；

所述处理器还布置成对连续图片之间的差的所述量度应用加权，所述加权取决于所述图片类型；

场景变换检测器，布置成当加权差超过阈值时标识新场景。