CN118158421A

CN118158421A - 用于对视频序列进行裁剪的方法以及装置

Info

Publication number: CN118158421A
Application number: CN202311634499.7A
Authority: CN
Inventors: 马蒂亚斯·彼得松; 安德里亚·卡尔松
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2022-12-06
Filing date: 2023-12-01
Publication date: 2024-06-07
Also published as: US20240187578A1; EP4383705A1; KR20240084469A

Abstract

本申请公开了一种用于对视频序列进行裁剪的方法以及装置，具体地，公开了一种对预测编码视频序列进行裁剪的方法以及相应的裁剪装置。裁剪方法包括：获取(S301)针对视频序列的一个或多个全局运动值，其中每个全局运动值表示由视频序列中的连续图像帧集合所描绘的场景中的运动量；针对具有低于全局运动阈值的全局运动值的连续图像帧集合，识别(S302)紧接在后的图片组GOP；获取(S305)具有与识别出的GOP的图像帧相同的帧配置的跳过帧；用所获取的跳过帧替换(S306)识别出的GOP的初始帧内帧；以及配置(S307)跳过帧和识别出的GOP的剩余图像帧以形成紧接在前的GOP的帧编号的延续。

Description

用于对视频序列进行裁剪的方法以及装置

技术领域

本发明涉及视频数据的高效存储领域。具体地，本发明提出了一种用于对预测编码视频序列进行裁剪的方法。

背景技术

如今，视频在各种环境中获取的程度越来越高，例如用于监视目的。随着视频复杂性的增加(包括更好的分辨率以及改善的图像处理)，对视频存储容量的需求也在不断增长。然而，存储容量并不是无止境的，并且还与购买成本及维护成本相关联。因此，希望以高效的方式利用存储容量，从而避免不必要的成本。

实现高效存储容量利用率的一种方式是执行对所存储的视频数据的裁剪。一般来说，裁剪的概念是指去除低兴趣或无兴趣保留的视频数据。这些视频数据可以是例如没有提供感兴趣的信息的视频数据或者提供了可在其他地方检索到的信息的视频数据。裁剪可以包括去除视频数据或者例如通过压缩来调整视频数据以减小其大小。后一种裁剪的一个示例是执行对视频序列的从一种编码格式到另一种压缩程度更高的编码格式的转码。转码过程包括对视频帧的解码和编码，以实现诸如在分辨率、预测编码方案、图片组(GOP)长度等上的变化这样的调整。可以在转码过程中对许多参数进行调整，使得转码过程成为一种灵活的压缩过程，并且提供了一种以较低的存储容量成本来保持视频数据的方式。然而，就处理能力以及处理时间而言，转码本身就是一个成本高昂的过程。

显然需要一种针对视频数据的改善后的裁剪方法。WO 2021/149892 A1公开了一种用于通过对由网络视频传送机提供的第一比特流的至少一部分进行转码以处理具有更新后的IDR(瞬时解码器刷新)周期的第二比特流来减小所记录的数据的大小的裁剪方法，该更新后的IDR周期具有与第一比特流的原始IDR的时间长度不同的时间长度。

发明内容

本发明的一个目的在于，提供一种减少视频序列所需的存储空间量而不用从整体上去除视频序列的裁剪方法。本发明的另一个目的在于，提供一种不基于转码的裁剪方法。换言之，应在没有代价高昂的转码的情况下执行裁剪方法以消除对解码/编码过程的需要。

本发明由所附权利要求限定。

根据第一方面，这些以及其他目的通过对预测编码视频序列进行裁剪的方法来全部或至少部分地实现，该方法包括：

a)获取针对视频序列的一个或多个全局运动值，其中每个全局运动值表示由视频序列中的连续图像帧集合所描绘的场景中的运动量，

b)针对具有低于全局运动阈值的全局运动值的连续图像帧集合，识别紧接在视频序列中的该连续图像帧集合之后的一组图片GOP，

c)确定识别出的GOP的图像帧的帧配置，

d)获取具有所确定的帧配置(即，具有与识别出的GOP的图像帧相同的帧配置)的跳过帧，

e)用所获取的跳过帧来替换识别出的GOP的初始帧内帧，以及

f)以延续紧接在前的GOP的帧编号的帧编号来配置跳过帧和识别出的GOP的剩余图像帧，从而由紧接在前的GOP和识别出的GOP这两者的帧来形成新的GOP。

发明人已经意识到，本发明的目的可以通过去除紧接在描绘低运动场景的图像帧之后的GOP的初始帧内帧这一构思来实现。场景运动量由全局运动值表示，该全局运动值表示由连续图像帧集合所描绘的场景中的运动量。该连续图像帧集合可以包括一个或多个图像帧。在描述中将举例说明全局运动值。这种GOP(即，紧接在具有低全局运动值的连续图像帧集合之后的GOP)的初始帧内帧并未提供如紧接在表示具有高运动的场景的图像帧之后的GOP的初始帧内帧那样多的值。如果存在高运动，则直接后续GOP的预测编码视频序列更依赖于其初始帧内帧，该初始帧内帧在视频编码过程中起到重启点的作用。帧内帧不依赖于任何其他帧，并且因此，去除了由预测编码格式引起的先前帧间帧中的任何引入伪影。然而，如果紧接在前的图像帧中存在低运动，则对重启点的需求没有那么多，至少不像在高运动场景的情况下那样频繁。

此外，发明人已经通过用相当小的跳过帧替换初始帧内帧(其被去除)而不是对视频序列的帧进行重新编码，来为避免执行转码这一目的找到了解决方法。每个跳过帧被提供有适合于其当前帧序列的帧配置，并且(被替换的帧内帧的)GOP的剩余图像帧被调整，从而与相邻的先前GOP的帧一起形成单个的GOP。稍后将在描述中举例说明帧配置以及调整剩余帧的细节。通过用合适格式的跳过帧替换初始帧内帧，与在不执行替换的情况下去除初始帧内帧或者用其他不太合适类型的帧间帧(诸如丢弃帧)替换初始帧内帧相比，视频序列的每秒帧数(FPS)值得以保持。保持FPS值可以是有利的，例如在解码器需要最小的FPS值才能执行解码的情况下。还可能存在有需要保持的用户所需FPS值。

由于替换GOP的初始帧内帧，视频的一些信息被丢失，并且在视频序列的解码期间重启帧的作用被去除。然而，由于紧接在被替换的初始帧内帧之前的图像帧中的场景的低运动，因此由于去除帧内帧而可能被保持下来的伪影将不那么显著。具有较高运动的场景在更高程度上利用了对预测编码过程的引用，因此增加了伪影的风险。通过本发明实现了一种良好平衡的裁剪方法，其中降低所需存储空间的优点被实现为引入伪影的低风险，并且此外，不需要执行代价高昂的转码。

如本文中所使用的，预测编码视频是指诸如H.264和H.265的视频压缩标准所基于的众所周知的视频编码类型。预测编码这一概念是指用对已被编码的其他类似图像数据的引用来替换对一些图像数据本身的编码。压缩后的格式是通过减少直接被编码的图像数据(即，被编码的原始图像数据)的量并用引用替换它来实现的。预测编码视频由不同类型的图像帧形成，这些图像帧在编码方式上不同。自身被编码而不是通过引用其他图像被编码的图像数据被称为帧内编码，并且不包括对其他图像数据的任何引用。被编码以作为引用的图像数据被称为帧间编码。引用包括指向所引用的图像数据的指针，并且可以包括残差值(也被称为预测误差)。残差值指示所表示的图像数据与所引用的图像数据之间的差异。因此，图像数据可以引用不精确匹配的图像数据并添加表示差异的信息，以实现图像数据的恰当表示。编码后的图像数据被划分成多个图像帧，该多个图像帧表示在获取图像数据时的时间点。图像帧序列表示在一段时间内获取到的图像数据。图像帧序列形成视频序列。取决于图像帧的图像数据的编码方式，即帧内编码或帧间编码，帧可以被称为帧内帧或帧间帧。帧内帧是其中全部的图像数据被独立地编码(即，不引用其他图像数据)的帧，并且因此可以被独立地解码。帧内帧也称为I帧、帧内编码图片或关键帧。帧间帧是其中一些或全部的图像数据被编码以作为引用的帧，并且因此，这种帧的解码依赖于其他图像帧。取决于引用的形成方式，存在不同类型的帧间帧，例如预测编码帧(P帧)和双预测编码帧(B帧)。

如本文中所使用的，图片组或GOP是指通过GOP结构所定义的连续预测编码图像帧的集族或集合。GOP结构定义GOP内帧所具有的顺序。GOP以帧内编码帧开始，这里被称为初始帧内帧。GOP还包括帧间帧。

如本文中所使用的，跳过帧是指仅通过引用其他图像数据而不是残差值来表示图像数据的一种帧间帧。因此，当对跳过帧进行解码时，解码器使用所引用的图像数据作为对由跳过帧表示的图像数据的表达，而并不执行任何的调整。与其他类型的图像帧相比，跳过帧在数据大小上较小，并且可以以较低的处理成本来生成。

如本文中所使用的，帧配置是指对定义帧的格式的帧参数的设置。帧参数对于GOP、视频序列或视频中的所有帧可以是相同的。帧参数在一些标准中可以被称为图片参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)，这取决于它们包括哪些参数。具体定义的帧参数的非限制性示例包括：两个图像方向上的宏块的数量、基本QP值、所使用的熵编码的类型(通常为CABAC或CAVLC)以及应使用的编码类型(例如，应使用编码标准的哪些部分)。本申请上下文中的帧配置是指，它涉及的参数对于GOP中的替换帧而言需要与至少相同的GOP中的其余帧相同，以便无需针对该替换执行转码。

如本文中所使用的，全局运动值是指指示在获取连续图像帧集合(例如，GOP)期间场景中所存在的运动量的值。全局运动值可以以各种方式来确定，这些方式将在说明书中举例说明。全局运动值是对场景运动的估计。

现在将总结一些实现的示例。

在一个示例中，包括图像传感器的相机获取图像数据、执行图像处理、对图像数据进行编码并且将编码后的视频提供给接收机(例如，存储装置)。相机还针对被编码的连续图像帧集合来确定全局运动值。全局运动值可以针对所定义的连续图像帧集合来确定，例如针对视频序列中的每个GOP。可替代地，全局运动值可以例如被定期地(例如每秒一次)或不定期地确定并添加到所生成的视频序列中。然后，全局运动值表示自先前的全局运动值被确定以来已经获取到的图像帧所描绘的运动。全局运动值可以使用来自相机的一个或多个内部过程(例如，图像处理管线、编码器或者在相机具有机械移动能力的情况下的机械致动器的控制器)的信息来确定。全局运动值与在将其传送到接收机之前它所涉及的图像帧相关联地被添加到视频序列中以作为元数据(例如，在补充增强信息(SEI)消息或者类似的元数据中)。

根据本发明的一个实施例，可选地在预定的存储周期之后，根据所提出的裁剪方法来对接收到的视频序列进行裁剪。通过从元数据(例如，SEI消息)中检索信息，来针对多个连续图像帧集合获取全局运动值。根据全局运动值，识别出各自紧接在具有全局运动值的连续图像帧集合(即，描绘(在获取那些帧的时段期间)具有低运动的场景的图像帧集合)之后的GOP。用适当帧格式的跳过帧来替换识别出的GOP的初始帧内帧。

紧接在连续图像帧集合之后的GOP是指，在视频序列中位于连续图像帧集合之后并与其相邻或者与连续图像帧集合部分重叠的GOP。部分重叠在这里是指，一个或多个图像帧形成了连续图像帧集合的结束与GOP的开始这两者。GOP包括位于连续图像帧集合之后的至少一个图像帧。

在另一个实施例中，全局运动值是结合对视频序列的裁剪来确定的，即并未与相机中视频序列的生成相结合。在该实施例中，全局运动值可以通过比较连续图像帧的对应像素值来确定，以便确定移动的量或大小。可替代地，可以执行图像分析处理以确定移动的量或大小。还有另一种替代方案是，检索视频序列的用于指示相机的机械致动器的设置的信息，前提是这样的信息已经由相机添加到视频序列中。

在一个实施例中，裁剪方法包括附加的平衡机制，其目的是限制替换连续的GOP的初始图像帧的聚合效果。即使针对替换通过选择紧接在具有低运动的连续图像帧集合之后的GOP而降低了显著伪影的风险，但伪影的堆积不会随着时间的推移而消除。为了抵消这种堆积，针对替换，除了低运动这一条件之外，该方法还可以包括另外的条件。在一个变形中，该条件是检查识别出的GOP是否与预定数量的其中初始帧已用跳过帧替换的连续GOP相邻。预定数量例如可以为4，在这种情况下，即使其全局运动值低于运动阈值，也至少每个第五个GOP保持了其初始帧内帧。在这种方式下，即使针对长时间的低运动场景，也保留了由初始帧内帧提供的重启效果，然而具有降低的频率。在另一个变形中，该条件是检查紧接在前的GOP是否包括多于预定数量的帧。如果是，则保持初始帧内帧。如果不是，则用跳过帧替换初始帧内帧。在这种方式下，该方法考虑到即使表示出的运动在那些帧中较低，也可以通过长的帧间帧序列建立伪影。因此，当跟随长的GOP时，保持由初始帧内帧提供的重启效果是有益的。可以在单个实施例中组合这两种变形。

根据第二方面，本发明是一种用于对预测编码视频序列进行裁剪的装置。该装置包括处理器，该处理器适于：

·获取针对视频序列的一个或多个全局运动值，其中每个全局运动值表示由视频序列中的连续图像帧集合所描绘的场景中的运动量，

·针对具有低于全局运动阈值的全局运动值的连续图像帧集合，识别紧接在视频序列中的该连续图像帧集合之后的一组图片GOP，

·确定识别出的GOP的图像帧的帧配置，

·获取具有所确定的帧配置(即，具有与识别出的GOP的图像帧相同的帧配置)的跳过帧，

·用所获取的跳过帧来替换识别出的GOP的初始帧内帧，以及

·以延续紧接在前的GOP的帧编号的帧编号来配置跳过帧和识别出的GOP的剩余图像帧，从而由紧接在前的GOP和识别出的GOP这两者的帧来形成新的GOP。

裁剪装置可以是存储装置的一部分或者形成单独的装置。裁剪装置可以与存储装置或其中的一部分建立临时连接，以执行对一个或多个视频序列的裁剪。第三方面的裁剪装置通常可以以与第一方面的方法相同的方式来体现，并且具有所附的优点。

根据第三方面，本发明是一种包括相机、存储装置和裁剪装置的系统。相机适于：生成包括描绘场景的预测编码图像帧的视频序列；确定针对视频序列中的连续图像帧集合的全局运动值，其中每个全局运动值表示由视频序列中的连续图像帧集合所描绘的场景中的运动量；将所确定的全局运动值添加到视频序列；以及将视频序列传送到存储装置。存储装置适于：从相机接收视频序列；以及将视频序列存储在长期存储单元中。裁剪装置是根据第二方面的任何实施例而配置的，并且因此，适于裁剪所存储的视频序列。

根据下面所给出的详细描述，本发明的进一步适用范围将变得显而易见。然而，应当理解，详细描述和具体示例虽然指示了本发明的优选实施例，但仅以说明的方式给出，因为根据该详细描述，本发明范围内的各种变化和修改对于本领域技术人员而言将变得显而易见。

因此，应当理解的是，本发明不限于所描述的装置的特定部件部分或所描述的方法的步骤，因为这样的装置和方法都可以发生变化。还应当理解的是，本文中所使用的术语仅用于描述特定实施例的目的，并且并不旨在进行限制。必须注意的是，如在本说明书和所附权利要求书中所使用的，词语“一”、“该”和“所述”都旨在表示存在一个或多个元素，除非上下文中另有明确规定。因此，例如，对“一对象”或“该对象”的引用可以包括若干个对象等。此外，用语“包括”并不排除其他元素或步骤。

附图说明

现在将通过示例的方式并且参考所附的示意图来更详细地描述本发明，其中：

图1是裁剪之前和之后视频序列的GOP的示例；

图2是被连接到存储装置的裁剪装置的示例；以及

图3是根据实施例的对预测编码视频序列进行裁剪的方法的流程图。

具体实施方式

首先将参考图1来描述本发明的构思，图1在上部图示出第一视频序列，并且在下部图示出第二视频序列。第一视频序列表示由相机生成的视频序列。第一视频序列包括多个已编码图像帧，多个已编码图像帧各自表示由相机的图像传感器在某个时间点获取到的图像数据。因此，视频序列表示在连续时间点获取到的图像数据，从而描绘出一段时间内的场景。场景可以是室外环境或室内环境。

通过相机的编码器对图像数据进行预测编码，从而生成视频序列的编码图像帧。视频序列包括三个图片组(GOP)，这里称为GOP1、GOP2和GOP3。每个GOP以初始帧内帧I开始，随后跟着预测编码帧P。预测编码帧P通过使用对同一GOP的前一帧的引用(如图1的箭头所示)而被完全地或部分地编码。在可替代的实施例中，GOP可以包括双预测帧间帧B，双预测帧间帧B包括对一个或多个图像帧的引用。H.264和H.265是可被用于实现本发明的预测编码标准的示例。技术人员也有能力理解其他可能的视频编码标准所需的术语和实现调整，例如H.263、AV1和未来的H.266。

每个GOP具有以用于初始帧的1开始并且对于GOP中的后续帧而增加的帧编号。帧编号可以指示帧的解码顺序，并且可以由编码器根据所使用的视频编码标准来设置为每个帧的报头参数。

本发明构思是通过将占用相对较多存储空间的帧内帧替换为相比之下在数据大小上非常小的跳过帧来减少视频序列所需的存储空间。为了保留由图像数据提供的尽可能多的信息，对要替换的初始帧内帧进行智能选择。为此，引入了全局运动值。全局运动值表示在由连续图像帧集合的图像帧所描绘的场景中有多少运动。在该示例中，连续图像帧集合对应于GOP，即，针对每个GOP来确定全局运动值。在其他实施例中，连续图像帧集合可以包括若干个GOP的图像帧或者作为GOP的子集的一个或多个图像帧。

使用全局运动值，识别出紧接在具有低运动的GOP之后的GOP的初始帧内帧，并用跳过帧对其进行替换。在图1的第二视频序列中，已用跳过帧S替换了原始的GOP(即，GOP3)的初始帧内帧，因为GOP3被识别为紧接在具有低于所设定的阈值的全局运动值的GOP(即，GOP2)之后。除了该替换之外，还对识别出的GOP(在本示例中为GOP3)的帧进行重新编号。GOP3的图像帧被重新编号，使得GOP2和GOP3的图像帧被提供有连续编号。在本示例中，跳过帧S和原始的GOP3的剩余帧间帧被提供有编号6至8，编号6至8跟随着紧接在前的GOP(即，GOP2)的编号1至5。在替换和重新编号之后，如解码器所见，GOP2和GOP3已被合并为单个的GOP(即，GOP2’)。换言之，当解码器对视频序列进行解码时，它将把GOP2和GOP3(其中替换了初始帧内帧)的帧解释为单个的GOP(即，GOP2’)。

本发明构思提供了一种在不执行转码的情况下减少视频序列所需的存储空间的方式，该方式由于去除帧内帧而具有低的引入伪影的风险。

全局运动值阈值是用于确定连续图像帧集合的图像帧描绘的场景是具有高运动还是低运动的场景的值。定义低运动与高运动之间的边界的阈值可以被不同地设置。例如，全局运动值阈值可以由用户设置。阈值可以是特定于相机或场景的阈值，这意味着裁剪装置根据连续图像帧集合与哪个相机或场景相关联来应用阈值。这种信息，例如相机ID或指示场景类型的值，可以被添加为视频序列的元数据，优选通过相机来添加。

全局运动值阈值可以基于在多个GOP上确定的最小全局运动值和/或最大全局运动值来设置。

全局运动值阈值可以在一段时间内发生变化，例如，在所预计的最大全局运动值低的夜晚期间具有低值，并且在所预计的最大全局运动值高的白天期间具有高值。

现在将更详细地描述对全局运动值的确定。

在第一变形中，通常在相机的处理器中，结合视频序列的生成来确定全局运动值，并将该全局运动值例如作为元数据添加到视频序列中(例如，在补充增强信息(SEI)消息中)。从而可以为了找到具有低运动的连续图像帧集合的目的而检索全局运动值。

在该第一变形中，存在有若干个可行的实施例，其中基于从现有过程中检索到的信息来确定全局运动值。

作为第一示例，可以基于表示图像帧与先前图像帧相比的像素值差异的图像帧特定值，来确定针对连续图像帧集合的全局运动值。可以从编码器中检索出图像帧特定值，该编码器在其预测编码过程期间确定这样的值。因此，针对连续图像帧集合的全局运动值可以通过检索针对该集合中的每个图像帧的图像帧特定值来确定，并且基于检索到的值来确定针对该集合的全局运动值。

作为第二示例，可以基于从相机的图像处理管线(IPP)中执行的噪声滤波算法中检索到的信息，来确定针对连续图像帧集合的全局运动值。该示例是基于噪声滤波算法包括时间噪声滤波这个条件的，时间噪声滤波在该算法内生成图像帧的局部映射，其中在像素或像素块级别上将噪声和所描绘的场景移动区分开来。从噪声滤波算法中检索针对该集合的每个图像帧的局部映射，并且基于检索到的局部映射来确定全局运动值。例如，图像帧所包括的运动量可以通过计算图像帧中的根据噪声滤波算法而包含运动(非噪声)的块的量与图像帧中的块的总量之间的比率来确定。

作为第三示例，可以使用图像分析来确定针对连续图像帧集合的全局运动值。该示例是基于相机执行基于图像帧中的运动检测、运动估计或光流估计的图像分析处理这个条件的。该图像分析处理可以是例如对象跟踪算法或事件检测算法。根据图像分析处理，可以检索到用于指示集合的图像帧的所确定的运动的信息，并且可以基于检索到的信息来确定针对该集合的全局运动值。

作为第四示例，可以基于从相机的机械致动器检索到的信息来确定全局运动值。该示例是基于相机具有移动能力(例如，平移和倾斜移动能力)这个条件的。相机可以是传统的PTZ相机。从致动器检索到的信息可以是用于指示平移或倾斜移动在帧或GOP帧的获取期间是否是活动的特定于帧或GOP的值。特定于帧或GOP的值可以作为元数据添加到图像帧或GOP中，以用于除了确定全局运动值之外的其他目的，并且因此，可以由图像帧的接收机来使用以用于确定全局运动值。在相机侧，特定于帧或GOP的值可被直接使用以确定针对该GOP的全局运动值，并将其作为GOP的元数据添加例如在SEI消息中。在该示例中，全局运动值可以是指示在GOP的至少一个帧中是否存在运动的二进制值。

作为第五示例，可以基于从相机的运动传感器(例如，加速度计、陀螺仪或磁力计)检索到的信息来确定全局运动值。运动传感器适于确定相机的全局运动并将信息提供给例如相机的处理器。在一些相机类型中运动传感器已被用于除了确定全局运动值之外的其他目的。可以在例如帧级别或GOP级别上检索来自运动传感器的数据。该数据可以指示相机在帧的获取期间是否正在移动。该数据还可以指示具有或不具有方向信息的运动的量。该数据可以添加到与相应的连续图像帧集合相关联的图像序列中作为元数据，或者可以由相机的处理器直接使用以确定作为元数据而添加的全局运动值。

作为第六示例，可以通过分析连续图像帧集合的一个或多个初始帧内帧的数据大小与基于连续图像帧集合的所有帧的数据大小之间的大小比率，来确定全局运动值。基于所有帧的数据大小可以是例如针对连续图像帧集合的帧的平均数据大小或该集合中所有帧数据大小的总和。数据大小可以以约定的数据大小格式(例如，以字节为单位)来表示。计算出的大小比率是指示全局运动值的无单位度量。更高的大小比率产生更高的全局运动值，反之亦然。因此，在该示例中，全局运动值是相对度量。

对于其中针对连续图像帧集合的全局运动值是基于针对该集合的图像帧的单独运动值来确定的上述示例中的每一个，全局运动值优选被确定为针对该集合的图像帧的最大运动值。

如针对以上一些示例所提及的，补充增强信息(SEI)消息可被用于传送全局运动值或用于传送可被用于确定全局运动值的值。SEI消息是一种可在视频序列中携带不同类型的信息的数据结构。为了携带全局运动值的目的，SEI消息优选为注册类型的，或者在未注册的SEI消息的情况下，SEI消息优选包括定义SEI消息包括类型为全局运动值的数据的通用唯一标识(UUID)。

在第二变形中，全局运动值是结合裁剪来确定的。已经提及了该变形的一些示例，例如，可以基于指示在获取期间是否存在相机的机械运动的特定于帧或GOP的值来确定全局运动值。其他示例包括来自图像处理算法、噪声滤波算法或帧大小比率计算器的检索值被添加到视频序列中(例如，在SEI消息中)，并且由接收机使用以确定全局运动值，从而在接收机侧获取全局运动值。还设想了，在接收机处获取全局运动值包括例如通过基于视频序列执行图像处理、噪声滤波或帧大小比率计算的选定部分来确定用于确定全局运动值的值。

现在将更详细地解释用跳过帧替换初始帧内帧以及跳过帧的配置。如所定义的，跳过帧通过引用其他帧的图像数据而不是添加差异信息来表示图像数据。换言之，在不使用运动矢量并且不添加残差值的情况下对跳过帧进行编码。通过将跳过帧配置为适合于其将被添加于其中的帧序列，具体是被替换了初始帧内帧的GOP以及紧接在该GOP之前的GOP这两者的帧，该替换并不依赖于转码。换言之，如果跳过帧被正确地配置，则在添加该跳过帧时，视频序列仍然可以在没有被转码的情况下被成功地解码。通常，跳过帧需要具有在例如分辨率、量化参数值、图片参数集的索引和熵编码的类型方面与GOP的帧间帧相匹配的帧配置，从而在GOP中引入跳过帧时不需要进行转码。

跳过帧的所需配置的细节取决于在视频序列的编码期间已被应用的压缩标准。本领域技术人员可以在没有过度负担的情况下确定关于在特定视频压缩标准的上下文中跳过帧需要哪些帧配置的实现细节。例如，视频压缩标准H.264所需的帧配置要求将跳过集的以下帧参数设置为与GOP的其余帧一样：x方向和y方向上的宏块数量、基本QP值、引用哪些图片参数集以及是否根据CABAC或CAVLC执行熵编码。

在一些实施方式中，可能需要针对跳过帧主动地添加或调整对先前帧间帧(先前帧间帧的图像数据被该跳过帧引用)的引用。例如，在基于使用了预测帧间帧和双预测帧间帧这两者的视频压缩标准H.264或H.265的实现中，跳过帧需要被配置为使得其引用先前的预测帧间帧而不是双预测帧间帧。

一旦确定了跳过帧的帧配置，就获取并添加该跳过帧以作为识别出的GOP的初始图像帧的替换。可以通过从零开始生成来获取跳过帧。这是使用适于根据与视频序列的帧相同的视频编码标准(例如H.264)执行编码的编码过程来完成的。在另一个实施例中，可以存储不同帧配置的跳过帧，并且在确定帧配置时、在已经存储了正确帧配置的跳过帧的条件下从存储器中检索帧配置。如果在存储器中没有找到，则可以通过编码来生成具有正确帧配置的跳过帧，并且该跳过帧由裁剪算法使用并被另外存储在存储器中以便可用于以后的裁剪算法。

当跳过帧已经替换了识别出的GOP的初始帧内帧时，为了使视频序列的解码起作用，需要对识别出的GOP的剩余帧进行重新编号。由于定义GOP的起始帧的初始帧内帧被替换为一种帧间帧，因此视频序列中的GOP的数量被减少了1。选择出的GOP的剩余帧间帧现在反而是紧接在前的GOP的一部分，并且因此，应当根据这个新结构来给予编号。现在将参考图1举例说明该重新编号过程。每个GOP的帧被赋予对于初始帧内帧以1开始并且对于GOP中的每个帧以1增加的编号。例如，GOP2的五个帧被提供有帧编号序列1至5。

取决于已被用于对视频序列进行编码的视频压缩标准，该编号可以被不同地实现。例如，在标准H.264中，编号是在报头字段“帧编号”和“图片顺序计数”(“POC”)中定义的，它们是每个帧的报头的一部分。在标准H.265中，报头字段“图片顺序计数”或“POC”用于对帧进行编号。POC值指示帧的显示顺序，即，在解码之后应当按照哪个顺序来显示帧。可能存在定义帧编号并且需要被调整的其他参数，例如指示解码顺序的参数。哪些值或参数定义了针对特定视频编码标准的帧编号是公知的知识，其可以从对视频序列进行编码时所用的视频编码标准的定义中检索出。因此，本领域技术人员知道应当如何实现对选择出的GOP的剩余帧的重新编号，以便遵循特定的视频压缩标准。在图1的示例中，跳过帧S和GOP3的剩余帧间帧被赋予了编号6至8，该编号6至8延续了GOP2的编号1至5。在替换了GOP2的初始帧内帧并重新编号了GOP2的剩余帧间帧之后，视频序列包括GOP2’，该GOP2’由GOP2的未修改帧、跳过帧S以及GOP3的剩余且被重新编号的帧间帧前部分组成。

由于跳过帧被提供有与识别出的GOP的其他帧相同的帧配置，并且可能与视频序列的其余部分相同，并且由于识别出的GOP的剩余帧被重新编号，所以不需要对识别出的GOP进行转码。该GOP和视频序列的其余部分仍然可以被成功解码。因此，根据裁剪过程，消除了对视频序列进行转码的繁琐任务。然而，可能存在执行转码的其他原因，而所建议的裁剪方式并没有阻止这些原因。换言之，本文中所公开的裁剪方法可以在对视频序列进行转码或者不进行转码的情况下执行。

裁剪过程可以由裁剪装置20执行，如图2中所图示出的。裁剪装置20在这里是对于其中存储有视频的存储装置22独立的硬件模块或软件模块。裁剪装置20具有与存储装置22的临时连接或固定连接。存储装置22从相机系统24的一个或多个相机中接收视频以用于长期存储。

裁剪装置20包括CPU形式的处理装置、RAM形式的存储器以及可选的编码器形式的编码装置。裁剪装置20适于从存储装置22中检索视频序列，并根据所公开的裁剪构思来对检索到的视频序列执行裁剪。具体地，CPU适于获取针对检索到的视频序列的连续图像帧集合的全局运动值，并且识别各自紧接在其全局运动值低于运动阈值的连续图像帧集合之后的GOP。此外，CPU适于获取用于替换识别出的GOP的初始帧内帧的跳过帧。CPU可以利用编码器来生成具有适当帧配置(即，识别出的GOP的其他帧所具有的帧配置)的跳过帧。可替代地，可以在RAM中获得适当帧配置的跳过帧。CPU可以适于通过从RAM中进行检索来获取跳过帧。此外，CPU适于通过对识别出的GOP的剩余帧进行重新编号来调整它们。裁剪后的视频序列随后被返回给存储装置22以用于进一步存储。

裁剪装置20可以适于在自动的或用户发起的触发时或者按照预定间隔(诸如每30天一次或每3个月一次)来执行对所存储的视频序列的裁剪。

裁剪装置20可以被实现为硬件、软件或这两者的组合。在硬件实现中，处理装置可以对应于专用且专门设计以提供部件功能的电路。电路可以是一个或多个集成电路的形式，诸如一个或多个专用集成电路或者一个或多个现场可编程门阵列。在软件实现中，电路可以改为处理器(诸如，微处理器)的形式，其与存储在(非暂时性)计算机可读介质(诸如，非易失性存储器)上的计算机代码指令相关联，使得裁剪装置20执行本文中所公开的方法。非易失性存储器的示例包括只读存储器、闪存、铁电RAM、磁性计算机存储装置和光盘等。应当理解，也可以具有硬件实现和软件实现的组合，这意味着裁剪方法的一些功能由硬件执行，而另一些功能由软件执行。

现在将参考图3来给出裁剪方法的一般概述以及一些实施例的描述。对视频序列执行裁剪方法，并且可以通过裁剪装置(例如，图2中示例出的裁剪装置)来执行该裁剪方法。从视频序列的在时间上第二获取的GOP开始，裁剪方法以按时间计算的顺序来逐GOP地遍历视频序列。对于第一个GOP N，例如图1的GOP2，针对该GOP之前的图像帧获取S301全局运动值。换言之，定位针对连续图像帧集合(包括紧接在GOP N之前的至少一个图像帧)的全局运动值。连续图像帧集合也可以包括GOP N的图像帧。全局运动值可以位于在视频序列的任何位置处的元数据中，只要提供了全局运动值和与其相关的图像帧之间的关联即可。接下来，将全局运动值与阈值进行比较S302，以确定紧接在GOP N之前的图像帧描绘的是具有低移动量还是高移动量的场景。如果全局运动值高于阈值，则对应于高运动量，保持GOP N的初始帧内帧而不进行调整。裁剪装置通过向前移动到下一个GOP N+1并获取S301针对紧接在前的图像帧的全局运动值来继续其裁剪过程。

然而，如果全局运动值没有高于阈值，则裁剪过程继续其对GOP N的处理。下一步骤是确定S304 GOP N中的图像帧的帧配置。这可以通过从视频流(比特流)、GOP或各个图像帧的报头中检索信息(例如，关于分辨率或参数集的信息)来执行。接下来，检索或生成S305具有所确定的帧配置的跳过帧。通过识别并去除与初始图像帧相对应的图像数据和报头数据，并在视频序列中的相同位置处添加跳过帧，来用跳过帧替换S306 GOP N的初始帧内帧。通过对GOP N的帧进行重新编号S307来完成裁剪。跳过帧和GOP N的剩余帧被编号为使得紧接在前的GOP N-1和当前的GOP N这两者的帧的帧编号形成顺序的编号。因此，跳过帧和剩余帧被编号为形成了紧接在前的GOP N-1的帧编号的延续。

尽管如本文中所描述的去除GOP的初始帧内帧是有利的，但可能希望限制用跳过帧替换的初始帧内帧的数量。即使引入伪影的风险针对低运动场景的连续图像帧集合而言低于针对高运动场景的连续图像帧集合，但仍然存在随着被去除的连续的初始帧内帧的数量的增加而增加的风险。为此目的，裁剪方法的实施例包括没有裁剪太多连续GOP的附加检查S303a。

所谓裁剪后的GOP是指初始图像帧已被跳过帧替换的GOP。该检查S303a是在识别出GOP之后且在确定替换跳过帧的帧配置之前通过裁剪过程来执行。先前裁剪的GOP的数量可以由存储在裁剪装置的本地存储器中的计数器值来表示。针对通过裁剪过程确定紧接在前的图像帧的全局运动值高于全局运动值阈值而导致的被完整保持的每个GOP，计数器值被重置为0。针对替换GOP的初始帧内帧的每个跳过帧，计数器值增加1。预设数量可以被设置为例如4或9，这意味着即使紧接在前的图像帧的全局运动值低于全局运动值阈值，每个第五个或第十个GOP也被完整保持。该实施例能够在通过去除初始帧内帧而进行的有效裁剪与由于该去除而在视频中引入伪影的风险之间设置平衡。

在本发明的一个实施例中，当对视频序列进行裁剪时，考虑了紧接在前的GOP到识别出的GOP的长度。附加步骤S303b是本实施例中的方法的一部分。作为对全局运动级别必须小于运动阈值的条件的附加条件，紧接在前的GOP的长度需要小于长度阈值，以便进行初始帧内帧的替换。换句话说，紧接在前的GOP中的帧的数量需要小于预定数量。如果紧接在前的GOP的长度等于或超过长度阈值，则识别出的GOP中的初始帧内帧被保持并因此不用跳过帧来替换。该实施例考虑到，即使针对GOP的全局运动级别较低，但有很多帧这一事实会增加引入伪影的风险。此外，例如当用户想要跳到长GOP中较晚定位的特定图像帧时，长GOP可能会带来在视频回放期间需要更多处理资源的问题。长GOP的另一个问题在于，一些重放装置或解码器无法处理超过一定长度的GOP。

应当理解，本领域技术人员可以以多种方式来修改上述实施例，并且仍然使用如上述实施例中所示的本发明的优点。

Claims

1.一种对预测编码视频序列进行裁剪的方法，所述方法包括：

a)获取(S301)针对所述视频序列的一个或多个全局运动值，其中每个全局运动值表示由所述视频序列中的连续图像帧集合所描绘的场景中的运动量，

b)针对具有低于全局运动阈值的全局运动值的连续图像帧集合，识别(S302)紧接在所述视频序列中的所述连续图像帧集合之后的一组图片GOP，

c)确定(S304)识别出的GOP的图像帧的帧配置，其中所确定的帧配置定义识别出的GOP中的替换帧需要与识别出的GOP中的其余帧相同的帧参数的设置，

d)获取(S305)具有所确定的帧配置的跳过帧，

e)用所获取的跳过帧来替换(S306)识别出的GOP的初始帧内帧，以及

f)以延续紧接在识别出的GOP之前的GOP的帧编号的帧编号来配置(S307)所述跳过帧和识别出的GOP的剩余图像帧，从而由紧接在前的GOP和识别出的GOP这两者的帧来形成新的GOP。

2.根据权利要求1所述的方法，其中，获取针对所述视频序列的一个或多个全局运动值的步骤包括：

针对每个全局运动值，检索被包括在所述视频序列中的一个或多个值作为元数据，并且基于检索到的一个或多个值来确定所述全局运动值。

3.据权利要求2所述的方法，其中，检索到的一个或多个值包括以下中的一个或多个：

表示由编码器确定的图像帧与先前帧相比的像素值差异的图像帧特定值，

指示根据噪声滤波算法推导出的图像帧中的运动的值，

指示通过图像分析处理确定出的图像帧中的运动的值，以及

指示在获取所述图像帧的同时相机中平移或倾斜移动是否是活动的值。

4.根据权利要求2或3所述的方法，其中，所述一个或多个值位于一个或多个补充增强信息SEI消息中。

5.根据权利要求1所述的方法，其中，获取针对所述视频序列的一个或多个全局运动值的步骤包括：

基于所述连续图像帧集合中的帧内帧的大小与所述连续图像帧集合中的帧间帧的平均大小或最大大小之间的比率，来针对每个连续图像帧集合确定全局运动值，

其中较高的比率产生较高的全局运动值。

6.根据前述权利要求中任一项所述的方法，其中，每个连续图像帧集合对应于所述视频序列的GOP。

7.根据前述权利要求中任一项所述的方法，进一步包括：

评估(S303a)识别出的GOP是否与预定数量的其中所述初始帧内帧已用跳过帧替换的连续GOP相邻，

在为肯定结果时，保持识别出的GOP的所述初始帧内帧，以及

在为否定结果时，针对识别出的GOP执行权利要求1的步骤c)至步骤f)。

8.根据前述权利要求中任一项所述的方法，进一步包括：

评估(S303b)所述紧接在前的GOP是否包括多于预定数量的帧，

在为肯定结果时，保持识别出的GOP的所述初始帧内帧，以及

9.根据前述权利要求中任一项所述的方法，其中，获取跳过帧的步骤包括：

评估所确定的帧配置的跳过帧是否可从包括一个或多个事先所生成的跳过帧的存储器中被检索出，

在为肯定结果时，从所述存储器中检索具有所确定的帧配置的跳过帧，

在为否定结果时，由编码装置生成具有所确定的帧配置的跳过帧。

10.一种其上存储有指令的非暂时性计算机存储介质，所述指令用于当在具有处理能力的装置上执行时实现根据权利要求1-9中任一项所述的方法。

11.一种用于对预测编码视频序列进行裁剪的装置(20)，所述装置包括处理装置，所述处理装置适于：

获取针对所述视频序列的一个或多个全局运动值，其中每个全局运动值表示由所述视频序列中的连续图像帧集合所描绘的场景中的运动量，

针对具有低于全局运动阈值的全局运动值的连续图像帧集合，识别紧接在所述视频序列中的所述连续图像帧集合之后的一组图片GOP，

确定识别出的GOP的图像帧的帧配置，其中所确定的帧配置定义识别出的GOP中的替换帧需要与识别出的GOP中的其余帧相同的帧参数的设置，

获取具有所确定的帧配置的跳过帧，

用所获取的跳过帧来替换识别出的GOP的初始帧内帧，以及

以延续紧接在识别出的GOP之前的GOP的帧编号的帧编号来配置所述跳过帧和识别出的GOP的剩余图像帧，从而由紧接在前的GOP和识别出的GOP这两者的帧来形成新的GOP。

12.一种系统，包括：

相机(24)，适于：

生成包括描绘场景的预测编码图像帧的视频序列，

确定针对所述视频序列中的连续图像帧集合的全局运动值，其中每个全局运动值表示由所述视频序列中的连续图像帧集合所描绘的场景中的运动量，

将所确定的全局运动值添加到所述视频序列，

将所述视频序列传送到存储装置，

存储装置(22)，适于：

从所述相机接收所述视频序列，

将所述视频序列存储在长期存储单元中，

根据权利要求11所述的裁剪装置(20)，适于：

裁剪所存储的视频序列。

13.根据权利要求12所述的系统，其中，所述裁剪装置(20)适于：

在从所述存储装置(22)存储了所述视频序列起的预定时间量之后，启动对所存储的视频序列的裁剪。