CN108574843B

CN108574843B - 确定用于视频编码的gop长度的方法和编码器系统

Info

Publication number: CN108574843B
Application number: CN201810193785.7A
Authority: CN
Inventors: 维克托·埃德帕尔姆; 范星
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2017-03-14
Filing date: 2018-03-09
Publication date: 2019-08-30
Anticipated expiration: 2038-03-09
Also published as: CN108574843A; EP3376766A1; US10523940B2; US20180270482A1; EP3376766B1

Abstract

公开了一种确定用于视频编码的GOP长度的方法和编码器系统。该方法包括：对多个视频测试序列进行编码(S10)，每个视频测试序列具有相应的噪声级别。使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码。针对每个视频测试序列，针对每个关键帧距离确定输出比特率。针对噪声级别、量化参数和关键帧距离的每个组合，存储确定的输出比特率(S11)。针对噪声级别和量化参数的每个此类组合，把在其输出比特率响应于关键帧距离的增加而减小的最大关键帧距离识别为最大容许关键帧距离(S14)。也公开了一种对视频序列中的图像帧进行编码的方法以及用于执行该方法的系统、相机以及计算机程序产品。

Description

确定用于视频编码的GOP长度的方法和编码器系统

技术领域

本发明涉及视频编码的领域，并且更具体地涉及确定用于编码的适当的参数。

背景技术

在诸如网络相机监视系统之类的数字视频系统中，在传输之前使用各种视频编码方法来压缩视频序列。在多个数字视频编码系统中，两种主要模式被用于压缩视频帧序列的视频帧：帧内模式和帧间模式。在帧内模式下，通过经由预测、变换和熵编码来利用单帧的给定通道中的像素的空间冗余来对亮度和色度通道(或在特定情况下RGB或拜耳数据)进行编码。被编码帧称作内帧，并且也可以称为I帧。在内帧中，在帧内模式下对也被称为宏块、编码单元或编码树单元的像素的块进行编码，意味着参考相同的图像帧内的类似的块对它们进行编码，或者根本没有参考进行原始编码。帧间模式则替换地采用单独的帧之间的时间冗余度，并且依赖于运动编码补偿预测技术，该技术通过针对选择的像素块对从一个帧到另一个的像素中的运动进行编码来根据一个或多个先前帧预测帧的部分。被编码帧被作间帧，并且可以称为P帧(正向预测帧)(其能够以解码顺序参考先前帧)，或者B帧(双向地预测帧)，其能够参考两个或多个先前解码的帧，并且能够具有用于预测的帧的任何任意的显示顺序关系。在间帧内，可以在帧间模式下对像素的块进行编码(意味着参考先前解码的图像中的类似的块对其进行编码)或者在帧内模式下对其进行编码(意味着参考相同的图像帧内的类似的块对其进行编码或者根本没有参考进行原始编码)。

编码后的图像帧被布置在图片组(或者简称GOP)中。每个图片组开始于不参考任何其他帧的内帧。内帧后面是参考其他帧的多个间帧。如上所述，存在不同种类的间帧。针对P帧，参考帧是一个或多个先前编码和解码的图像帧，在显示顺序中出现在P帧之前。针对B帧，使用两个或多个参考帧，并且参考帧之一例如可以被显示在B帧之前，而另一个参考帧被显示在B帧之后。不一定需要与捕捉或显示图像帧相同的顺序来编码和解码图像帧。唯一的固有的限制是对于充当参考帧的帧，必需在被利用以作为参考的帧能够被编码之前对其进行解码。在监测或监视应用中，通常实时地进行编码，意味着最实用的方法是以捕捉和显示图像帧相同的顺序来编码和解码图像帧，这是因为否则将存在不期望的延迟。

一些编解码器还使用另一种类的间帧，其有时被称为刷新帧或者R帧。以与其他间帧相同的方式，刷新帧通常针对图像的移动部分使用帧内模式编码，而使用帧间模式编码来对静态部分或背景部分进行编码。与P帧不同，R帧不使用最近的先前解码P帧作为参考帧，而是向后参考GOP起始处的I帧。以这样的方式，随着距I帧的距离而传播的误差或伪影被复位。因此，GOP中的下一个P帧可以得到更好的起始点，导致用于表示P帧的较小数量的比特。使用R帧的另一个优点是其在重放编码和解码视频序列时给出更大灵活性。如果用户想要重放编码视频序列，则需要对视频序列进行解码。为了能够解码特定帧，首先需要解码其参考帧。在具有仅仅使用I帧和P帧(并且可能是B帧)的GOP结构的视频序列中，在能够解码GOP中的任何随后的图像帧之前需要解码在GOP起始处的I帧。如果使用长的GOP长度，则当用户希望在碰巧接近GOP结束处的视频序列中的时间点开始重放时，解码GOP中的所有之前的图像帧的时间可能相当多。如果沿着GOP以规则的或不规则间隔对R帧进行编码，则在重放能够开始之前较少的帧需要被解码，这是因为在所选择的重放开始之前仅仅最接近的R帧和GOP开始处处的I帧需要被解码，而非I帧和该R帧之间的帧需要被解码。使用R帧的可能的缺点是在GOP起始处的I帧的解码的版本需要针对GOP中的所有R帧被保留为参考帧，而如果仅仅使用P帧，则仅仅先前帧的解码的版本需要被保留并且随着图像帧被编码能够被持续地替换。因此，R帧的使用要求保留两个可能的参考帧，并且如果仅仅使用P帧，则仅仅一个参考帧需要被保留。

常常通过速率控制器控制编码，该速率控制器可以采用固定比特率(CBR)、最大比特率(MBR)，或者可变比特率(VBR)。CBR意味着编码器将努力总是输出相同的比特率，而不管在捕捉的场景中发生什么。如果带宽是有限的，这可以在场景中存在运动时导致低质量的图像，但是在图像是静态的时导致高质量图像。在监测或监视情形中，这通常不是有用的，这是因为与静态场景相比，具有运动的场景通常更使人感兴趣。利用MBR，允许比特率改变，只要其不超过比特率极限设置即可。与该方法有关的问题类似于与CBR相关联的问题。如果MBR极限被设置得太低，则具有运动的场景的图像可能具有低质量。然而，如果极限被设置得较高，为了适应运动，当对静态场景的图像进行编码时，输出比特率可能不必要地高。VBR也可以被称为恒定质量比特率，意味着编码图像的质量应当被保持恒定，但是允许输出比特率根据在场景中发生什么而改变。当在场景中存在运动时，该方法可以导致高输出比特率。如果带宽是有限的，诸如当通过移动式网络传送编码图像时，这尤其是有问题的。类似地，如果存储器是有限的，诸如当把图像存储在摄像机——例如SD卡上时，是有问题的。如果若干摄像机同时地传送具有运动的场景的图像，则在摄像机的大型系统中高输出比特率也可能是有问题的。

不管由速率控制器使用的比特率控制方案如何，所述能够调整以便符合由速率控制器设置的比特率的参数之一是GOP长度。在一些应用中，通过用户输入人工地设置GOP长度。在其它应用中，例如基于图像分析动态地确定。较长的GOP长度通常给出较低的输出比特率，这是因为与内帧相比，间帧通常要求较少的比特用于表示。然而，本发明的发明人已经发现这并不总是正确的。在一些实例中，增加GOP长度可能事实上不引起期望的比特率降低。输出比特率可能降低，但是不是已经基于GOP长度增加的大小所预期的那么多。这是有害的，这是因为带宽需求可能变得不必要地高，而同时图像质量较低。因此，需要改善的编码方法。

发明内容

本发明的目标是提供确定关于实现高效比特使用，关键帧距离或GOP长度应当多长的方法。

另一个目标是提供对视频序列中的图像帧进行编码的方法，该方式使限制输出比特率成为可能。

另外的目标是提供一种布置，其使确定用于对视频序列中的图像帧进行编码的最大容许关键帧距离成为可能，使得可以高效地使用比特。

同样也是目标的是提供能够高效地对图像帧进行编码的编码器和摄像机。

另一个目标是提供一种使得能够确定适当的GOP长度和关键帧距离并且使得能够对视频序列中的图像帧进行高效编码的计算机程序产品。

根据第一方面，通过确定用于对视频序列中的图像帧进行编码的最大容许关键帧距离的方法来全部或至少部分地实现这些和其他目的，该方法包括：对多个视频测试序列进行编码，每个视频测试序列具有相应的噪声级别，其中，使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码，针对每个视频测试序列，确定关于每个关键帧距离的输出比特率，针对噪声级别、量化参数和关键帧距离的每个组合存储确定的输出比特率，针对噪声级别和量化参数的每个此类组合，把输出比特率响应于关键帧距离的增加而减小的最大关键帧距离识别为最大容许关键帧距离。利用此类方法，可以研究编码器的行为并且确定增加GOP长度或关键帧距离有多少意义以便节约比特率。应当注意到，视频测试序列优选地捕捉静态场景，这是因为以另外方式变化的场景运动可能使得难以推导噪声如何影响最大容许关键帧距离。

针对噪声级别和量化参数的每个组合，可以把最大容许关键帧距离存储在查找表中。这是提供最大容许关键帧距离以供稍后使用的实用方式。

该方法可以进一步包括通过将不同量的噪声添加到原始视频测试序列来生成视频测试序列。以这样的方式，可以清楚地看出噪声对最大容许GOP长度或关键帧距离的影响。

根据第二方面，通过对视频序列中的图像帧进行编码的方法来全部或至少部分地实现这些和其他目的。将图像帧编码到布置到图片组中的输出图像帧的序列中，每个图片组包括内帧和一个或多个随后的间帧，所述输出图像帧的序列中的每个图片组具有通过将内帧和直接地参考该内帧的随后的间帧分隔的帧的数量所定义的关键帧距离。该方法包括：确定所述视频序列中的至少一个图像帧的噪声级别，确定被利用于对所述图像帧进行编码的代表性量化参数，基于所确定的噪声级别和所确定的量化参数，选择依照根第一方面的方法而确定的最大容许关键帧距离，并且使用所确定的量化参数并且使用小于或等于最大容许关键帧距离的关键帧距离来对视频序列中的图像帧进行编码。该方法使高效地对视频序列中的图像帧进行编码成为可能，使得比特率可以减小。

可以动态地确定被利用于对图像帧进行编码的关键帧距离。与固定的设置相反的对GOP长度或关键帧距离的动态确定可以使得能够进行比特的更高效使用，同时输送捕捉的场景中的感兴趣事件的优质图像。

可以基于视频序列中的至少一个图像帧中的运动来确定关键帧距离。

关键帧距离可以是通过图片组中的图像帧的数量所定义的GOP长度，每个图片组包括内帧和一个或多个随后的间帧。

根据方法的变体，通过以下项来确定被利用于对图像帧进行编码的GOP长度：基于表示当前图像帧中的像素的信息来计算当前图像帧的每组邻近像素的组值、累积包括当前图像帧和第一数量的先前的图像帧的第一图像帧序列中的对应的邻近像素组的组值以形成累积组值的第一累积、累积包括当前图像帧和第二数量的先前的图像帧的第二图像帧序列中的对应的邻近像素组的组值以形成累积组值的第二累积，其中，第二图像帧序列包括与第一序列的图像帧相比在更久的时间段上捕捉的图像帧，将所述第一累积的累积组值与所述第二累积的对应的邻近像素组的累积组值相比较，基于组值的第一和第二累积的比较来计算全局改变值，并且基于全局改变值来确定GOP长度。该方法使适配GOP长度成为可能，使得当在监视的场景中存在运动时，可以实现更多比特和更好的图像质量，并且使得当在场景中几乎没有运动时，可以节约比特。

在方法的变体中，使用小于或等于最大容许关键帧距离和系统最大关键帧距离中的较小的关键帧距离对图像帧进行编码，所述系统最大关键帧距离基于系统缓冲器大小和系统重放时间限制中的至少一个确定。因此，可以明智地选择关键帧距离，使得比特率可以受到限制并且可以避免不必要的质量降低。

根据第三方面，通过用于确定最大容许关键帧距离的最大关键帧距离选择布置来全部或至少部分地实现这些和其他目的，其中该最大容许关键帧距离用于对视频序列中的图像帧进行编码，所述布置包括：测试视频序列评估模块，被布置为对多个视频测试序列进行编码，每个视频测试序列具有相应的噪声级别，其中，使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码，并且针对每个视频测试序列确定关于每个关键帧距离的输出比特率；存储器模块，被布置为针对噪声级别、量化参数和关键帧距离的每个组合存储所确定的输出比特率，以及选择模块，被布置为针对噪声级别和量化参数的每个此类组合把在其输出比特率响应于关键帧距离的增加而减小的最大关键帧距离识别为最大容许关键帧距离。此类布置使避免使用不给出期望的比特率降低并且不必要地降低图像质量的长关键帧距离或GOP长度成为可能。

根据第四方面，通过对视频序列中的图像帧进行编码的编码器系统来全部或至少部分地实现这些和其他目的，所述系统包括：编码器模块，被布置为把输入图像帧处理为布置在图片组中的内帧或间帧，每个图片组包括内帧和一个或多个随后的间帧；量化参数确定模块，被布置为确定被利用于对图像帧进行编码的代表性量化参数；噪声确定模块，被布置为确定所述视频序列中的至少一个输入图像帧的噪声级别；关键帧距离确定模块，被布置为基于所确定的噪声级别和所确定的量化参数来选择依照根据第一方面的方法，或者使用根据第三方面的最大关键帧距离选择布置所确定的最大容许关键帧距离，并且确定被利用于对图像帧进行编码的关键帧距离，所述关键帧距离小于或等于所述最大容许关键帧距离。此类编码器系统使得能够进行视频序列中的图像帧的比特率高效编码。

根据第五方面，通过包括根据第四方面的编码器系统的摄像机来全部或至少部分地实现这些和其他目的。

根据第六方面，通过包括计算机可读存储介质的计算机程序产品来全部或至少部分地实现这些和其他目的，所述计算机可读存储介质具有被适配为当由处理器执行时实施根据第一或第二方面的方法的指令。

如在本文所使用的，术语“关键帧距离”意指从内帧到帧序列中的具有解码的内帧作为参考帧并且不是被编码和解码的先前帧的下一帧的该序列中的帧的数量。换句话说，关键帧距离是从GOP开始处的内帧到复位向后参考该内帧的下一帧的、以帧的数量测量的最长的序列。

术语“GOP长度”意指图片组中的图像帧的数量。如在背景部分中讨论的，当对视频序列中的图像帧进行编码时，编码后的图像帧被布置在图片组中，每个图片组包括内帧和零或多个随后的间帧。因此，例如GOP长度1意味着每个GOP是由仅仅内帧组成，而GOP长度50意味着每个GOP由一个内帧和49个随后的间帧组成。在本发明的上下文中，可以注意到，GOP长度1不是感兴趣的，如随后将更加详尽地讨论的。GOP长度是关键帧距离的特例。GOP长度可以被看作图像帧的序列中的关键帧距离，其中所有间帧向后参考先前编码和解码的间帧(除了GOP中的第一间帧之外，该第一间帧必要地向后参考被解码的GOP开始处的内帧)，并且其中GOP中没有间帧完全地直接地向后参考GOP开始处的内帧。换句话说，GOP长度是在一个GOP开始处的一个内帧与下一个GOP开始处的下一个内帧之间的以帧的数量测量的距离。

根据在下面给出的具体实施方式，本发明的应用的进一步范围将变得明显。然而，应当理解，具体实施方式和特定示例在指示本发明的优选的实施例时是仅仅作为说明被给出，这是因为根据该具体实施方式，在本发明的范围内的各种改变和修改将对那些本领域技术人员变得明显。

因此，应当理解，本发明不局限于所描述的设备的特定组成部分或所描述的方法的步骤，照此设备和方法可以改变。也将理解的是，在本文使用的术语仅仅用于描述特定实施例的目的并且不意图进行限制。必须指出，如在说明书和所附权利要求中使用的，冠词“一”、“该”和“所述”意图意指存在一个或多个要素，除非该上下文清楚地另外指示其他。因此，例如对“对象”或“该对象”的引用可以包括若干对象，等等。此外，词“包括”不排除其他要素或步骤。

附图说明

现在将通过示例并且参考所附示意图来更详细地描述本发明，在附图中：

图1是布置在图片组中的编码后的图像帧的视频序列的图示，

图2是类似于图1的图示，图示出还对刷新帧进行编码的视频序列，

图3是图示出确定最大容许关键帧距离的发明方法的变体的数个部分的流程图，

图4是图示出确定最大容许关键帧距离的方法的其它部分的流程图，

图5是图示出对视频序列中的图像帧进行编码的发明方法的变体的流程图，

图6是用于确定用于对视频序列中的图像帧进行编码的最大容许关键帧距离的布置的实施例的框图，

图7是编码系统的实施例的框图；以及

图8是摄像机的实施例的框图。

具体实施方式

在图1中，示意地示出编码后的图像帧的第一视频序列10。利用仅仅采用I帧和P帧的GOP结构对视频序列10进行编码。每个GOP开始于I帧，其后面是多个P帧。如以上已经讨论的，GOP中的帧的数量也被称为GOP长度。因此，在示出在图1中的示例中，所使用的GOP长度是七，这是因为在GOP1中存在一个I帧和六个P帧。应当注意到，这是简化示例，是为了不使绘图杂乱，并且当对用于监视或监测的视频序列进行编码时所使用的GOP长度通常更长。在多个情况下，导致每秒一个I帧的GOP长度是相当常用的。这意味着，在例如30fps的帧速率的情况下，常常使用30的GOP长度。

当对视频序列中的图像帧进行编码时，可以使用短至一的GOP长度。一的GOP长度意味着每个GOP仅仅由内帧组成，没有间帧。应当理解的是，本发明意图解决的问题仅仅在GOP长度长于一的情况下才出现，这是因为否则的话不存在其中误差可能传播的间帧。因此，在本发明的上下文中，感兴趣的仅仅是具有内帧和一个或多个随后的间帧的GOP结构，即，具有二或多个的GOP长度的GOP结构。

在图1中，从GOP1中的第一P帧12到GOP1起始处的I帧11的箭头指示第一P帧12使用I帧11的解码版本作为参考。类似地，从GOP1中的第二P帧13到的第一P帧12的箭头指示第二P帧13使用第一P帧12的解码版本作为参考。在示出在图1中的GOP结构中，GOP1中的每个帧简单地使用先前帧的解码版本作为参考。

在图2中，图示出第二视频序列20，其中除I帧和P帧之外，使用刷新帧或R帧。在这里，如在第一视频序列1中，GOP101开始于I帧21，其后面是五个间帧，给出六的GOP长度。以与示出在图1中的视频序列中的相同的方式，在I帧21之后的第一间帧是P帧22。该P帧22使用I帧21的解码版本作为参考，如由从第一P帧22到I帧21的箭头所指示的。类似地，下一帧、第二P帧23使用第一P帧22的解码版本作为参考。然而，在其之后的帧不是P帧，而是R帧24。如以上在背景部分中解释的，R帧基本上是P帧，但是不使用先前的P帧的解码版本作为参考，而是反而向后参考在GOP起始处的I帧。因此，第一R帧24使用使GOP101开始处的I帧21作为参考帧，如由从R帧24到I帧21的箭头所指示的。

在该简化示例中，为了附图的清晰，仅仅使用非常短的GOP长度。然而，实际上，将使用显著较长的GOP长度。在大多数的——如果不是所有的编码方案中，执行量化，意味着像素值(常常在从空间域到频率域的变换之后)被映射到有限数量的量化步骤。该量化导致信息丢失，当对编码后的图像帧进行解码时，不能在去量化中调取该信息。针对GOP中的每个P帧(或B帧)，存在丢失信息的风险，并且GOP越长，更多信息可能丢失。通过采用沿着GOP的一些R帧，重启参考链，这在于R帧使用GOP的初始I帧作为参考帧。因此，可以利用相同的GOP长度来获取更好的视频质量。相应地，如果使用R帧，可以在较长的GOP长度的情况下维持相同的视频质量。

在图2中，从GOP101开始处的I帧到第一R帧24的距离(帧的数量)被标注为D_K101。该距离被称作关键帧距离。类似地，从第一R帧24到第二GOP102开始处的第二I帧27的距离是通过D_K102标记的第二关键帧距离。

返回到图1，应当注意到，在那里示出了GOP长度，GOP1和GOP2也可以被称为关键帧距离。然而，在第一视频序列10中，在每个GOP中仅仅存在一个参考链，这是因为不存在R帧。因而，开始于第一I帧11的第一GOP的关键帧距离等于GOP1，并且开始于第二I帧18的第二GOP的关键帧距离等于GOP2。为了图示出这一点，第一GOP还被标记为第一关键帧距离D_K1，并且第二GOP被标记为第二关键帧距离D_K2。

尽管通常预期比特率应当在较长的GOP长度的情况下减小，但本发明的发明人已经发现GOP长度和比特率之间的关系是不完全直接的。他们已经认识到，随着GOP越来越长，存在P帧大小开始增加的趋势。这是由于误差传播。由于每个间帧是一种基于先前帧的近似，所以随后的帧将进而是近似的近似。对参考帧中的足够类似的块进行参考，与运动矢量和残差一起对间帧中的像素的每个帧间模式编码块进行编码，描述当前块如何不同于参考块。这可以在多个间帧之后导致相当大的残差，要求多个比特以用于编码。随着残差增长，把块编码为帧间块在某一点将是低效的，并且替代地参考相同的帧中的另一个块把其编码为帧内块，或者不参考任何其他块进行原始编码。如果多个I块被编码在间帧中，与具有较少的I块的间帧相比，这将通常要求更多比特。

本发明基于研究随着用于编码的GOP长度增加时的间帧的大小的行为的思想。发明人已经认识到可以找出“最有效点”，超过该最有效点时，在企图减少输出比特率时增加GOP长度将没有意义。应当注意到，不存在将适合所有编码器和所有视频序列的一个唯一最大GOP长度。而是，利用多个不同的量化参数并且使用多个不同的GOP长度对具有多个不同的噪声级别的多个视频测试序列进行编码。针对噪声级别、量化参数和GOP长度的每个组合，确定输出比特率。通过针对多个组合进行此，可以确定在哪个GOP长度输出比特率随着增加的GOP长度而停止减小。现在将参考图3和4更加详尽地描述该原理，其示出可以如何执行本发明的示例。

为了确定当在编码器中对视频序列进行编码时使用的最大容许GOP长度，测试多个视频序列。针对每个此类测试，提供视频测试序列(步骤S1)。视频测试序列具有可能已经被添加到视频测试序列或自然地出现在视频测试序列中的噪声级别(S2)。设置用于对视频测试序列进行编码的量化参数(S3)，并且也设置GOP长度(S4)。对视频测试序列进行编码(S5)并且确定输出比特率(S6)。

参考图4，在多个视频测试序列的情况下重复刚刚描述的处理。对第一视频测试序列进行编码(步骤S10)，并且确定和存储输出比特率(S11)。检查是否存在要编码的更多视频测试序列(S12)，并且如果是这样的话，则调取或提供下一个视频测试序列(S13)。针对该第二视频测试序列，方法是相同的，使得其被编码并且输出比特率被存储。当期望数量的视频测试序列已经被编码并且相应的输出比特率已经被存储时，通过找出在其输出比特率响应于GOP长度的增加而减小的最大GOP长度来识别最大容许GOP长度(S14)。如果GOP长度增加到高于最大GOP长度，则尽管GOP长度增加，输出比特率也不再减小。可以例如把最大容许GOP长度存储在查找表中。当视频序列稍后将被编码时，可以确定视频序列中的噪声级别并且可以选择或设置用于编码的量化参数，并且可以在查找表中找出对应的最大容许GOP长度。

如关于图3所讨论的，视频测试序列具有变化的噪声级别并且使用变化的量化参数被编码。针对噪声级别和量化参数的每个组合，识别相应的最大容许GOP长度。因此，为了在识别最大容许GOP长度时得到可靠的结果，使用多个不同的GOP长度对噪声级别和量化参数的每个组合进行编码。

视频测试序列可以是其中人工添加了不同级别的噪声的一个或一些原始视频测试序列。这使得易于把视频测试序列之间的变化限制到仅仅变化的噪声级别。然而，人工加入的噪声可能不一定以与自然出现的噪声相同的方式影响视频测试序列，使得就最大容许GOP长度的识别而言的最终结果可能不与如果已经使用了在变化的自然出现的噪声级别的情况下所捕捉的视频测试序列时的最大容许GOP长度完全相同。尽管如此，结果通常将足够接近以用于识别最大容许GOP长度。

生成视频测试序列的另一个方法是在变化的条件下——诸如场景中的变化的光级别和变化的环境温度下捕捉若干原始视频测试序列，给出具有不同的噪声级别的多个视频测试序列。如果在不同级别的运动的情况下在不同的场景中捕捉原始视频测试序列，则可能需要大量视频测试序列来消除或至少限制与噪声相比其他因素对识别的最大容许GOP长度的影响。在不同级别的自然出现的噪声的情况下获取多个视频测试序列的一种方式是在实验室环境中捕捉多个原始视频测试序列，其中能够控制场景中的光级别。通过捕捉在不同的光级别的若干原始视频测试序列，噪声级别也将在那些序列中变化。

可以使用多个不同的量化参数有利地对具有一个噪声级别的每个视频测试序列进行编码。可以进而使用多个不同的GOP长度对噪声级别和量化参数的每个此类组合进行编码。应当注意到，利用可能希望在编码器中使用的所有可预见的GOP长度对视频测试序列进行编码通常是不必要的。而是，使用多个合理短的GOP长度(诸如高达100)对视频测试序列进行编码并且研究趋势以查看随着在从位于GOP头部的I帧起的距离，P帧(或B帧)的增长有多快，这通常是足够的。该趋势然后能够用于推断哪个GOP长度是最大容许GOP长度。

就在从GOP开始处的I帧起的距离增加的情况下的P帧(或B帧)的增长而言，不同的编码器的表现通常不尽相同。因此，建议针对实际上将要用于编码的编码器确定最大容许GOP长度。结果可能不直接地转移到另一个编码器，但是可以给出某种指示。

在以上描述中，已经把GOP长度作为针对其应当找出容许的最大值的参数进行了讨论。然而，应当注意，这同等地应用于关键帧距离的更通用观念，如已经在发明内容部分中所限定的那样。因此，相同的方法可以用于找出最大容许关键帧距离。在使用仅仅I帧和随后的P帧(并且可能是B帧)的GOP结构中，关键帧距离与GOP长度相同，直到参考链被重启的下一个GOP起始处为止。然而，在还使用R帧的GOP结构中，与GOP长度相比，关键帧距离将较短，这是因为参考链在每个R帧被重启。因此，可以看出，如果使用R帧，可以使用较长的GOP长度。也可行的是，使用已经根据确定用于除P帧(并且可能是B帧)之外采用R帧的GOP结构的最大容许关键帧距离的在以上描述的方法所确定的最大容许GOP长度，这是因为不具有R帧的GOP结构中的GOP长度与还采用R帧的GOP结构中的关键帧距离对P帧的增长具有相同的影响。

一旦已经针对特定编码器确定用于各种噪声级别和量化参数的最大容许GOP长度或最大容许关键帧距离，当对视频序列进行编码时，可以利用该信息。现在将参考图5进一步描述这一点。

当在视频序列被捕捉时实时地或在稍后时间点对视频序列进行编码时，确定视频序列中的噪声级别(步骤S20)。确定或选择(S21)量化参数，应当利用该量化参数对视频序列进行编码。量化参数可以意图用于视频序列中的所有图像帧，并且用于每个图像帧中的所有像素块、宏块或编码单元。然而，所确定的量化参数可以可替代地仅仅表示当在不同的帧中使用不同的量化参数和/或在相同的帧中的不同的块中使用不同的量化参数时要使用的量化参数。在此类情况下，所确定的量化参数可以是基础量化参数，用于每个图像帧或像素块的实际的量化参数集合可以从该基础量化参数上下偏离预定量。

当已经确定了噪声级别和量化参数时，例如通过查阅根据关于图3和4在以上描述的方法所创建的查找表来选择对应的最大容许GOP长度(S22)。然后考虑最大容许GOP长度对视频序列进行编码(S23)，使得编码器中实际上设置的GOP长度不长于最大容许GOP长度。

当对视频序列进行编码时，在最基本的编码器中，将由编码器使用的GOP长度可以彻底地是固定的。在此种情况下，确定最大容许GOP长度的以上描述的方法可以用作编码器的制造商的输入，使得可以明智地选择固定的GOP长度。在多个情况下，就GOP长度选择而言，编码器提供更大灵活性。一些编码器给出用户选择和设置固定的GOP长度的可能性。可以通过直接的用户输入进行或者通过例如编码器连接到的视频管理系统来完成此类设置。在此类情况下，最大容许GOP长度可以用于限制用户或视频管理系统可以设置的GOP长度范围。其他编码器例如基于视频序列中的图像帧中的运动来动态地设置GOP长度。以这样的方式，可以通过当在捕捉的场景中不存在或存在小的运动(通常意味着从监测或监视视角存在很少感兴趣的事情发生)时利用长GOP长度进行编码，并且当在场景中存在更多运动时利用较短GOP长度进行编码来充分利用可用带宽和/或存储容量，引起视频序列的感兴趣的部分的更好的图像质量。在申请人的专利EP3021579中公开了一种动态地确定GOP长度的这样的方法。该专利的公开因此通过引用被合并，并且将仅仅在这里简短地概述方法的原理。

根据EP3021579的方法，基于短期以及长期来研究图像帧之间的改变。通过在短期和长期两者研究改变的量，可以确定在场景中是否存在针对监视而言所感兴趣的运动。基于表示当前图像帧中的像素的信息来计算当前图像帧的每组邻近像素的组值。对包括当前图像帧和第一数量的先前的图像帧的第一图像帧序列中的对应的邻近像素组的组值进行累积以形成累积组值的第一累积。还对包括当前图像帧和第二数量的先前的图像帧的第二图像帧序列中的对应的邻近像素组的组值进行累积以形成累积组值的第二累积，其中，第二图像帧序列包括与第一序列的图像帧相比在更久的时间段上捕捉的图像帧。将第一累积的累积组值与第二累积的对应的邻近像素组的累积组值相比较。基于组值的第一和第二累积的比较来计算全局改变值，并且将要用于编码的GOP长度基于全局改变值。

当判定在对视频序列进行编码时使用什么GOP长度时，还可以考虑其他系统成本。例如，可以将用于能够提供基于事件的记录的缓冲器的大小考虑在内。在此类基于事件的记录方案中，当例如检测到运动时，视频序列的记录开始。常常有利于的是，还记录事件前序列，以实现对什么发生在场景中的更好的了解。因此，编码后的图像帧被连续地存储在事件前缓冲器中。为了能够重放此类记录的视频序列，重放不得不起始于内帧。如果将保证在事件前缓冲器中总是起始于内帧以及能够被重放的事件前序列足够长，则用于编码的GOP长度需要适于缓冲器的大小。当判定哪个GOP长度用于编码时，其可以被设置为如上所述确定的最大容许GOP长度和允许足够长的事件前视频序列在可用的事件前缓冲器中配合的GOP长度中的更短。

另外，可以将诸如重放时间的其他系统成本考虑在内。如果操作者希望重放从时间上的特定点起的记录的视频序列，该重放不能开始，直到与该时间点相对应的GOP中的先前的图像帧已经被解码。如果使用非常长的GOP长度，则可能令人讨厌地花费长时间来开始重放。可以设置关于允多个长此类重放开始时间的系统限制，并且当判定当编码时使用什么GOP长度时，也可以把这计算在内，使得GOP长度既不超过根据在以上描述的方法所确定的最大容许GOP长度，也不超过通过系统重放时间限制所限制的GOP长度。

可以使用图6中示意性地示出的布置来执行用于确定最大容许关键帧距离或GOP长度的在以上描述的方法。在这里示出布置60，其包括被布置为对多个视频测试序列进行编码的测试视频序列评估模块61。每个视频测试序列具有相应的噪声级别，并且使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码。针对每个视频测试序列，评估模块61被布置为确定关于每个关键帧距离的输出比特率。布置60还包括存储器模块62，该存储器模块62被布置为针对噪声级别、量化参数和关键帧距离的每个组合存储所确定的输出比特率。此外，布置60包括选择模块63，该选择模块63被布置为针对噪声级别和量化参数的每个组合把输出比特率响应于关键帧距离的增加而减小的最大关键帧距离识别为最大容许关键帧距离。布置60可以被体现在硬件、固件或软件或其任何组合中。布置60可以被集成在编码器中，或者可以被分开地布置。

在图7中，示出了编码器系统70，其可以根据在以上描述的编码方法对视频序列中的图像帧进行编码。编码器系统70包括布置为将输入图像帧处理为布置在图片组中的内帧或间帧的编码器模块71，每个图片组包括内帧和一个或多个随后的间帧。编码器系统70还包括被布置为确定被利用于对图像帧进行编码的代表性量化参数的量化参数确定模块72。此外，编码器系统70包括噪声确定模块73，被布置为确定视频序列中的至少一个输入图像帧的噪声级别。另外地，编码器系统70包括关键帧距离确定模块74，该关键帧距离确定模块74被布置为基于所确定的噪声级别和所确定的量化参数来选择根据在以上描述的方法或者使用也在以上描述的最大关键帧距离选择布置所确定的最大容许关键帧距离，并且确定被利用于对图像帧进行编码的关键帧距离。确定的关键帧距离小于或等于最大容许关键帧距离。类似于用于确定最大容许关键帧距离或GOP长度的布置60，编码器系统70可以被体现在硬件、固件或软件或其任何组合中。编码器系统70可以被集成在摄像机中，或者可以被分开地布置。

在图8中，示出了包括诸如图7中示出的那个编码器系统之类的编码器系统70的摄像机80。摄像机80还具有多个其他组件，但是由于这些不是本发明的一部分，所以它们未被示出并且将不在这里被进一步讨论。

利用如上所述的本发明，可以节约输出比特率，因此充分利用可用带宽和存储容量。也可以节约其他系统成本，诸如缓冲器大小和重放时间。

将理解的是，本领域技术人员能够在多个方面修改以上所描述的实施例并且仍然使用在以上实施例中示出的本发明的优点。举例来说，所使用的GOP结构还可以包括“伪帧”，即，包含仅仅跳跃块的间帧。与通过编码器实质编码的帧相比，此类伪帧可以例如用于提升帧速率。因此，来自编码器的比特率可以保持低，同时仍然为例如控制中心中的视频管理系统中的解码器提供预先确定的帧速率。伪帧将不对误差传播具有任何影响，这是因为它们简单地从先前编码和解码的帧复制信息。因而，把伪帧考虑在内，当编码时，可以使用适配的最大容许GOP长度。如果例如通过插入伪帧使帧速率加倍，则可以通过使确定的最大容许GOP长度加倍找出适配的最大容许GOP长度——假定最大容许GOP长度是在没有伪帧的情况下确定的。

本发明可以被用于使用具有内帧和随后的间帧的GOP结构的任何编码方案，例如H.264、H.265或VP8。

可以借助于软件执行本发明的方法。为此目的，可以提供包括计算机可读存储介质的计算机程序产品。计算机可读存储介质可以具有存储在其上的当由处理器执行时执行根据本发明的方法的指令。

因而，本发明不应当被限制到示出的实施例，而是应当通过所附权利要求物来限定。

Claims

1.一种对视频序列中的图像帧进行编码的方法，所述图像帧被编码为被布置在图片组中的输出图像帧的序列中，每个图片组包括内帧和一个或多个随后的间帧，所述输出图像帧的序列中的每个图片组具有通过将内帧和直接地参考所述内帧的随后的间帧分隔的帧的数量所定义的关键帧距离，所述方法包括：

对多个视频测试序列进行编码(S5)，每个视频测试序列具有相应的噪声级别，

其中，使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码，

针对每个视频测试序列，确定关于每个关键帧距离的输出比特率(S6)，

针对噪声级别、量化参数和关键帧距离的每个组合，存储所述确定的输出比特率(S11)，

针对噪声级别和量化参数的每个此类组合，把输出比特率响应于关键帧距离增加而减小的最大关键帧距离识别为最大容许关键帧距离(S14)，

针对噪声级别和量化参数的每个组合，在查找表中存储所述最大容许关键帧距离，

确定所述视频序列中的至少一个图像帧的噪声级别(S20)，

确定被利用于对所述图像帧进行编码的代表性量化参数(S21)，

基于确定的噪声级别和确定的代表性量化参数，从所述查找表中选择最大容许关键帧距离(S22),

基于所述确定的代表性量化参数、并且使用小于或等于被选择的所述最大容许关键帧距离的关键帧距离来对所述视频序列中的所述图像帧进行编码(S23)。

2.根据权利要求1所述的方法，进一步包括：通过将不同量的噪声添加到原始视频测试序列来生成所述视频测试序列。

3.根据权利要求1所述的方法，其中，动态地确定被利用于对所述图像帧进行编码的所述关键帧距离。

4.根据权利要求3所述的方法，其中，基于所述视频序列中的至少一个图像帧中的运动来确定所述关键帧距离。

5.根据权利要求1所述的方法，其中，所述关键帧距离是通过图片组中的图像帧的数量所定义的GOP长度，每个图片组包括内帧和一个或多个随后的间帧。

6.根据权利要求1所述的方法，其中，使用小于或等于所述最大容许关键帧距离和系统最大关键帧距离中的较小的关键帧距离对所述图像帧进行编码，所述系统最大关键帧距离基于系统缓冲器大小和系统重放时间限制中的至少一个确定。

7.一种用于对视频序列中的图像帧进行编码的编码器系统，所述系统(70)包括：

编码器模块(71)，被布置为把输入图像帧处理为布置在图片组中的输出图像帧的序列，每个图片组包括内帧和一个或多个随后的间帧，所述输出图像帧的序列中的每个图片组具有通过将内帧和直接地参考所述内帧的随后的间帧分隔的帧的数量所定义的关键帧距离，

量化参数确定模块(72)，被布置为确定被利用于对所述图像帧进行编码的代表性量化参数，

噪声确定模块(73)，被布置为确定所述视频序列中的至少一个输入图像帧的噪声级别，

最大关键帧距离选择布置(60)，用于确定用于对视频序列中的图像帧进行编码的最大容许关键帧距离，所述布置包括：

测试视频序列评估模块(61)，被布置为对多个视频测试序列进行编码，每个视频测试序列具有相应的噪声级别，其中，使用相应的量化参数并且使用多个关键帧距离对每个视频测试序列进行编码，并且针对每个视频测试序列确定关于每个关键帧距离的输出比特率，

存储器模块(62)，被布置为针对噪声级别、量化参数和关键帧距离的每个组合存储所述确定的输出比特率，以及

选择模块(63)，被布置为针对噪声级别和量化参数的每个此类组合把输出比特率响应于关键帧距离的增加而减小的最大关键帧距离识别为最大容许关键帧距离，并且针对噪声级别和量化参数的每个组合，在查找表中存储所述最大容许关键帧距离，

所述编码器系统(70)进一步包括：

关键帧距离确定模块(74)，被布置为基于确定的所述噪声级别和确定的所述代表性量化参数，从所述查找表选择最大容许关键帧距离，并且确定被利用于对所述图像帧进行编码的关键帧距离，所述关键帧距离小于或等于被选择的所述最大容许关键帧距离，其中

所述编码器模块(71)被布置为使用确定的所述代表性量化参数和确定的所述关键帧距离来对所述视频序列中的所述图像帧进行编码。

8.一种包括根据权利要求7所述的编码器系统(70)的摄像机。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有当由处理器执行时实施根据权利要求1至6中的任一项所述的方法的指令。