CN116320429A

CN116320429A - 视频编码方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN116320429A
Application number: CN202310390313.1A
Authority: CN
Inventors: 姚志军; 邵明凯; 张磊
Original assignee: Hanbo Semiconductor Shanghai Co ltd
Current assignee: Hanbo Semiconductor Shanghai Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-06-23
Anticipated expiration: 2043-04-12
Also published as: CN116320429B

Abstract

本公开提供了一种视频编码方法、装置、计算机设备及计算机可读存储介质。实现方案为：获取与视频对应的多个图像帧；确定多个图像帧中要被编码的当前帧是否是预定的特定帧；响应于确定当前帧是预定的特定帧，利用预训练的场景分类网络确定对应于当前帧的当前场景属性标签；基于当前场景属性标签，确定视频在当前帧的场景是否发生变化；以及响应于确定视频在当前帧的场景发生变化，确定应用于当前帧的编码参数，其中，编码参数是利用预训练的编码参数优化网络确定的。

Description

视频编码方法、装置、计算机设备及计算机可读存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及视频编解码技术和深度学习领域，特别是涉及一种视频编码方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

在对视频进行编码的过程中，编码器需要选择为视频编码的编码参数。一般来说，在生成视频时选择的编码参数会用于整个视频的编码，但固定的编码参数难以在复杂的视频中的每个视频段同时实现最好的效果。随着视频工业的发展，用户对视频的质量提出了更高的要求。如何优化编码参数，实现更好的编码质量和效果，仍然是业界的研究热点和难点之一。

发明内容

本公开提供了一种视频编码方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种视频编码方法，包括：获取与视频对应的多个图像帧；确定多个图像帧中要被编码的当前帧是否是预定的特定帧；响应于确定当前帧是预定的特定帧，利用预训练的场景分类网络确定对应于当前帧的当前场景属性标签；基于当前场景属性标签，确定视频在当前帧的场景是否发生变化；以及响应于确定视频在当前帧的场景发生变化，确定应用于当前帧的编码参数，其中，编码参数是利用预训练的编码参数优化网络确定的。

根据本公开的另一方面，提供了一种视频编码装置，包括：获取模块，被配置为获取与视频对应的多个图像帧；判断模块，被配置为确定多个图像帧中要被编码的当前帧是否是预定的特定帧；分类模块，被配置为响应于确定当前帧是预定的特定帧，利用预训练的场景分类网络确定对应于当前帧的当前场景属性标签；确定模块，被配置为基于当前场景属性标签，确定视频在当前帧的场景是否发生变化；以及编码模块，被配置为响应于确定视频在当前帧的场景发生变化，确定应用于当前帧的编码参数，其中，编码参数是利用预训练的编码参数优化网络确定的。

根据本公开的另一方面，提供了一种计算机设备，包括：至少一个处理器；以及存储器，其上存储有计算机程序，计算机程序在被处理器执行时，使处理器执行本公开如上所提供的方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使处理器执行本公开如上所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，使处理器执行本公开如上所提供的方法。

根据本公开的一个或多个实施例，可以实现根据视频场景的变化来动态地提供最优编码参数。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图；

图2是图示出根据本公开一个实施例的视频编码方法的流程图；

图3是图示出根据本公开实施例的场景分类网络的训练的示意图；

图4是图示出根据本公开实施例的场景分类网络的示意图；

图5是图示出根据本公开实施例的编码参数优化网络的训练的示意图；

图6是图示出根据本公开另一实施例的视频编码方法的示意图；

图7是图示出根据本公开另一实施例的视频编码方法的示意图；

图8是图示出根据本公开实施例的视频编码装置的示意性框图；以及

图9是图示出能够应用于本公开实施例的计算机设备的框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。如本文使用的，术语“多个”意指两个或更多，并且术语“基于”应解释为“至少部分地基于”。此外，术语“和/或”以及“……中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在相关技术中，在对视频进行编码的过程中，编码器需要通过自动或人工的方式选择为视频编码的编码参数。一般来说，在生成视频时选择的编码参数会用于整个视频的编码，但许多复杂的视频中的不同视频段场景不同，于是每个视频段的画面特征，例如纹理、运动状态、形状等，差别非常大，固定的编码参数难以在具有不同场景的每个视频段同时实现最好的效果。随着视频工业的发展，用户对视频的质量提出了更高的要求。如何优化编码参数，实现更好的编码质量和效果，仍然是业界的研究热点和难点之一。

一种传统的解决方法是，根据视频中的各个不同场景特征，人工将视频分为多个视频段并对每个视频段调整编码参数，使其能够在该场景下提高编码质量。但这样的方法对于对视频进行编码处理的人员的专业性要求较高，需要先对视频内容进行分析，然后根据分析结论人工调整编码参数，于是导致了这种方法的实时性和编码质量较低。另一种传统的解决方法是，根据初始编码参数对视频逐帧进行编码，在编码后再评价当前帧的编码质量并调整编码参数，用调整后的编码参数对当前帧重新进行编码，这样不断迭代以使其达到最优编码质量。但这样的方法涉及调整和更改编码器的内核，策略复杂，实现难度较大，且需要不断迭代才能获得较好的编码质量，实时性较低。又另一种传统的解决方法是，针对网络带宽分阶梯地以不同的分辨率和码率对视频进行编码，但这样的方法难以应用于直播等实时性强的场景，并且对于存储空间要求较高以保存编码结果。因此这些传统方法都不能很好地优化编码参数，实现更好的编码质量和效果。

至少针对上述技术问题，本公开提供了一种视频编码方法。

下面结合附图详细描述本公开的示例性实施例。在详细描述根据本公开实施例的视频编码方法之前，首先描述可以在其中实施本方法的示例系统。

图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。

参考图1，该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。

客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下，客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下，用户102可以通过在宿主应用中搜索客户端应用112(例如，通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如，条形码、二维码等)等方式，在客户端设备110上直接运行客户端应用112，而无需安装客户端应用112。在一些实施例中，客户端设备110可以是任何类型的移动计算机设备，包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备，包括智能眼镜，等)或其他类型的移动设备。在一些实施例中，客户端设备110可以替换地是固定式计算机设备，例如台式机、服务器计算机或其他类型的固定式计算机设备。

服务器120典型地为由互联网服务提供商(ISP)或互联网内容提供商(ICP)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是，虽然图1中示出服务器120与仅一个客户端设备110通信，但是服务器120可以同时为多个客户端设备提供后台服务。

网络130的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中，使用包括超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来处理通过网络130交换的数据。此外，还可以使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、网际协议安全(IPsec)等加密技术来加密所有或者一些链路。在一些实施例中，还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。

为了本公开实施例的目的，在图1的示例中，客户端应用112可以为视频类应用程序(诸如视频播放平台或视频制作软件)。与此相应，服务器120可以是与视频类应用程序一起使用的服务器。该服务器120可以将视频编码数据提供给客户端设备110，由客户端设备110中运行的客户端应用112提供视频编码服务。

图2是图示出根据示例性实施例的视频编码方法200的流程图。如图2所示，视频编码方法200包括步骤S210、S220、S230、S240、以及S250。视频编码方法200例如可以应用于直播、点播等应用场景中，诸如由如图1所示的服务器120执行。

参考图2，在步骤S210，获取与视频对应的多个图像帧。

在示例中，视频可以是由视频平台用户上传的自制视频或者转载视频。该视频可以包含一个或多个场景。多个场景可以彼此相似也可以彼此不相似。在该视频的与相似的场景对应的视频段中，还可以包含彼此相同或者彼此不同的内容，例如内容可以包括物体、人物、背景，及其纹理、运动形状等。

在示例中，可以通过对视频解码的方式获取与视频对应的多个图像帧。一般来说，图像帧可以是组成视频的最小单位。

在步骤S220，确定多个图像帧中要被编码的当前帧是否是预定的特定帧。

在示例中，与特定帧有关的信息可以被预先包含在视频的原始编码信息中，从而可以在视频被解码为多个图像帧时，获取关于哪个或哪些图像帧为特定帧的信息。替代地，可以对在步骤S210中获取的多个图像帧中的每一个图像帧进行特征提取以确定哪个或哪些图像帧为特定帧。特定帧例如可以包括关键帧、场景变换帧、或者关键信息完整度较高的图像帧。

在示例中，可以判断当前读取的图像帧是否是预定的特定帧。这里，当前读取的图像帧也即要被编码的当前帧。换言之，在本公开的实施例中，可以不用预先分析整个视频所包括的所有场景属性，而是基于要被编码的当前帧的情况来进行后续处理，从而实现边分析视频场景，边选择编码参数的方式。这种方式尤其有利于长视频的处理。

在步骤S230，响应于当前帧是预定的特定帧，利用预训练的场景分类网络确定对应于当前帧的当前场景属性标签。

在示例中，场景分类网络可以是提前训练的用于基于图像帧中的图像特征来确定该图像帧对应的场景属性标签、即对该图像帧进行场景分类的神经网络。在预训练该场景分类网络时，可以输入预定的样本图像数据库中的大量带有样本场景属性标签的样本图像，也就是说，该预定的样本图像数据库可以是大量带有样本场景属性标签的样本图像的集合。在该预定的样本图像数据库中，可以是一定数量的样本图像具有相同的样本场景属性标签。可以理解，当具有相同的样本场景属性标签的样本图像数量较多时，可以更有利于训练得到更为准确地对图像进行场景分类的场景分类网络。

在示例中，在场景分类网络的预训练中，场景分类网络的输出可以包括对样本图像进行场景分类的置信度。

在下文中，将结合图3和图4进一步详细描述对场景分类网络进行预训练的过程以及场景分类网络的结构。

在示例中，对上述场景分类网络进行预训练之后，可以得到能够对图像进行场景分类的场景分类网络。此时可以将要被编码的当前帧输入该场景分类网络，场景分类网络可以基于当前帧的图像特征来输出当前场景属性标签。

在步骤S240，基于当前场景属性标签，确定视频在当前帧的场景是否发生变化。

在示例中，可以判断当前帧的当前场景属性标签与上一个被确定为是特定帧的图像帧的上一场景属性标签是否相同，以确定视频在当前帧的场景是否发生变化。如果当前场景属性标签与上一场景属性标签相同，那么可以确定视频在当前帧的场景未发生变化。相反地，如果当前场景属性标签与上一场景属性标签不同，那么可以确定视频在当前帧的场景发生了变化。

在示例中，在当前帧为第一次判断出的特定帧时，可以认为属于视频在当前帧的场景发生变化的情况。

在步骤S250，响应于确定当前帧的场景发生变化，确定应用于当前帧的编码参数，该编码参数是利用预训练的编码参数优化网络确定的。

在示例中，该编码参数优化网络可以是提前训练的用于确定图像帧对应的最优编码参数的神经网络。在预训练该编码参数优化网络时，可以同时利用上述预训练的场景分类网络对预定的样本视频数据库中的样本视频进行场景分类。利用场景分类网络对样本视频进行场景分类的过程可以是通过基于样本视频中的特定帧(诸如关键帧等)确定对应于该样本视频的样本场景属性标签来实现的。在经由上述预训练的场景分类网络得到样本视频的样本场景属性标签之后，可以将带有该样本场景属性标签的样本视频输入待训练的编码参数优化网络，以用于对基于样本场景属性标签确定对应的最优编码参数进行训练。

在示例中，上述预定的样本视频数据库可以包括大量具有单一场景的样本视频。在该预定的样本视频库中，可以是一定数量的样本视频具有相同的场景。因此，在利用上述预训练的场景分类网络对这些样本视频进行场景分类时，可以得到相同的样本场景属性标签。可以理解，当这些具有相同的样本场景属性标签的样本视频的数量较多时，可以更有利于训练得到能够针对该样本场景属性标签提供更优编码参数的编码参数优化网络。

在下文中，将结合图5进一步详细描述利用编码参数优化网络对编码参数进行优化的过程。

在示例中，编码参数优化网络可以利用诸如遗传算法来确定最优编码参数。当利用预训练的编码参数优化网络确定应用于当前帧的编码参数时，可以将当前帧对应的场景属性标签输入该预训练的编码参数优化网络，以得到对应于该当前帧的最优编码参数。

根据本公开实施例的视频编码方法，为了确定用于视频编码的最优编码参数，首先，判断要被编码的当前帧是否为能够用于表征场景的特定帧，并在其为特定帧的情况下利用预训练的场景分类网络来确定与当前帧对应的场景，以便于后续根据场景的不同应用不同的编码参数。其次，基于确定出的场景，进一步判断视频在场景上是否发生了变化，并在发生变化时利用预训练的编码参数优化网络动态地确定与该场景对应的编码参数，由此实现确定最优编码参数的效果。因此，本公开实施例的这种动态确定编码参数的方式能够很好地根据视频所涉及的场景来提供最优编码参数，由此提高视频的整体编码质量和效果。

图3是图示出根据本公开实施例的场景分类网络330的训练300的示意图。如图3所示，场景分类网络330的输入可以包括样本图像311和对应于样本图像311的样本场景属性标签312，输出可以包括对样本图像311进行场景分类的置信度320。场景分类网络330可以例如是ResNet18网络。

根据一些实施例，场景分类网络330可以是基于预定的样本图像数据库中的带有样本场景属性标签312的样本图像311而训练得到的。

以这种方式，可以允许预先针对各种潜在的目标场景，诸如感兴趣的、常见的或特殊的场景等定制化地构建样本图像数据库，从而基于该样本图像数据库中的样本图像对场景分类网络进行训练，以使其能够对这些场景进行准确的场景分类。从而，可以便利于实现根据视频场景的变化来动态地提供最优编码参数。

在示例中，样本场景属性标签312可以是例如通过人工标注的方式对样本图像311进行场景类别的标注而获得的。

在示例中，样本图像数据库中的样本图像可以包括用于训练场景分类网络330的样本图像(例如占样本图像总数的70％)、用于验证训练后的场景分类网络330的样本图像(例如占样本图像总数的10％)、以及用于测试训练后的场景分类网络330的样本图像(例如占样本图像总数的20％)。

可以理解的是，图3仅为一种示例，以ResNet18网络为例描述了场景分类网络。根据实际应用，场景分类网络也可以是其他类型的网络，例如VGG16、ResNet50、Mobile-net等。

在示例中，为了使场景分类网络330能够应对各种不同的场景，可以输入具有各种不同场景的样本图像，也即对应于各种不同样本场景属性标签的样本图像进行训练，直到输出的关于场景分类的置信度满足预定要求时，得到经训练的网络权重。针对场景分类网络330的训练，可以选择交叉熵损失函数。另外，可以将最后一个平均池化层改为自适应平均池化层。

图4是图示出根据示例性实施例的场景分类网络400的示意图。

在示例中，如图4所示，场景分类网络400例如可以包括一个预处理模块410以及四个网络模块(如ResNet模块)420、430、440以及450。网络模块420、430、440以及450中的每一个都可以包括一个或多个卷积层。替代地或附加地，网络模块420、430、440以及450可以是彼此完全相同的网络模块。在场景分类网络400的训练阶段可以利用这四个完全相同的网络模块420、430、440以及450来提升训练效果。

在示例中，场景分类网络400的输入401可以是图像或图像帧，其包含关于三个色彩通道(例如RGB通道)以及图像的高度和宽度的信息，例如表示为(1,3,H,W)。场景分类网络400的输出402可以是关于场景分类的置信度。

在将场景分类网络400应用于如图2所示的视频编码方法200时，在步骤S230中，如果判断当前帧是特定帧，则可以利用场景分类网络400确定对应于当前帧的当前场景属性标签，也即对当前帧进行场景分类。进而，可以便利于确定视频在当前帧的场景是否发生变化，并在场景发生变化时确定应用于当前帧的编码参数，从而实现根据视频场景的变化来动态地提供最优编码参数。

在示例中，在经过网络模块420、430、440以及450的处理后，可以在平均池化层进行池化操作，以对卷积后得到的图像特征进行进一步的处理，使得数据进一步浓缩，从而缓解计算时内存的压力。平均池化层可以有多个，其中最后一个平均池化层可以被调整为自适应平均池化层。

根据一些实施例，场景分类网络400中全连接层的输出通道数量可以被设置为与样本图像数据库中样本图像的类别数量一致。

以这种方式，可以充分利用样本图像数据库中样本图像的场景类别，使得一旦需要增加新的目标场景类别，只需要相应增加全连接层的输出通道数量并以该新的目标场景类别的样本图像进行训练即可。

在示例中，假设样本图像数据库中包括100种不同场景的样本图像，则场景分类网络400中全连接层的输出通道数量也可以被设置为100。

可以理解，图4仅为一种示例，示出了包括四个网络模块的场景分类网络。根据实际应用，例如出于成本的考虑，场景分类网络也可以包括更少的网络模块，或者为了实现更好的效果，场景分类网络也可以包括更多的网络模块。

图5是图示出根据本公开实施例的编码参数优化网络的训练500的示意图。

根据一些实施例，如图5所示，编码参数优化网络530可以是基于带有样本场景属性标签503的样本视频501，以编码参数作为待训练参数且以编码质量评估标准作为适应度函数而训练得到的。

以此方式，能够准确地获取到与各种不同场景对应的最优编码参数，从而便利于实现根据视频场景的变化来动态地提供最优编码参数。

在示例中，编码参数优化网络530可以利用遗传算法、模拟退火算法、粒子群优化算法等来确定最优编码参数。例如，可以通过对样本视频501应用预定的编码参数集合(例如可以是常用编码参数集合)中的各个编码参数后针对编码质量进行比较，以确定各个编码参数中哪一个编码参数被应用时，样本视频501的编码质量最好，则该编码参数可以被确定为是最优编码参数。

在编码参数优化网络530的训练500中，被选择作为适应度函数的编码质量评估标准例如可以包括PSNR(Peak Signal to Noise Ratio，峰值信噪比)、SSIM(StructuralSimilarity，结构相似性)、VMAF(Visual Multimethod Assessment Fusion，视频质量多方法评价融合)、FR-VQScore(Full Reference-Video Quality Score，全参考视频质量分数)等。

如图5所示，在训练500中，编码参数优化网络530的输入可以包括样本视频501和对应于样本视频501的样本场景属性标签503。

在训练500中，可以结合使用解码器510。可以通过解码器510对样本视频501进行解码，从而得到至少一个样本图像帧502。样本图像帧502可以是样本视频501的第一个图像帧、关键帧或随机选取的图像帧。样本图像帧502可以用于确定样本视频501的场景。

在训练500中，可以进一步结合使用场景分类网络520。

根据一些实施例，样本视频501可以具有单一的场景，且样本场景属性标签503可以是利用预训练的场景分类网络520获得的。预训练的场景分类网络520例如可以是如图4所示的场景分类网络400。

在示例中，可以将样本图像帧502输入场景分类网络520，以获取与样本图像帧502对应的样本场景属性标签503。由于样本视频501具有单一的场景，可以通过样本场景属性标签503来指示样本视频501的该场景。

以此方式，可以不必为样本视频501人工标记样本场景属性标签，而是通过利用预训练的场景分类网络520获取其样本场景属性标签503，由此节省了人工成本。

图6是图示出根据本公开另一实施例的视频编码方法600的示意图。

如图6所示，视频编码方法600可以包括步骤S601至S607。在视频编码方法600中，步骤S602至S606可以与图2所述的步骤S210至S250相似，因此图6中不再过多赘述相似的细节，而是着重描述进一步的步骤。

根据一些实施例，如图6所示，可以响应于确定当前帧不是预定的特定帧(即，步骤S603中的“否”)，或响应于确定视频在当前帧的场景未发生变化(即，步骤S605中的“否”)，保持原有的编码参数(即，在步骤S607中应用原有的编码参数编码)。

以这种方式，通过在当前帧不是预定的特定帧，或视频在当前帧的场景未发生变化时，保持原有的编码参数进行编码，可以不必对视频的每一个图像帧确定编码参数，能够减小处理器的负担，提升处理速度，降低编码过程的延迟。

如图6所示，首先可以执行步骤S601、输入要进行编码的视频。该视频可以包含一个或多个场景。

然后，可以执行步骤S602、对视频进行解码。在步骤S602，可以对视频解码以获取与视频对应的多个图像帧。在示例中，视频编码方法600的步骤S602可以例如对应于如图2所示的视频编码方法200中的步骤S210。

在本公开的实施例中，如前所述，可以不用预先分析整个视频所包括的所有场景属性，而是基于要被编码的当前帧的情况来进行后续处理，从而实现边分析视频场景，边选择编码参数的方式。为此，在如步骤S602得到与视频对应的多个图像帧之后，可以判断当前帧是否为能够用于表征场景的特定帧。在其为特定帧的情况下，可以进一步确定与该当前帧对应的场景，以便于后续根据场景的不同应用不同的编码参数。

接着，可以执行步骤S603、确定当前帧是否为特定帧。步骤S603可以例如对应于如图2所示的视频编码方法200中的步骤S220。

如果在步骤S603确定当前帧为特定帧，那么可以执行步骤S604、利用预训练的场景分类网络确定当前帧的场景属性标签，该预训练的场景分类网络例如可以是如图4所示的场景分类网络400。步骤S604可以例如对应于如图2所示的视频编码方法200的步骤S230。

在示例中，还可以针对当前帧设置场景变化标志位。例如，如果在步骤S603确定当前帧不为特定帧，则可以将对应于该当前帧的场景变化标志位设置为“False”，以指示针对该当前帧的编码参数不会改变，而是保持原有的编码参数。

根据一些实施例，上述特定帧可以包括关键帧、固定间隔帧或场景切换帧。

借助于诸如关键帧、固定间隔帧或场景切换帧等能够用于表征场景的特定帧，可以准确地判断视频中所涉及的场景是否发生变化，以便于后续根据场景的变化动态地应用不同的编码参数。

然后，可以执行步骤S605、确定视频在当前帧的场景是否发生变化。步骤S605可以例如对应于如图2所示的视频编码方法200中的步骤S240。可以判断在步骤S604确定的当前帧的当前场景属性标签与上一个被确定为是特定帧的图像帧的上一场景属性标签是否相同，以确定视频在当前帧的场景是否发生变化。如果当前场景属性标签与上一场景属性标签相同，那么可以确定视频在当前帧的场景未发生变化(即，进行到S607，并在步骤S607中应用原有的编码参数编码)。相反地，如果当前场景属性标签与上一场景属性标签不同，那么可以确定视频在当前帧的场景发生了变化(即，进行到S606以确定对应的编码参数，然后进行到S607以应用该对应的编码参数)。

在示例中，如果在步骤S605确定视频在当前帧的场景发生了变化，那么可以设置场景变化标志为“True”，并执行步骤S606、利用编码参数优化网络确定当前帧的编码参数，该编码参数优化网络例如可以是如图5所示的编码参数优化网络530。步骤S606可以例如对应于如图2所示的视频编码方法200中的步骤S250。如果当前帧为第一次判断出的特定帧，那么也可以认为当前帧的场景发生了变化，因此也可以执行步骤S606。如果在步骤S605确定视频在当前帧的场景未发生变化，那么也可以设置场景变化标志为“False”，以指示针对该当前帧的编码参数不会改变，而是保持原有的编码参数。

在步骤S606确定编码参数后，可以执行步骤S607、应用确定的编码参数编码。如前所述，如果在步骤S603确定当前帧不是特定帧，或者在步骤S605确定视频在当前帧的场景未发生变化，则根据所设置的场景变化标志“False”，在这些情况下都不会改变编码参数，而是在步骤S607中应用原有的编码参数对当前帧进行编码。也就是说，仅当当前帧是预定的特定帧、且当前帧的场景发生了变化时，才重新确定编码参数并应用该编码参数进行编码。

根据本公开实施例的这种动态确定编码参数的方式能够很好地根据视频所涉及的场景来提供最优编码参数，由此提高视频的整体编码质量和效果。

根据一些实施例，视频编码方法还可以包括：基于来自于用于进行视频编码的编码器的反馈信息，更新编码参数。

图7是图示出根据本公开另一实施例的视频编码方法700的示意图。

如图7所示，首先可以执行步骤S701、对输入的视频701进行解码，以获取与视频701对应的多个图像帧。视频701可以包含一个或多个场景。在示例中，视频编码方法700的步骤S701可以例如对应于如图2所示的视频编码方法200中的步骤S210或如图6所示的视频编码方法600中的步骤S601至S602。

接着，可以执行步骤S720、基于当前帧，确定编码参数。步骤S720可以例如对应于如图2所示的视频编码方法200中的步骤S220至S250或如图6所示的视频编码方法600中的步骤S603至S607。

在步骤S720之后，可以执行步骤S730、确定编码参数。

根据一些实施例，可以基于来自于用于进行视频编码的编码器的反馈信息，更新编码参数。

这样，可以在基于视频场景变化的基础上进一步结合编码器所反馈的信息来确定最优编码参数，由此最佳地实现对编码参数的动态调整。

在示例中，编码器在编码过程中可以提供反馈信息702，以反馈编码器内部编码时动态调整的参数以及诸如码率、图像质量等编码状态。步骤S730可以基于反馈信息702来执行。

然后，可以基于在步骤S730中确定的编码参数执行步骤S740、对当前帧进行编码。由此，可以为整个视频的编码提供最优编码参数。

根据本公开的另一方面，还提供一种视频编码装置。

图8是图示出根据示例性实施例的视频编码装置800的示意性框图。

如图8所示，视频编码装置800包括：获取模块810，被配置为获取与视频对应的多个图像帧；判断模块820，被配置为确定多个图像帧中要被编码的当前帧是否是预定的特定帧；分类模块830，被配置为响应于确定当前帧是预定的特定帧，利用预训练的场景分类网络确定对应于当前帧的当前场景属性标签；确定模块840，被配置为基于当前场景属性标签，确定视频在当前帧的场景是否发生变化；以及编码模块850，被配置为响应于确定视频在当前帧的场景发生变化，确定应用于当前帧的编码参数，其中，编码参数是利用预训练的编码参数优化网络确定的。

根据本公开的实施例，为了确定用于视频编码的最优编码参数，首先，判断要被编码的当前帧是否为能够用于表征场景的特定帧，并在其为特定帧的情况下利用预训练的场景分类网络来确定与当前帧对应的场景，以便于后续根据场景的不同应用不同的编码参数。其次，基于确定出的场景，进一步判断视频在场景上是否发生了变化，并在发生变化时利用预训练的编码参数优化网络动态地确定与该场景对应的编码参数，由此实现确定最优编码参数的效果。因此，本公开实施例的这种动态确定编码参数的方式能够很好地根据视频所涉及的场景来提供最优编码参数，由此提高视频的整体编码质量和效果。

应当理解，图8中所示装置800的各个模块可以与参考图2描述的方法200中的各个步骤相对应。由此，上面针对方法200描述的操作、特征和优点同样适用于装置800及其包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作，或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。

还应当理解，本文可以在软件或程序模块的一般上下文中描述各种技术。上面关于图8描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些模块可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。例如，在一些实施例中，如图8所示的获取模块810、判断模块820、分类模块830、确定模块840和编码模块850中的一个或多个可以一起被实现在片上系统(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如，中央处理单元(CentralProcessing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital SignalProcessor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件)，并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。

根据本公开的一方面，提供了一种计算机设备，其包括存储器、处理器以及存储在存储器上的计算机程序。该处理器被配置为执行计算机程序以实现上文描述的任一方法实施例的步骤。

根据本公开的一方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上文描述的任一方法实施例的步骤。

根据本公开的一方面，提供了一种计算机程序产品，其包括计算机程序，该计算机程序被处理器执行时实现上文描述的任一方法实施例的步骤。

在下文中，结合图9描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。

图9示出了可以被用来实施本文所描述的方法的计算机设备900的示例配置。举例来说，图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备900的架构。上述视频编码装置也可以全部或至少部分地由计算机设备900或类似设备或系统实现。

计算机设备900可以是各种不同类型的设备。计算机设备900的示例包括但不限于：台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如，平板电脑、蜂窝或其他无线电话(例如，智能电话)、记事本计算机、移动台)、可穿戴设备(例如，眼镜、手表)、娱乐设备(例如，娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。

计算机设备900可以包括能够诸如通过系统总线914或其他适当的连接彼此通信的至少一个处理器902、存储器904、(多个)通信接口906、显示设备908、其他输入/输出(I/O)设备910以及一个或更多大容量存储设备912。

处理器902可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器902可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外，处理器902可以被配置成获取并且执行存储在存储器904、大容量存储设备912或者其他计算机可读介质中的计算机可读指令，诸如操作系统916的程序代码、应用程序918的程序代码、其他程序920的程序代码等。

存储器904和大容量存储设备912是用于存储指令的计算机可读存储介质的示例，指令由处理器902执行来实施前面所描述的各种功能。举例来说，存储器904一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外，大容量存储设备912一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器904和大容量存储设备912在本文中都可以被统称为存储器或计算机可读存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可以由处理器902作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

多个程序可以存储在大容量存储设备912上。这些程序包括操作系统916、一个或多个应用程序918、其他程序920和程序数据922，并且它们可以被加载到存储器904以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现客户端应用112、方法200、方法600、方法700和/或本文描述的另外的实施例的计算机程序逻辑(例如，计算机程序代码或指令)。

虽然在图9中被图示成存储在计算机设备900的存储器904中，但是模块916、918、920和922或者其部分可以使用可由计算机设备900访问的任何形式的计算机可读介质来实施。如本文所使用的，“计算机可读介质”至少包括两种类型的计算机可读介质，也就是计算机可读存储介质和通信介质。

计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质，信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字通用盘(DVD)、或其他光学存储装置，磁盒、磁带、磁盘存储装置或其他磁性存储设备，或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对，通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。

一个或更多通信接口906用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个：任何类型的网络接口(例如，网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、Bluetooth^TM接口、近场通信(NFC)接口等。通信接口906可以促进在多种网络和协议类型内的通信，其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口906还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。

在一些示例中，可以包括诸如监视器之类的显示设备908，以用于向用户显示信息和图像。其他I/O设备910可以是接收来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。

本文描述的技术可以由计算机设备900的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。例如，该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件(例如，服务器)和软件资源的底层功能。资源可以包括在远离计算机设备900的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备900与其他计算机设备连接。因此，本文描述的功能的实现可以分布在整个云内。例如，功能可以部分地在计算机设备900上以及部分地通过抽象云的功能的平台来实现。

虽然在附图和前面的描述中已经详细地说明和描述了本公开，但是这样的说明和描述应当被认为是说明性的和示意性的，而非限制性的；本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除未列出的其他元件或步骤，不定冠词“一”或“一个”不排除多个，术语“多个”是指两个或两个以上，并且术语“基于”应解释为“至少部分地基于”。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。

Claims

1.一种视频编码方法，包括：

获取与视频对应的多个图像帧；

确定所述多个图像帧中要被编码的当前帧是否是预定的特定帧；

响应于确定所述当前帧是所述预定的特定帧，利用预训练的场景分类网络确定对应于所述当前帧的当前场景属性标签；

基于所述当前场景属性标签，确定所述视频在所述当前帧的场景是否发生变化；以及

响应于确定所述视频在所述当前帧的场景发生变化，确定应用于所述当前帧的编码参数，其中，所述编码参数是利用预训练的编码参数优化网络确定的。

2.根据权利要求1所述的方法，其中，响应于所述当前帧不是所述预定的特定帧，或响应于所述视频在所述当前帧的场景未发生变化，保持原有的编码参数。

3.根据权利要求1或2所述的方法，其中，所述预定的特定帧包括关键帧、固定间隔帧或场景切换帧。

4.根据权利要求1或2所述的方法，其中，所述预训练的场景分类网络是基于样本图像数据库中的带有样本场景属性标签的样本图像而训练得到的，其中，所述预训练的场景分类网络中全连接层的输出通道数量被设置为与所述样本图像数据库中样本图像的类别数量一致。

5.根据权利要求1或2所述的方法，其中，所述预训练的编码参数优化网络是基于带有样本场景属性标签的样本视频，以所述编码参数作为待训练参数且以编码质量评估标准作为适应度函数而训练得到的。

6.根据权利要求5所述的方法，其中，所述样本视频具有单一的场景，且所述样本场景属性标签是利用所述预训练的场景分类网络获得的。

7.根据权利要求1或2所述的方法，还包括：

基于来自于用于进行视频编码的编码器的反馈信息，更新所述编码参数。

8.一种视频编码装置，包括：

获取模块，被配置为获取与视频对应的多个图像帧；

判断模块，被配置为确定所述多个图像帧中要被编码的当前帧是否是预定的特定帧；

分类模块，被配置为响应于所述当前帧是所述预定的特定帧，利用预训练的场景分类网络确定对应于所述当前帧的当前场景属性标签；

确定模块，被配置为基于所述当前场景属性标签，确定所述视频在所述当前帧的场景是否发生变化；以及

编码模块，被配置为响应于确定所述视频在所述当前帧的场景发生变化，确定应用于所述当前帧的编码参数，其中，所述编码参数是利用预训练的编码参数优化网络确定的。

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，其上存储有计算机程序，

其中，所述计算机程序在被所述处理器执行时，使所述处理器执行权利要求1-7中任一项所述方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使所述处理器执行权利要求1-7中任一项所述方法。

11.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，使所述处理器执行权利要求1-7中任一项所述方法。