CN114025190A

CN114025190A - 多码率调度方法和多码率调度装置

Info

Publication number: CN114025190A
Application number: CN202111295168.6A
Authority: CN
Inventors: 王继洪; 王智; 朱文武; 马茗; 郭君健; 于冰
Original assignee: Shenzhen International Graduate School of Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Shenzhen International Graduate School of Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08
Anticipated expiration: 2041-11-03
Also published as: CN114025190B

Abstract

本公开提供一种多码率调度方法和多码率调度装置。所述多码率调度方法可包括以下步骤：从当前直播流中获取当前视频块的编码信息；基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率；根据预测的输出码率从所述各个预设码率档位中选择码率档位；发送关于选择的码率档位的信息。本公开基于块的粒度对视频码流的实时码率进行预测，同时在预测时考虑到视频的编码信息，使得在自适应码率调度决策时更加准确地调度相应码率的视频块。

Description

多码率调度方法和多码率调度装置

技术领域

本公开涉及通信技术领域，尤其涉及一种多码率调度方法和多码率调度装置以及码率预测网络的训练方法和训练装置。

背景技术

随着变比特率视频编码方式的普及，在对视频进行编码时，由于视频内容不同，会导致编码出的视频块的实时码率在目标码率上下抖动。基于现有的数据统计，目前视频块的平均抖动幅度可达20％-40％，这一情况将会导致自适应码率调度决策时出现极大的决策失误。而在直播流中，由于直播内容是实时生成的，无法实现对直播流信息进行预取，所以导致这一现象更加突出。

发明内容

本公开提供一种多码率调度方法和多码率调度装置以及码率预测网络的训练方法和训练装置，以至少解决上述提及的问题。

根据本公开实施例的第一方面，提供一种多码率调度方法，所述多码率调度方法可包括以下步骤：从当前直播流中获取当前视频块的编码信息；基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率；根据预测的输出码率从所述各个预设码率档位中选择码率档位；发送关于选择的码率档位的信息。

可选地，所述编码信息可包括所述当前视频块的残差帧信息和量化参数。

可选地，基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率，可包括：从所述当前视频块中选择至少一个视频帧；基于所述至少一个视频帧的编码信息使用神经网络来预测所述各个预设码率档位的输出码率。

可选地，所述神经网络可基于以下方式获得：获取先前直播流中的视频块的编码信息；基于该视频块的编码信息利用所述神经网络来预测对该视频块进行转码的各个预设码率档位的输出码率；基于预测的输出码率和该视频块的实际输出码率来构造损失函数；根据由所述损失函数计算的损失来训练所述神经网络的参数。

可选地，所述神经网络的参数可使用模型无关元学习MAML方法进行训练得到。

可选地，根据预测的输出码率从所述各个预设码率档位中选择码率档位，可包括：根据预测的输出码率和各个状态因素利用强化学习来从所述各个预设码率档位中选择所述码率档位。

可选地，根据预测的输出码率和各个状态因素利用强化学习来从所述各个预设码率档位中选择所述码率档位，可包括：确定预测的输出码率分别在所述各个状态因素下在所述各个预设码率档位下获得的奖励值；将与最大奖励值对应的预设码率档位确定为所述码率档位。

可选地，所述各个状态因素可包括历史网络状态信息、历史码率选择信息和历史预测误差中的至少一个。

根据本公开实施例的第二方面，提供一种码率预测网络的训练方法，所述训练方法可包括以下步骤：获取直播流中的当前视频块的编码信息；基于所述当前视频块的编码信息利用所述码率预测网络来预测对所述当前视频块进行转码的各个预设码率档位的输出码率；基于预测的输出码率和所述当前视频块的实际输出码率来构造损失函数；根据由所述损失函数计算的损失来训练所述码率预测网络的参数。

可选地，所述当前视频块可包括预设数量的视频帧，并且所述编码参数可包括每个视频帧的残差帧信息和量化参数。

可选地，基于所述当前视频块的编码信息利用所述码率预测网络来预测对所述当前视频块进行转码的各个预设码率档位的输出码率，可包括：从所述当前视频块中选择至少一个视频帧；基于所述至少一个视频帧的残差帧信息利用所述码率预测网络来得到所述至少一个视频帧的特征参数；根据所述至少一个视频帧的特征参数和相应的量化参数利用所述码率预测网络来预测所述当前视频块的所述各个预设码率档位的输出码率。

可选地，可使用模型无关元学习MAML方法利用直播流中的从所述当前视频块开始的预定数量的视频块对所述码率预测网络的参数进行训练，其中，所述当前视频块是直播流中的第一视频块。

根据本公开实施例的第三方面，提供一种多码率调度装置，所述多码率调度装置可包括：获取模块，被配置为从当前直播流中获取当前视频块的编码信息；预测模块，被配置为基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率；确定模块，被配置为根据预测的输出码率从所述各个预设码率档位中选择码率档位；以及发送模块，被配置为发送关于选择的码率档位的信息。

可选地，预测模块可被配置为：从所述当前视频块中选择至少一个视频帧；基于所述至少一个视频帧的编码信息使用神经网络来预测所述各个预设码率档位的输出码率。

可选地，确定模块可被配置为：根据预测的输出码率和各个状态因素利用强化学习来从所述各个预设码率档位中选择所述码率档位。

根据本公开实施例的第四方面，所述训练装置可包括：获取模块，被配置为获取直播流中的当前视频块的编码信息；以及训练模块，被配置为：基于所述当前视频块的编码信息利用所述码率预测网络来预测对所述当前视频块进行转码的各个预设码率档位的输出码率；基于预测的输出码率和所述当前视频块的实际输出码率来构造损失函数；根据由所述损失函数计算的损失来训练所述码率预测网络的参数。

可选地，训练模块可被配置为：从所述当前视频块中选择至少一个视频帧；基于所述至少一个视频帧的残差帧信息利用所述码率预测网络来得到所述至少一个视频帧的特征参数；根据所述至少一个视频帧的特征参数和相应的量化参数利用所述码率预测网络来预测所述当前视频块的所述各个预设码率档位的输出码率。

根据本公开实施例的第五方面，提供一种电子设备，第一电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的多码率调度方法或训练方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的多码率调度方法或训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的多码率调度方法或训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开基于块的粒度对视频码流的实时码率进行预测，同时在预测时考虑到视频的编码信息，使得在自适应码率调度决策时更加准确地调度相应码率的视频块。此外，本公开通过使用未知模型的元学习MAML方法来训练用于预测码率的神经网络，从而避免了在训练与运行神经网络时需要较高的运算资源和较长的时间的问题。此外，本公开利用强化学习与神经网络相结合，使得更加准确地确定最优码率档位，从而提高了预测误差的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的用于多码率调度的应用环境的示图；

图2是根据本公开的实施例的多码率调度方法的流程图；

图3是根据本公开的实施例的多码率调度方法的流程示意图；

图4是根据本公开的实施例的码率预测网络的训练方法的流程图；

图5是根据本公开的实施例的码率预测网络的结构的示意图。

图6是根据本公开的实施例的多码率调度设备的结构示意图；

图7是根据本公开的实施例的多码率调度装置的框图；

图8是根据本公开的实施例的码率预测网络的训练装置的框图；

图9是根据本公开的实施例的电子设备的框图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，已经有人注意到直播自适应码率调度系统中预测的重要性。他们观察到视频内容质量和视频比特率之间存在非线性关系，即简单场景中较低的码率仍可获得较高的视频质量，而复杂场景中较高的视频质量只有依据高码率。为了在观众中获得更好的表现，首先，他们设计了一个基于内容提取的神经网络来预测未来每个比特率对应的视频块的视频质量。之后，他们设计了一种基于深度学习的新型比特率控制算法，以在直播系统中获得高视频质量和低延迟。他们还为直播系统设计了新的体验质量QoE函数。他们实现了基于视频质量预测的直播ABR调度框架。

然而，现有的框架仅考虑到视频内容对视频质量的影响，但是没有考虑到视频内容对视频块大小的影响。不同的视频内容除了会导致同一码率档位的视频块的视频质量出现差异，也会导致编码过程中视频块的真实码率在目标码率上下抖动，从而导致自适应码率决策时出现卡顿等较为严重的决策失误。其次，码率的波动情况能在一定程度上体现该视频块的重要性程度，这些事实也都应被考虑进直播系统的自适应码率决策中。除此之外，现有的预测模型也较为庞大，训练与运行需要较高的运算资源和较长的时间，同时也存在深度神经网络常见的一个缺点，即需要测试数据集与验证数据集高度相关，从而带来了较弱的泛化能力。

基于此，本公开提出了一种基于未知模型的元学习MAML的直播流的自适应码率调度框架，其能较好的预测视频块的码率抖动，从而完成直播流下的自适应码率调度，同时保证码率调度的实时性，避免出现用户端对服务器进行不断查询的问题。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法和装置进行详细描述。

图1是根据本公开的实施例的用于多码率调度的应用环境的示图。

参照图1，该应用环境100包括终端110、终端120和服务端130。

终端110和终端120可以是不同用户所在终端。例如，主播使用终端110进行直播录制并上传直播视频，观众使用终端130观看主播的直播视频。终端110和终端120可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。终端110和终端120可安装有目标应用，诸如用于直播、视频会议的应用软件等。

虽然本实施例仅示出两个终端进行说明，但是本领域技术人员可知晓，终端的数量可以为两个或更多个。本公开实施例不对终端的数量和设备类型进行任何限定。

终端110和终端120可通过无线网络与服务端130连接，使得终端110和终端120与服务端130之间可进行实时通信。例如，网络可包含蓝牙、局域网(LAN)、广域网(WAN)、无线链路、内联网、互联网或其组合等。这里，服务端130可包括用于转码的流传输服务器和用于分发视频的内容分发网络。

以主播使用终端110进行直播并且观众使用终端120观看直播为例进行描述。终端110在将直播视频上传到服务端130的同时，将直播视频的编码信息发送到码率预测网络。这里，码率预测网络可以布置在服务端130中或者终端120中。在服务端完成对接收的视频块进行转码之前，码率预测网络对将用于转码的各个预设码率档位的输出码率进行预测，然后将预测的输出码率传递给自适应码率调度代理(也可以称为自适应码率模型)。这里，自适应码率调度代理可以布置在终端120中或者服务端130中。自适应码率调度代理可根据收集到的历史网络状态、历史码率决策以及历史预测网络误差等因素，利用强化学习在视频块被转码出来之前确定出将被转码后的视频块的最优码率档位，并将确定结果告知到服务端130。这样，服务端130可将按照最优码率档位转码后的视频块下发到终端120。

图2是根据本公开的实施例的多码率调度方法的流程图。图2所示的方法基于块的粒度对视频码流的实时码率进行预测，下面将一个视频块为例来描述如何实现本公开的多码率调度。

参照图2，在步骤S201，从当前直播流中获取当前视频块的编码信息。例如，当主播使用电子设备进行直播时，可从该电子设备以视频块为单位来获取对直播流中的每个视频块进行编码的编码信息。

一个视频块可包括预设数量的视频帧，例如，可预先设置每个视频块包括48个视频帧。编码参数可包括每个视频帧在编码过程中的残差帧信息和量化参数等。然而，上述示例仅是示例性的，本公开不限于此。

在步骤S202，基于当前视频块的编码信息来预测用于对当前视频块进行转码的各个预设码率档位的输出码率。每个预设码率档位对应于一个预测的输出码率。

为了提高码率调度的实时性，可针对一个视频块中的特定数量的视频帧来执行预测。可从当前视频块中选择至少一个视频帧，然后基于选择的至少一个视频帧的编码信息使用神经网络来预测各个预设码率档位的输出码率。例如，可从当前视频块中均匀地选择6个视频帧，然后使用这6个视频帧的编码参数来预测将对当前视频块进行转码的各个预设码率档位的各个输出码率。

根据本公开的实施例，用于预测码率的神经网络的参数可使用未知模型的元学习方法来得到。下面将参照图4和图5来详细描述如何训练本公开的神经网络。

在步骤S203，根据预测的输出码率从各个预设码率档位中选择码率档位。

作为示例，可根据预测的输出码率和各个状态因素利用强化学习来从各个预设码率档位中选择所述码率档位。这里，各个状态因素可包括历史网络状态信息、历史码率选择信息和历史预测误差中的至少一个，并且历史网络状态信息包括多种网络状态，历史码率选择信息包括多种码率决策信息，历史预测误差信息包括多种预测网络的预测误差。例如，可从用户终端(例如观众观看直播使用的终端)来获得历史网络状态，以用于预测网络的当前状态。可从先前执行码率调度时的结果中获取历史码率决策信息以及码率预测误差信息，以用于确定最优码率档位时作为参考信息。

强化学习可通过不断尝试，在不同状态下作出不同选择，即获得同一状态下不同动作的瞬时奖励以及跳转到的下一状态的状态奖励。经过不断的尝试。代理agent对于每个状态下的未来期望奖励和状态下不同动作的未来期望奖励值逐渐收敛，最终依据不同状态的未来奖励期望值和不同状态下不同动作的未来奖励期望值选定最优的决策路径。

在本公开的实施例中，可首先训练出了一个代理agent，agent不断收集环境信息从而决策出下一视频块的码率档位选择，依据码率档位选择，将获得对于下一个视频块码率决策的一个瞬时的奖励评价以及下一个决策时刻的系统状态，不同码率决策会带来不同的瞬时奖励以及不同的未来状态，强化学习agent通过与环境的不断交互与探索，最终能获得每个状态下agent的期望奖励以及每个状态下能获得最高期望奖励对应的动作action。

例如，将agent收集的各个状态因素(诸如历史网络状态信息、历史码率选择信息和历史预测误差中包括的各种状态)作为强化学习的“状态”，将各个预设码率档位作为强化学习的“动作”，agent可确定预测的输出码率分别在各个状态因素下在各个预设码率档位下获得的奖励值，然后将与最大奖励值对应的预设码率档位确定为最优码率档位。

例如，可利用近端策略优选强化算法PPO2来基于预测的输出码率和各个状态因素来选择出适合于当前环境的最优码率档位。然而，上述示例仅是示例性的，本公开不限于此。

通过强化学习模型，只需要输入网络状态和视频块码率的预测值等状态因素，即可自动生成视频块的码率档位决策。

在步骤S204，发送关于选择的码率档位的信息。例如，可将确定出的最优码率档位通知给将要下发转码后的视频块的服务器，一旦当前视频块完成转码，则立即将按照最优码率档位进行转码后的视频块下发给相应的用户终端。

本公开可针对不同的用户终端在不同的网络环境/网络条件下来预测适用于当前观看环境的最优码率档位，使得用户可更好的观看直播视频。

图3是根据本公开的实施例的多码率调度方法的流程示意图。图3所示的方法引入了h.264的编码信息指导h.265编码的视频块的多码率决策，如果后续h.266编码研发出来后，也可使用h.265的编码信息指导h.266视频块的自适应码率决策。实际上，越是先进的编码方式对设备的要求越高，因此，在主播端上传的码流大部分不会是按照最新编码方式编码出的码流。图3以h.264视频转码为h.265视频为例进行描述。

参照图3，假设主播使用设备1进行直播，设备1可将以h.264编码的码率为1.2Mbps的视频上传到布置在服务端的流媒体服务器2，同时将该视频的编码信息上传到码率预测网络。这里，码率预测网络可被布置在服务端中，诸如流媒体服务器2，也可布置在客户端中，诸如图3中所示的各种终端。

本公开基于块的粒度对视频码流的输出码率进行预测，下面以一个视频块为例进行描述。码率预测网络可预测用于将当前视频块转码为h.265格式的各预设编码档位的输出码率，输出码率的预测工作将在流媒体服务器完成对当前视频块的各预设码率档位的转码工作完成之前完成，码率预测网络可将h.265视频码流的预测结果交给自适应码率调度代理。虽然图3示出了自适应码率调度代理布置在客户端，但是本公开不限于此，自适应码率调度代理也可布置在客户端中。

自适应码率代理通过收集历史网络状态、历史码率决策以及历史预测网络误差等状态因素，利用强化学习在当前视频块被转码出来之前决定出下一视频块的最优码率档位，并将决定通知到服务端。当视频块一旦完成转码，则立即被下发，从而更好的满足直播框架下的实时性要求。

为了更好的提升实时性，本公开采用了轻量级的码率预测网络。为了更好的应对直播内容的复杂多变，当出现新的视频时，诸如当下一场直播开始时，可使用MAML方法来快速训练码率预测网络。例如，可使用5个新视频的样本和5个回合的训练来快速训练出新的码率预测网络。此外，新的码率预测网络也可根据新视频的任何附加数据进行进一步的微调。

图4是根据本公开的实施例的码率预测网络的训练方法的流程图。

在初始训练码率预测网络时，可使用历史直播过程中的小样本直播数据来快速训练码率预测网络。例如，可从先前的多场直播中获取每个直播流中的若干视频块以及视频块的编码参数，利用元学习方法针对每个直播流的视频数据个性化地训练出一个初始的码率预测网络。例如，可将多个视频流的前五个视频块数据导入初始码率预测网络，使得训练出的初始码率预测模型的参数在不同视频流的数据集下微调之后实现总的均方误差MES最小。

之后，当新的直播出现时，可使用元学习方法来实时地利用该新的直播流的数据进一步更新码率预测网络的参数，以适用于当前直播场景下的码率预测。

在使用新的视频数据更新码率预测网络时，可使用在下面的步骤S401至S404来进行训练。

参照图4，在步骤S401，获取直播流中的当前视频块的编码信息。视频块可包括预设数量的视频帧，并且编码参数可包括每个视频帧的残差帧信息和量化参数。

在步骤S402，基于当前视频块的编码信息利用码率预测网络来预测对当前视频块进行转码的各个预设码率档位的输出码率。

作为示例，可从当前视频块中选择至少一个视频帧，基于选择的至少一个视频帧的残差帧信息利用码率预测网络来得到至少一个视频帧的特征参数，根据至少一个视频帧的特征参数和相应的量化参数利用码率预测网络来预测当前视频块的各个预设码率档位的输出码率。

在步骤S403，基于预测的输出码率和当前视频块的实际输出码率来构造损失函数。例如，可基于预测的码率与实际的码率来构造均方误差MES损失函数。

在步骤S404，根据由损失函数计算的损失来训练码率预测网络的参数。例如，通过使预测的码率与实际的码率之间的均方误差最小化来更新码率预测网络的参数。

在码率预测网络使用历史视频数据已经训练好的情况下，当出现新的视频时，在步骤S401中的新视频的视频块可作为该视频中的第一视频块，然后可使用基于未知模型的元学习方法利用该视频中的从当前视频块开始的预定数量的视频块对针对新视频的码率预测网络的参数进行更新训练。

根据本公开的实施例，码率预测网络的训练可主要分为两个阶段。第一阶段使用历史的多个直播流的数据集(例如前五个视频块)来快速训练一个初始的码率预测网络(即码率预测网络的初始模型)，例如，使用历史的多个视频流的数据集对码率预测网络的参数进行微调后实现总的MES最小，从而得到码率预测网络的初始模型；第二阶段使用新的直播流的数据集对这个初始模型的参数进行更新，例如，这个初始模型的参数在新的视频流的数据集下进行微调后实现MES最小。

图5是根据本公开的实施例的码率预测网络的结构的示意图。

参照图5，将视频块的残差帧和相应的量化参数输入至码率预测网络，以得到该视频块的各个预设码率档位的预测码率值。

作为示例，针对视频块中的一个视频帧的残差帧(Residual Frame)，对残差帧中的各个编码块进行特征提取，将提取的特征进行特征融合以得到该视频帧的融合特征。例如，图5的框4×4Transform Block和8×8Transform Block分别表示针对不同尺寸的编码块执行特征提取的过程，图5的框Macroblock和框Frame可表示一个视频帧的特征融合过程。

在图5中，可使用一个视频块中的六个视频帧来执行码率的预测。在框Chunk中，根据六个视频帧的融合特征与相应的量化参数(QP)来得到该视频块的各个预设码率的档位的预测值。

在图5中，fc表示神经网络中的全连接层，avgpool表示神经网络中的平均池化层。

在图5中，预测模型为轻量级模型，从而更好的满足项目实时性的要求。

图6是本公开实施例的硬件运行环境的多码率调度设备的结构示意图。

如图6所示，多码率调度设备600可包括：处理组件601、通信总线602、网络接口603、输入输出接口604、存储器605以及电源组件606。其中，通信总线602用于实现这些组件之间的连接通信。输入输出接口604可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口604还可包括标准的有线接口、无线接口。网络接口603可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器605可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器605可选的还可以是独立于前述处理组件601的存储装置。

本领域技术人员可以理解，图6中示出的结构并不构成对多码率调度设备600的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示，作为一种存储介质的存储器605中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、实时通信程序以及数据库。

在图6所示的多码率调度设备600中，网络接口603主要用于与外部电子设备/终端进行数据通信；输入输出接口604主要用于与用户进行数据交互；多码率调度设备600中的处理组件601、存储器605可被设置在多码率调度设备600中，多码率调度设备600通过处理组件601调用存储器605中存储的多码率调度方法程序以及由操作系统提供的各种API，执行本公开实施例提供的多码率调度方法或训练方法。

处理组件601可以包括至少一个处理器，存储器605中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的多码率调度方法或训练方法。此外，处理组件601可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。

作为示例，处理组件601可从当前直播流中获取当前视频块的编码信息，基于当前视频块的编码信息来预测用于对当前视频块进行转码的各个预设码率档位的输出码率，根据预测的输出码率和各个状态因素从各个预设码率档位中选择最优码率档位，并且发送关于最优码率档位的信息。

作为另一示例，处理组件601可获取直播流中的当前视频块的编码信息，基于当前视频块的编码信息利用码率预测网络来预测对当前视频块进行转码的各个预设码率档位的输出码率，基于预测的输出码率和当前视频块的实际输出码率来构造损失函数，根据由损失函数计算的损失来训练码率预测网络的参数。此外，当出现新视频时，处理组件601可使用MAML方法对训练好的码率预测网络的参数进行更新。

多码率调度设备600可作为电子设备(诸如第一电子设备)或服务器来执行对应的多码率调度方法或训练方法。多码率调度设备600可通过输入输出接口604从电子设备接收数据并且可发送/转发数据。

作为示例，多码率调度设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，多码率调度设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。多码率调度设备600还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在多码率调度设备600中，处理组件601可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件601还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件601可运行存储在存储器中的指令或代码，其中，存储器605还可以存储数据。指令和数据还可以经由网络接口603而通过网络被发送和接收，其中，网络接口603可以采用任何已知的传输协议。

存储器605可以与处理组件601集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器605可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件601可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件601能够读取存储在存储器605中的数据。

图7是根据本公开的实施例的多码率调度装置的框图。图7所示的多码率调度装置可作为流媒体服务器的一部分或者单独的设备。多码率调度装置可与流媒体服务器连接以进行实时通信。

参照图7，多码率调度装置700可包括获取模块701、预测模块702、确定模块703以及发送模块704。多码率调度装置700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略多码率调度装置700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块701可从当前直播流中获取当前视频块的编码信息。编码信息可包括当前视频块的残差帧信息和量化参数。

预测模块702可基于当前视频块的编码信息来预测用于对当前视频块进行转码的各个预设码率档位的输出码率。预测模块702可从当前视频块中选择至少一个视频帧，基于选择的至少一个视频帧的编码信息使用神经网络来预测各个预设码率档位的输出码率。用于预测码率的神经网络的参数可使用模型无关元学习方法进行训练得到。具体的模型训练过程可参照关于图4的描述。

确定模块703可根据预测的输出码率从各个预设码率档位中选择码率档位。确定模块703可根据预测的输出码率和各个状态因素利用强化学习来从各个预设码率档位中选择最优码率档位。

状态因素可包括历史网络状态信息、历史码率选择信息和历史预测误差中的至少一个。例如，确定模块703可确定预测的输出码率分别在各种状态因素下在各个预设码率档位下获得的奖励值，并且将与最大奖励值对应的预设码率档位确定为最优码率档位。

发送模块704可发送关于选择的码率档位的信息。例如，发送模块704可将确定的最优码率通知给流媒体服务器，这样在当前视频块转码完成后可直接向对应的用户终端下发使用确定的最优码率档位进行转码后的视频块。

图8是根据本公开的实施例的码率预测网络的训练装置的框图。参照图8，训练装置800可包括获取模块801和训练模块802。训练装置800中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略训练装置800中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块801可获取直播流中的当前视频块的编码信息。当前视频块可包括预设数量的视频帧，并且编码参数可包括每个视频帧的残差帧信息和量化参数。

训练模块802可基于当前视频块的编码信息利用码率预测网络来预测对当前视频块进行转码的各个预设码率档位的输出码率，基于预测的输出码率和当前视频块的实际输出码率来构造损失函数，根据由损失函数计算的损失来训练码率预测网络的参数。根据本公开的实施例，当前视频块可以是直播流中的第一视频块，可使用基于未知模型的元学习方法利用直播流中的从当前视频块开始的预定数量的视频块对码率预测网络的参数进行训练。

作为示例，训练模块802可从当前视频块中选择至少一个视频帧，基于选择的至少一个视频帧的残差帧信息利用码率预测网络来得到该至少一个视频帧的特征参数，根据该至少一个视频帧的特征参数和相应的量化参数利用码率预测网络来预测当前视频块的各个预设码率档位的输出码率。可使用MAML方法基于新视频的5个样本和5个回合的快速训练得到新视频的码率预测网络。

根据本公开的实施例，可提供一种电子设备。图9是根据本公开实施例的电子设备的框图，该电子设备900可包括至少一个存储器902和至少一个处理器901，所述至少一个存储器902存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器901执行时，执行根据本公开实施例的多码率调度方法或者训练方法。例如，电子设备900可作为电子设备或者作为服务器。

处理器901可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器901还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器902可包括操作系统(例如，MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、多码率调度方法程序、训练方法程序以及数据库。

存储器902可与处理器901集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器902可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器902和处理器901可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器901能够读取存储在存储器902中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备900的所有组件可经由总线和/或网络而彼此连接。

本领域技术人员可理解，图9中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的多码率调度方法或者训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述多码率调度方法或训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多码率调度方法，其特征在于，所述多码率调度方法包括：

从当前直播流中获取当前视频块的编码信息；

基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率；

根据预测的输出码率从所述各个预设码率档位中选择码率档位；

发送关于选择的码率档位的信息。

2.如权利要求1所述的多码率调度方法，其特征在于，所述编码信息包括所述当前视频块的残差帧信息和量化参数。

3.如权利要求1或2所述的多码率调度方法，其特征在于，基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率，包括：

从所述当前视频块中选择至少一个视频帧；

基于所述至少一个视频帧的编码信息使用神经网络来预测所述各个预设码率档位的输出码率。

4.如权利要求3所述的多码率调度方法，其特征在于，所述神经网络基于以下方式获得：

获取先前直播流中的视频块的编码信息；

基于该视频块的编码信息利用所述神经网络来预测对该视频块进行转码的各个预设码率档位的输出码率；

基于预测的输出码率和该视频块的实际输出码率来构造损失函数；

根据由所述损失函数计算的损失来训练所述神经网络的参数。

5.如权利要求3所述的多码率调度方法，其特征在于，所述神经网络的参数是使用模型无关元学习MAML方法进行训练得到的。

6.如权利要求1所述的多码率调度方法，其特征在于，根据预测的输出码率从所述各个预设码率档位中选择码率档位，包括：

根据预测的输出码率和各个状态因素利用强化学习来从所述各个预设码率档位中选择所述码率档位。

7.一种码率预测网络的训练方法，其特征在于，所述训练方法包括：

获取直播流中的当前视频块的编码信息；

基于所述当前视频块的编码信息利用所述码率预测网络来预测对所述当前视频块进行转码的各个预设码率档位的输出码率；

基于预测的输出码率和所述当前视频块的实际输出码率来构造损失函数；

根据由所述损失函数计算的损失来训练所述码率预测网络的参数。

8.一种多码率调度装置，其特征在于，所述多码率调度装置包括：

获取模块，被配置为从当前直播流中获取当前视频块的编码信息；

预测模块，被配置为基于所述当前视频块的编码信息来预测用于对所述当前视频块进行转码的各个预设码率档位的输出码率；

确定模块，被配置为根据预测的输出码率从所述各个预设码率档位中选择码率档位；

发送模块，被配置为发送关于选择的码率档位的信息。

9.一种码率预测网络的训练装置，其特征在于，所述训练装置包括：

获取模块，被配置为获取直播流中的当前视频块的编码信息；

训练模块，被配置为：

10.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一项所述的多码率调度方法或者如权利要求7所述的训练方法。