CN110324621A

CN110324621A - 视频编码方法、装置、电子设备和存储介质

Info

Publication number: CN110324621A
Application number: CN201910600178.2A
Authority: CN
Inventors: 周超
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Stream Lake Technology Co ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-11
Anticipated expiration: 2039-07-04
Also published as: CN110324621B

Abstract

本公开关于一种视频编码方法、装置、电子设备和存储介质，涉及视频编码技术领域。该方法包括：基于原始视频数据对应的在先原始视频数据，预测原始视频数据对应的视频质量信息；将视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；基于码率评价信息，在各预设编码码率中确定目标编码码率；基于目标编码码率，对原始视频数据进行编码。采用本公开，既可以保证编码视频数据的质量，又可以减小传输编码视频数据占用的网络带宽，合理利用了网络资源。

Description

视频编码方法、装置、电子设备和存储介质

技术领域

本公开涉及视频编码技术领域，尤其涉及一种视频编码方法、装置、电子设备和存储介质。

背景技术

发送端可以向接收端发送编码视频数据，该视频数据可以是直播视频数据，接收端在接收到视频数据后实时进行播放。发送端需要对原始视频数据进行编码，以对原始的视频数据进行压缩。在相关技术中，可以通过VMAF(Visual Multimethod AssessmentFusion，视频质量多方法评价融合)标准算法计算编码视频数据的VMAF值，VMAF值可以从主观的人眼视觉角度描述编码视频数据的视频质量。举例来说，人眼对播放画面的细腻程度感知有限，当将含有丰富内容的播放画面的清晰度提高预设数值时，人眼难以察觉到播放画面的清晰度的变化，VMAF值提高较小。而当将含有简单内容且初始清晰度和上述含有丰富内容的播放画面的清晰度相等的播放画面的清晰度提高同等预设数值时，人眼会明显察觉到播放画面清晰度的变化，VMAF值提高较大。VMAF标准算法会综合多种因素对编码视频数据进行评价，其中不单单只考虑视频数据在播放时的清晰度。

发送端能够根据当前的网络状况在多个预设编码码率中选择目标编码码率，通过目标编码码率对原始的视频数据进行编码，选择的编码码率的值会影响编码视频数据的数据量，进而会影响传输编码视频数据占用的网络带宽。发送端一般会在接收端的网络带宽允许的情况下，尽可能地选择使用较高的编码码率作为目标编码码率，这样播放画面的清晰度较高。

在实现本公开的过程中，发明人发现至少存在以下问题：

为了提高播放画面的清晰度发送端会选择较高的编码码率作为目标编码码率，然而人眼不一定能够明显感知播放画面的清晰度的提高，付出的代价却是后续需要占用较大的网络带宽来传输编码视频数据，网络资源不能得到合理利用。

发明内容

本公开提供一种视频编码方法、装置和视频数据传输系统，以至少解决相关技术中网络资源不能得到合理利用的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频编码方法，包括：

基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息，其中，所述在先原始视频数据为在采集所述原始视频数据之前采集的视频数据，所述视频质量信息包括分别基于多种预设编码码率对所述原始视频数据进行编码得到的多个编码视频数据的视频质量值；

将所述视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；

基于所述码率评价信息，在所述各预设编码码率中确定目标编码码率；

基于所述目标编码码率，对所述原始视频数据进行编码。

可选地，所述基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息步骤包括：

将原始视频数据对应的在先原始视频数据，输入到预先训练的视频质量信息预测网络中，得到所述原始视频数据对应的视频质量信息。

可选地，所述预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络，所述将原始视频数据对应的在先原始视频数据，输入到预先训练的视频质量信息预测网络中，得到所述原始视频数据对应的视频质量信息步骤包括：

将原始视频数据对应的在先原始视频数据输入到所述第一子网络中，提取到所述在先原始视频数据的空间特征信息，将所述在先原始视频数据输入到所述第二子网络中，提取到所述在先原始视频数据的时间特征信息；

将所述空间特征信息和所述时间特征信息输入到所述第三子网络中，得到所述原始视频数据对应的视频质量信息。

可选地，所述网络状况信息包括所述发送端发送在先原始视频数据的发送速率、所述接收端接收所述在先原始视频数据的接收速率、所述发送端与所述接收端传输所述在先原始视频数据的延迟变化信息、或者传输所述在先原始视频数据过程中产生的丢包率中的至少一项。

可选地，所述网络状况信息包括所述发送端发送在先原始视频数据的发送速率、所述接收端接收所述在先原始视频数据的接收速率、所述发送端与所述接收端传输所述在先原始视频数据的延迟变化信息、以及传输所述在先原始视频数据过程中产生的丢包率；

在将所述视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息步骤之前，所述方法还包括：

获取所述发送端发送所述在先原始视频数据的发送速率；

基于用户数据报协议UDP，通过预先建立的接收端网络状况反馈通道，接收所述接收端接收所述在先原始视频数据的接收速率、所述发送端和所述接收端传输所述在先原始视频数据的延迟变化信息、以及传输所述在先原始视频数据过程中产生的丢包率。

可选地，所述视频质量值为视频质量多方法评价融合VMAF值。

根据本公开实施例的第二方面，提供一种视频编码装置，包括：

预测模块，被配置为基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息，其中，所述在先原始视频数据为在采集所述原始视频数据之前采集的视频数据，所述视频质量信息包括分别基于多种预设编码码率对所述原始视频数据进行编码得到的多个编码视频数据的视频质量值；

选择模块，被配置为将所述视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；

确定模块，被配置为基于所述码率评价信息，在所述各预设编码码率中确定目标编码码率；

编码模块，被配置为基于所述目标编码码率，对所述原始视频数据进行编码。

可选地，所述预测模块，被配置为：

可选地，所述预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络，所述选择模块，被配置为：

所述装置还包括：

获取模块，被配置为获取所述发送端发送所述在先原始视频数据的发送速率；

接收模块，被配置为基于用户数据报协议UDP，通过预先建立的接收端网络状况反馈通道，接收所述接收端接收所述在先原始视频数据的接收速率、所述发送端和所述接收端传输所述在先原始视频数据的延迟变化信息、以及传输所述在先原始视频数据过程中产生的丢包率。

可选地，所述视频质量值为视频质量多装置评价融合VMAF值。

根据本公开实施例的第三方面，提供一种视频数据传输系统，所述系统包括发送端和接收端，其中：

所述发送端，被配置为基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息，其中，所述在先原始视频数据为在采集所述原始视频数据之前采集的视频数据，所述视频质量信息包括分别基于多种预设编码码率对所述原始视频数据进行编码得到的多个编码视频数据的视频质量值；将所述视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；基于所述码率评价信息，在所述各预设编码码率中确定目标编码码率；基于所述目标编码码率，对所述原始视频数据进行编码；向所述接收端发送基于所述目标编码码率进行编码的编码视频数据；

所述接收端，被配置为接收基于所述目标编码码率进行编码的编码视频数据。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本公开实施例的第一方面所述的视频编码方法。

根据本公开实施例的第五方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面所述的视频编码方法。

根据本公开实施例的第六方面，提供一种计算机程序产品，包括：

基于所述目标编码码率，对所述原始视频数据进行编码。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过本公开实施例提供的方法，可以通过在采集原始视频数据之前采集的在先原始视频数据，预测原始视频数据对应的视频质量信息，根据视频质量信息和发送端与接收端之间的网络状况信息在多个预设编码码率中选择目标编码码率。基于目标编码码率对原始视频数据进行编码处理，可以在接收端的网络状况允许的情况下且在保证占用低网络带宽的情况下，使得编码视频数据的视频质量值最大化。这样，既可以保证编码视频数据的质量，又可以减小传输编码视频数据占用的网络带宽，合理利用了网络资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频编码方法的流程图；

图2是根据一示例性实施例示出的一种视频质量信息预测网络的结构框图；

图3是根据一示例性实施例示出的一种视频数据传输系统的结构框图；

图4是根据一示例性实施例示出的一种编码码率选择评价网络的结构框图；

图5是根据一示例性实施例示出的一种视频编码装置的结构框图；

图6是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供的方法可以由电子设备执行，电子设备可以是服务器，服务器可以作为发送端，同时还可以由其他电子设备配合执行，其他电子设备可以是终端，终端可以作为接收端。在实际应用中，例如在直播过程中，主播用户可以通过手机拍摄直播视频，手机可以将直播视频上传至服务器，服务器可以对直播视频进行编码，以压缩直播视频的数据量，接着服务器可以将编码直播视频发送给请求接收该直播视频的终端。对于直播过程，需要保证视频数据的实时性，即采集视频数据和最终终端播放视频数据之间的时延越短越好。

图1是根据一示例性实施例示出的一种视频编码方法的流程图，如图1所示，视频编码方法用于电子设备中，电子设备可以是发送端，包括以下步骤。

在步骤S110中，基于原始视频数据对应的在先原始视频数据，预测原始视频数据对应的视频质量信息。

其中，在先原始视频数据为在采集原始视频数据之前采集的视频数据，视频质量信息包括分别基于多种预设编码码率对原始视频数据进行编码得到的多个编码视频数据的视频质量值。

在实施中，原始视频数据可以是已采集到的视频数据，也可以是还未采集到的视频数据，原始视频数据可以是至少两个视频帧组成的视频数据。如果原始视频数据是还未采集到的视频数据，可以基于原始视频数据对应的在先原始视频数据对原始视频数据对应的视频质量信息进行预测。虽然原始视频数据是还未采集到的视频数据，但是可以通过在采集原始视频数据之前已采集到的在先原始视频数据，预测原始视频数据对应的视频质量信息，在先原始视频数据可以是至少两个视频帧数据。因为相邻的视频帧之间存在空间相关性和时间相关性，可以基于相邻视频帧的这种特性，通过在采集原始视频数据之前已采集到的在先原始视频数据，预测原始视频数据对应的视频质量信息。

假设当前电子设备未存在原始视频数据，也不能对原始视频数据进行实际的编码，但是可以通过预设算法，预测在采集到原始视频数据之后，如果原始视频数据按照多种预设编码码率进行编码，得到多个编码视频数据，则这些编码视频数据的视频质量值。例如，多种预设编码码率包括4种码率，为A码率(低码率)、B码率、C码率和D码率(高码率)，原始视频数据分别按照A码率、B码率、C码率和D码率进行编码，可以得到A码率对应的编码视频数据、B码率对应的编码视频数据、C码率对应的编码视频数据和D码率对应的编码视频数据，A码率对应的编码视频数据、B码率对应的编码视频数据、C码率对应的编码视频数据和D码率对应的编码视频数据分别存在各自对应的视频质量值，可以通过预设算法预测上述4种编码视频数据分别对应的视频质量值。

可选地，视频质量值(也可称为感知视频质量值)可以为视频质量多方法评价融合VMAF值。

在实施中，可以计算编码视频数据的VMAF值，VMAF值可以从主观的人眼视觉角度描述编码视频数据的视频质量。举例来说，人眼对播放画面的细腻程度感知有限，当将含有丰富内容的播放画面的清晰度提高预设数值时，人眼难以察觉到播放画面的清晰度的变化，VMAF值提高较小。而当将含有简单内容且初始清晰度和上述含有丰富内容的播放画面的清晰度相等的播放画面的清晰度提高同等预设数值时，人眼会明显察觉到播放画面清晰度的变化，VMAF值提高较大。VMAF标准算法会综合多种因素对编码视频数据进行评价，其中不单单只考虑视频数据在播放时的清晰度。

在步骤S120中，将视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息。

在实施中，电子设备可以通过上述步骤确定原始视频数据的视频质量信息，同时还可以确定发送端与接收端之间的网络状况信息，可以从接收端接收网络状况信息。接着，电子设备可以基于原始视频数据的视频质量信息、以及发送端与接收端之间的网络状况信息，确定各预设编码码率对应的码率评价信息。电子设备可以将视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络(也可称为视频质量深度强化学习网络，英文为video quality reinforcement learning network，简写为VQRL)中，预先训练的编码码率选择评价网络可以输出各预设编码码率对应的编码码率选择概率(码率评价信息)。

VQRL可以将复杂的网络状态进行非线性表征，通过定义有效的奖励函数和反向梯度操作，在对每一个状态和动作对进行时间差分学习之后，来更新VQRL中的网络参数，使得VQRL能够作出全局最优策略。

在步骤S130中，基于码率评价信息，在各预设编码码率中确定目标编码码率。

在实施中，电子设备可以在各预设编码码率中选择最大码率选择概率(码率评价信息)对应的编码码率，作为目标编码码率。该目标编码码率可以使得原始视频数据对应的编码视频数据的视频质量值最大化，但是同时还能保证在作为接收端的其他电子设备的网络状况下能够在不卡顿或者较少卡顿的情况下接收编码视频数据，此外还能保证降低传输编码视频数据占用的网络带宽。

在步骤S140中，基于目标编码码率，对原始视频数据进行编码。

在实施中，在电子设备从多种预设编码码率选择出目标编码码率之后，可以基于目标编码码率对原始视频数据进行编码。电子设备可以将目标编码码率和原始视频数据输入到变比特编码器中，电子设备将变比特编码器输出的基于目标编码码率进行编码的编码视频数据(也可称为直播视频流)发送给作为接收端的其他电子设备。

在本公开实施例提供的方法中，电子设备需要确定原始视频数据对应的视频质量信息。本公开实施例提供一种确定原始视频数据对应的视频质量信息的方式，当然除了本公开实施例提供的确定原始视频数据对应的视频质量信息的方式之外，还可以通过其他方式确定原始视频数据对应的视频质量信息，本公开实施例对此不作限定。可选地，步骤S110可以包括：将原始视频数据对应的在先原始视频数据，输入到预先训练的视频质量信息预测网络中，得到原始视频数据对应的视频质量信息。

在实施中，如果原始视频数据是还未采集到的视频数据，可以通过原始视频数据的在先视频数据确定原始视频数据对应的视频质量信息。电子设备可以确定拍摄采集时间点与原始视频数据的拍摄采集时间点相邻的且在原始视频数据的拍摄采集时间点之前的在先原始视频数据。例如，如图2所示，原始视频数据中包括的视频帧为f_i+1及其之后的N个视频帧，在先原始视频数据则可以包括f_i-k、f_i-k+1、……、f_i-1、f_i的视频帧。可以将f_i-k、f_i-k+1、……、f_i-1、f_i的视频帧输入到预先训练的视频质量信息预测网络(也可称为基于深度神经网络的视频质量预测网络，英文为video quality prediction network，简写为VQPN)中，得到原始视频数据对应的视频质量信息。

VQPN可以加快原始视频数据对应的视频质量信息的预测过程，还可以将原始视频数据从高维降到低维，实现原始视频数据的压缩，有效降低了VQPN的状态空间，加速了网络收敛的过程。

如图3所示，视频数据传输系统可以包括发送端和接收端。在发送端对原始视频数据进行编码，原始视频数据为图中的多个未来视频帧。可以将原始视频数据的在先原始视频数据即图中的多个现在视频帧，输入到video quality prediction network中，videoquality prediction network进行视频质量预测，将预测结果输出到video qualityreinforcement learning network中，由video quality reinforcement learningnetwork在各预设编码码率中选择目标编码码率。目标编码码率被输入到视频编码模块中，视频编码模块基于目标编码码率对多个未来视频帧进行编码，输出编码视频数据对应的数据包。发送端可以基于包传输模块将数据包发送至接收端。接收端可以通过包接收模块接收数据包，通过视频解码模块对数据包进行解码，得到可以播放的视频帧。同时包接收模块还可以将数据包发送至噪声过滤模块，由噪声过滤模块进行噪声过滤处理，将网络状况信息反馈至发送端的video quality reinforcement learning network。

可选地，预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络，将在先原始视频数据，输入到预先训练的视频质量信息预测网络中，得到原始视频数据对应的视频质量信息步骤可以包括：将原始视频数据对应的在先原始视频数据输入到第一子网络中，提取到在先原始视频数据的空间特征信息；将在先原始视频数据输入到第二子网络中，提取到在先原始视频数据的时间特征信息；将空间特征信息和时间特征信息输入到第三子网络中，得到原始视频数据对应的视频质量信息。

在实施中，预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络。如图2所示，VQPN可以由用于提取视频帧图像特征的卷积神经网络层(Convolutional Neural Networks，CNN)构成，以及用于捕获临时特征的递归神经网络(Recursive Neural Network，RNN)构成。输出为各预设编码码率对应的视频质量值。电子设备可以基于各预设编码码率对应的视频质量值进行视频质量评估，输出目标编码码率，可以将目标编码码率输入到视频编码器中，在视频编码器中，基于目标编码码率对f_i+1及其之后的N个视频帧进行编码处理。

在该VQPN中，可以通过VMAF值描述原始视频数据(原始视频数据包括一段时间内采集的视频帧)的质量。可以将在先视原始频数据(过去一段时间内采集的视频帧)f(n)输入到VQPN中，其中，n为1……i……n，i为第i个视频帧。在将f(n)输入到VQPN中之后，VQPN可以通过CNN提取视频帧图像特征，同时还可以获得f(n)中的每个视频帧的空间特征信息。可以通过一个5×5的和一个3×3的卷积核对f(n)中的每个视频帧进行堆叠采样，得到堆叠采样数据。随后可以通过全连接层(FC，Fully Connected Layer)对堆叠采样数据进行降维处理。在提取视频帧图像特征、f(n)的空间特征信息的同时，VQPN还可以通过RNN提取f(n)(也可称为过去的视频数据K序列)的时间特征信息，其中，RNN可以是双层LSTM(Long Short-Term Memory，长短期记忆网络)变体(Gated Recurrent Unit，GRU)。最后，VQPN可基于视频帧图像特征、f(n)的空间特征信息和f(n)的时间特征信息，预测原始视频数据(即在f(n)之后的一段时间t+1内采集的视频)对应的视频质量信息，可以将在f(n)之后的一段时间内采集的视频对应的视频质量信息记为Vt+1。其中，VQPN中使用的损失函数可以是通过均方误差(Mean Square Error，MSE)描述的函数。需要说明的是，可以并行提取在先原始视频数据的空间特征信息和时间特征信息，也可以先提取在先原始视频数据的空间特征信息再提取时间特征信息，或者可以先提取在先原始视频数据的时间特征信息再提取空间特征信息，本公开实施例对此不作限定。

在本公开实施例提供的方法中，电子设备需要确定各预设编码码率对应的码率评价信息。本公开实施例提供一种确定各预设编码码率对应的码率评价信息的方式，当然除了本公开实施例提供的确定各预设编码码率对应的码率评价信息的方式之外，还可以通过其他方式确定各预设编码码率对应的码率评价信息，本公开实施例对此不作限定。可选地，步骤S120可以包括：将原始视频数据对应的视频质量信息、原始视频数据的在先原始视频数据对应的编码视频数据的视频质量值和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息。

在实施中，电子设备可以确定原始视频数据的在先原始视频数据，继而可以确定在先原始视频数据对应的编码视频数据的视频质量值。由于在先原始视频数据已经进行过编码，所以对于在先原始视频数据，存在对应的编码过程中使用的目标编码码率，基于该目标编码码率对在先原始视频进行编码所得到的数据为在先原始视频数据对应的编码视频数据，电子设备可以获取在先原始视频数据对应的编码视频数据的视频质量值。

电子设备还可以获取发送端与接收端之间的网络状况信息，网络状况信息可以包括电子设备发送在先原始视频数据的发送速率、接收端接收在先原始视频数据的接收速率、发送端与接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率。电子设备可以确定发送端发送在先原始视频数据的发送速率，还可以接收接收端反馈的接收端接收在先原始视频数据的接收速率、发送端与接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率。

在电子设备确定原始视频数据对应的视频质量信息、原始视频数据的在先原始视频数据对应的编码视频数据的视频质量值和发送端与接收端之间的网络状况信息之后，电子设备可以将上述信息输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息。

电子设备也可以在训练编码码率选择评价网络时，适当调整输入参数。例如，可以选择以原始视频数据对应的视频质量信息和发送端与接收端之间的网络状况信息作为输入参数，后续在使用训练好的编码码率选择评价网络时，同样可以选择以原始视频数据对应的视频质量信息和发送端与接收端之间的网络状况信息作为输入参数。或者，可以选择以原始视频数据对应的视频质量信息、原始视频数据的在先原始视频数据对应的编码视频数据的视频质量值和发送端与接收端之间的网络状况信息作为输入参数，后续在使用训练好的编码码率选择评价网络时，同样可以选择以原始视频数据对应的视频质量信息、原始视频数据的在先原始视频数据对应的编码视频数据的视频质量值和发送端与接收端之间的网络状况信息作为输入参数。

可选地，网络状况信息可以包括但不限于发送端发送在先原始视频数据的发送速率、接收端接收在先原始视频数据的接收速率、发送端与接收端传输在先原始视频数据的延迟变化信息、或者传输在先原始视频数据过程中产生的丢包率。

在实施中，发送端与接收端之间的网络状况信息可以包括多种类型的参数，也可以在训练编码码率选择评价网络时，适当调整网络状况信息包括的参数的类型，后续在使用训练好的编码码率选择评价网络时，同样可以选择以训练时使用的网络状况信息中的参数作为输入参数。

如图4所示，状态St包括原始视频数据对应的视频质量信息(也可称为未来视频质量)p、原始视频数据的在先原始视频数据对应的编码视频数据的视频质量值v(也可称为过去发送视频质量)、发送端发送在先原始视频数据的发送速率s(也可称为过去发送速率)、接收端接收在先原始视频数据的接收速率r(也可称为过去接收速率)、发送端与接收端传输在先原始视频数据的延迟变化信息d(也可称为过去延迟梯度)、以及传输在先原始视频数据过程中产生的丢包率l(也可称为过去丢包率)。可以将状态St记为{p；v；s；r；d；l}的集合。其中，在先视频数据可以包括过去的视频数据K序列。s为过去视频序列发送速率，等于来自发送端上行链路的吞吐量。

预先训练的编码码率选择评价网络也可称为VQRL，VQRL是神经网络，如图4所示，可以将过去发送视频质量、过去发送速率、过去接收速率、过去延迟梯度、过去丢包率输入到VQRL中，使用VQRL的1D-CNN提取上述数据的特征数据，同时还可以将未来视频质量输入到VQRL中，使用VQRL的全连接层对未来视频质量进行处理。在上述过程中，使用的卷积核可以是1×4，卷积核的数量为64个，全连接层的全连接数量可以是64个。本公开实施例对卷积核的结构和数量，还有全连接层的全连接数量不作限定，可以根据实际需求进行调整。

可以按照预设周期，确定状态St，则可以在多个时间点得到一组状态St。在图4中，S_t-k+1至S_t为每当到达预设周期时，采集的过去发送视频质量。V_t+1,0至V_t+1,n为每当到达预设周期时，确定的未来视频质量。s_t-k+1至s_t为每当到达预设周期时，采集的过去发送速率。r_t-k+1至r_t为每当到达预设周期时，采集的过去接收速率。d_t-k+1至d_t为过去延迟梯度。l_t-k+1至l_t为每当到达预设周期时，采集的过去丢包率。CNN为卷积层，FC为全连接层。MERGE为融合层。FFT.real和FFT.image依次为接收码率的快速傅里叶变换的实部和虚部。ActorNetwork和Critic Network依次为视频质量信息预测网络和对Actor Network的输出进行输出优劣程度评定的网络。Actor Network使用的训练函数为Policy(at|st；theta)，Critic Network使用的训练函数为v(st；theta)。

在上述过程中需要传输网络状况信息，还要传输编码视频数据，可以通过下述方法传输网络状况信息以及编码视频数据。可选地，网络状况信息包括发送端发送在先原始视频数据的发送速率、接收端接收在先原始视频数据的接收速率、发送端与接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率。获取发送端发送在先原始视频数据的发送速率。基于用户数据报协议(User DatagramProtocol，UDP)，通过预先建立的接收端网络状况反馈通道，接收接收端接收在先原始视频数据的接收速率、发送端和接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率。基于UDP，通过预先建立的视频数据传输通道，向其他电子设备发送基于目标编码码率进行编码的编码视频数据。

在实施中，可以基于UDP，传输网络状况信息以及编码视频数据。定义两条数据通道包括接收端网络状况反馈通道和视频数据传输通道。在先原始视频数据的发送速率是发送端本地存储的数据，可以直接从发送端本地获取。接收在先原始视频数据的接收速率、发送端和接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率是接收端采集的数据，接收端可以通过接收端网络状况反馈通道向发送端发送接收在先原始视频数据的接收速率、发送端和接收端传输在先原始视频数据的延迟变化信息、以及传输在先原始视频数据过程中产生的丢包率。在基于目标编码码率对原始视频数据进行编码之后，得到目标编码码率对应的编码视频数据，发送端还可以通过视频数据传输通道向其他电子设备发送目标编码码率对应的编码视频数据。

本公开实施例提供的视频编码方法，这种方法不仅可以适应现有的UDP直播场景，方便嵌入电子设备中。本公开实施例提供的视频编码方法，通过基于深度神经网络的视频质量预测网络，高维的原始视频数据可以有效压缩为视频质量信息，再通过视频质量深度强化学习网络对视频质量信息和网络状况信息进行综合评估，作出全局最优码率决策。本公开实施例提供的方法可以结合用户观看的视频质量和实际网络状况，从延迟、带宽利用率、用户体验等多方面做码率决策，有效地解决了传统自适应码率调整方法中策略过于单一、浪费网络资源、用户体验不佳等问题。本公开实施例提供的方法同时可以有效克服传统自适应码率调整方法中反应慢、用户体验不敏感、带宽资源浪费等缺点。本公开实施例提供的方法和传统自适应码率调整方法对比，本公开实施例提供的方法能够在传统自适应码率调整方法的基础上略微损失用户观看的视频质量的情况下，减少网络延迟23％至45％，降低网络带宽消耗18％至25％。

图5是根据一示例性实施例示出的一种视频编码装置的结构示意图，该视频编码装置包括：

预测模块510，被配置为基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息，其中，所述在先原始视频数据为在采集所述原始视频数据之前采集的视频数据，所述视频质量信息包括分别基于多种预设编码码率对所述原始视频数据进行编码得到的多个编码视频数据的视频质量值；

选择模块520，被配置为将所述视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；

确定模块530，被配置为基于所述码率评价信息，在所述各预设编码码率中确定目标编码码率；

编码模块540，被配置为基于所述目标编码码率，对所述原始视频数据进行编码。

可选地，所述预测模块510，被配置为：

可选地，所述预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络，所述选择模块520，被配置为：

所述装置还包括：

可选地，所述视频质量值为视频质量多装置评价融合VMAF值。

通过本公开实施例提供的装置，可以通过在采集原始视频数据之前采集的在先原始视频数据，预测原始视频数据对应的视频质量信息，根据视频质量信息和发送端与接收端之间的网络状况信息在多个预设编码码率中选择目标编码码率。基于目标编码码率对原始视频数据进行编码处理，可以在接收端的网络状况允许的情况下且在保证占用低网络带宽的情况下，使得编码视频数据的视频质量值最大化。这样，既可以保证编码视频数据的质量，又可以减小传输编码视频数据占用的网络带宽，合理利用了网络资源。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开再一示例性实施例提供了一种视频数据传输系统，所述系统包括发送端和接收端，其中：

关于上述实施例中的系统，其中发送端、接收端执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出了本公开一个示例性实施例提供的电子设备1900的结构示意图。该电子设备1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1910和一个或一个以上的存储器1920。其中，所述存储器1920中存储有至少一条指令，所述至少一条指令由所述处理器1910加载并执行以实现上述实施例所述的视频编码方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1920，上述指令可由电子设备1900的处理器1910执行以完成上述视频编码方法，该方法包括：基于原始视频数据对应的在先原始视频数据，预测原始视频数据对应的视频质量信息，其中，在先原始视频数据为在采集原始视频数据之前采集的视频数据，视频质量信息包括分别基于多种预设编码码率对原始视频数据进行编码得到的多个编码视频数据的视频质量值；将视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；基于码率评价信息，在各预设编码码率中确定目标编码码率；基于目标编码码率，对原始视频数据进行编码。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备1900的处理器1910执行，以完成上述视频编码方法，该方法包括：基于原始视频数据对应的在先原始视频数据，预测原始视频数据对应的视频质量信息，其中，在先原始视频数据为在采集原始视频数据之前采集的视频数据，视频质量信息包括分别基于多种预设编码码率对原始视频数据进行编码得到的多个编码视频数据的视频质量值；将视频质量信息和获取的发送端与接收端之间的网络状况信息，输入到预先训练的编码码率选择评价网络中，得到各预设编码码率对应的码率评价信息；基于码率评价信息，在各预设编码码率中确定目标编码码率；基于目标编码码率，对原始视频数据进行编码。可选地，上述指令还可以由电子设备1900的处理器1910执行以完成上述示例性实施例中所涉及的其他步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频编码方法，其特征在于，包括：

基于所述目标编码码率，对所述原始视频数据进行编码。

2.根据权利要求1所述的视频编码方法，其特征在于，所述基于原始视频数据对应的在先原始视频数据，预测所述原始视频数据对应的视频质量信息步骤包括：

3.根据权利要求2所述的视频编码方法，其特征在于，所述预先训练的视频质量信息预测网络包括第一子网络、第二子网络和第三子网络，所述将原始视频数据对应的在先原始视频数据，输入到预先训练的视频质量信息预测网络中，得到所述原始视频数据对应的视频质量信息步骤包括：

4.根据权利要求1所述的视频编码方法，其特征在于，所述网络状况信息包括所述发送端发送所述在先原始视频数据的发送速率、所述接收端接收所述在先原始视频数据的接收速率、所述发送端与所述接收端传输所述在先原始视频数据的延迟变化信息、或者传输所述在先原始视频数据过程中产生的丢包率中的至少一项。

5.根据权利要求4所述的视频编码方法，其特征在于，所述网络状况信息包括所述发送端发送所述在先原始视频数据的发送速率、所述接收端接收所述在先原始视频数据的接收速率、所述发送端与所述接收端传输所述在先原始视频数据的延迟变化信息、以及传输所述在先原始视频数据过程中产生的丢包率；

获取所述发送端发送所述在先原始视频数据的发送速率；

6.根据权利要求1-5中任一项所述的视频编码方法，其特征在于，所述视频质量值为视频质量多方法评价融合VMAF值。

7.一种视频编码装置，其特征在于，包括：

8.根据权利要求7所述的视频编码装置，其特征在于，所述预测模块，被配置为：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频编码方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频编码方法。