CN117939154A

CN117939154A - 一种基于可扩展编码模式的前向纠错优化方法及系统

Info

Publication number: CN117939154A
Application number: CN202410044563.4A
Authority: CN
Inventors: 颜斌; 黄振江
Original assignee: Guangzhou Tongze Kangwei Technology Co ltd
Current assignee: Guangzhou Tongze Kangwei Technology Co ltd
Priority date: 2023-10-17
Filing date: 2024-01-11
Publication date: 2024-04-26

Abstract

本发明公开了一种基于可扩展编码模式的前向纠错优化方法及系统，接收用户的视频数据，对视频数据进行可扩展视频编码，得到多个视频帧，利用预设FEC编码模型通过编码器缓存视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，进而得到第一数据包，将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，重复此步骤直到视频帧发送完，本方法通过动态调整动作值对视频数据进行传输，避免了过大的冗余传输，节约带宽资源，减少了因为增加FEC处理开销带来的额外延迟。

Description

一种基于可扩展编码模式的前向纠错优化方法及系统

技术领域

本发明涉及视频编码处理技术领域，尤其涉及一种基于可扩展编码模式的前向纠错优化方法及系统。

背景技术

在实时视频流中，数据包通过网络从发送端传输到接收端。接收到的视频质量会随着网络条件的变化而波动，当有大量丢包时，视频质量会大幅下降。前向纠错(FEC)技术可以通过合并冗余数据来恢复丢失的数据包。当采用可扩展视频编码(SVC)时，通过考虑SVC的参考图像结构，并在使用FEC冗余时增加参考图像的权重，克服了传统方案的缺点。但是这种方案集中在SVC模式的采用固定滑动窗口大小编码，忽略了滑动窗口大小对速率的复杂交互作用及对用户QoE的影响。然而，确定FEC滑动窗口大小的最佳值是一个重大挑战，因为FEC如果被滥用，还会增加延迟或损害视频质量。更具体地说，FEC适用于在丢包情况下恢复数据包，而不会产生额外的数据包恢复往返时间。但如果过度使用，则会显著降低用户QoE，因为较大的FEC部分会大大降低有效视频速率，从而导致视频质量差。此外，它还会增加FEC处理开销带来的额外延迟。

在实时视频流中，FEC方案可分为帧级FEC、GOP级FEC、扩展窗口FEC和滑动窗口FEC。但是在帧级执行Reed-Solomon(RS)编码，当每帧产生的源视频包数量较少时，FEC的效率较低。此外，当前帧的恢复报文不能帮助恢复前一帧的丢失报文，前一帧的失真可能会传播到当前帧和后续帧；在GOP级FEC中，GOP级FEC会带来额外的解码延迟，因为必须收集GOP中的所有视频帧进行FEC解码，这在实时视频流中是不可接受的；在扩展窗口FEC中，编码窗口大小在一个GOP内呈线性增加；在实际实现中，当GOP的大小足够大时，计算成本和解码延迟都相当高，限制了扩窗FEC在实时视频流中的应用；在SVC中，视频帧被分成几层:基础层和一个或多个增强层。通过分层视频编码，SVC可以适应不同的终端功能和终端用户的需求，并在网络条件变化时提供不同的层信息。但是，采用SVC时，帧依赖关系也发生了变化，不再是简单的一维时间顺序逐帧依赖关系，这就导致了时间顺序滑动窗口FEC不是最优的；适用SVC模式下的基于参考图像结构的编码窗口管理机制重点是可以在SVC模式下应用的FEC编码，最大编码窗口T是恒定不变的，忽略了这种FEC机制对速率控制的复杂交互作用及其对用户QoE的影响。

发明内容

为了解决上述技术问题，本发明实施例提供了一种基于可扩展编码模式的前向纠错优化方法及系统，通过动态调整动作值对视频数据进行传输，避免了过大的冗余传输，节约带宽资源，减少了因为增加FEC处理开销带来的额外延迟。

本发明实施例的第一方面提供了一种基于可扩展编码模式的前向纠错优化方法，所述方法包括：

接收用户的视频数据；

对视频数据进行可扩展视频编码，得到多个视频帧，其中，多个视频帧包括基础层码流帧和增强层码流帧；

将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包；

将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值；

将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完。

实施本实施例，接收用户的视频数据，对视频数据进行可扩展视频编码，得到多个视频帧，将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包，将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值，将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完，本方法通过动态调整动作值对视频数据进行传输，避免了过大的冗余传输，节约带宽资源，减少了因为增加FEC处理开销带来的额外延迟。

在第一方面的一种可能的实现方式中，预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，具体为：

编码器缓存第一视频帧后，根据初始动作值反向搜索寻找第一视频对应的目标参考帧；

利用所述目标参考帧构建编码窗口，当编码窗口大于初始动作值时或寻找到第一视频帧对应的参考帧时，停止反向搜索，得到第一视频帧对应的参考帧。

在第一方面的一种可能的实现方式中，利用目标参考帧构建编码窗口，具体为：

将所有目标参考帧按照目标参考帧的生成时间顺序进行排列，得到排列结果；

选择排列结果中预设个数的帧和第一视频帧构建编码窗口。

在第一方面的一种可能的实现方式中，根据状态空间信息更新初始动作值，得到更新后的动作值，具体为：

将状态空间信息进行数据归一化处理，得到归一化后的状态空间信息；

将归一化后的状态空间信息输入预设FEC编码模型，得到更新后的动作值。

本发明实施例的第二方面提供了一种基于可扩展编码模式的前向纠错优化系统，系统包括：

接收模块，用于接收用户的视频数据；

编码模块，用于对视频数据进行可扩展视频编码，得到多个视频帧，其中，多个视频帧包括基础层码流帧和增强层码流帧；

第一数据包发送模块，用于将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包；

更新模块，用于将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值；

第二数据包发送模块，将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完。

在第二方面的一种可能的实现方式中，预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，具体为：

在第二方面的一种可能的实现方式中，利用目标参考帧构建编码窗口，具体为：

将所有目标参考帧按照所述目标参考帧的生成时间顺序进行排列，得到排列结果；

选择排列结果中预设个数的帧和第一视频帧构建编码窗口。

在第二方面的一种可能的实现方式中，根据状态空间信息更新初始动作值，得到更新后的动作值，具体为：

本发明实施例的第三方面提供了一种基于可扩展编码模式的前向纠错优化设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如本发明实施例所示的基于可扩展编码模式的前向纠错优化方法。

本发明实施例的第四方面提供了一种存储介质，存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例所示的基于可扩展编码模式的前向纠错优化方法。

附图说明

图1：为本发明提供的基于可扩展编码模式的前向纠错优化方法一种实施例的流程示意图；

图2：为本发明提供的基于可扩展编码模式的前向纠错优化方法一种实施例的FEC优化架构示意图；

图3：为本发明提供的基于可扩展编码模式的前向纠错优化方法一种实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的基于可扩展编码模式的前向纠错优化方法的一种实施例的流程示意图，包括步骤S11～S15，各步骤具体如下：

S11、接收用户的视频数据。

在本实施例中，获取来自发送者的视频流。

S12、对视频数据进行可扩展视频编码，得到多个视频帧，其中，多个视频帧包括基础层码流帧和增强层码流帧。

在本实施例中，如图2所示，对视频采用SVC可扩展编码，将视频流分割成基础层和增强层，然后采用基于参考帧的滑动窗口FEC编码方案对分割后的视频帧进行编码。

S13、将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包。

在优选的实施例当中，预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，具体为：

利用目标参考帧构建编码窗口，当编码窗口大于初始动作值时或寻找到第一视频帧对应的参考帧时，停止反向搜索，得到第一视频帧对应的参考帧。

在优选的实施例当中，利用目标参考帧构建编码窗口，具体为：

选择排列结果中预设个数的帧和第一视频帧构建编码窗口。

在本实施例中，当一个新的帧被生成并传递给基于参考图像的滑动窗口FEC时，编码器缓存帧并获得它的参考帧。同时，通过上述基于强化学习的最大编码窗口T预测模型，FEC控制器会获得预测值T’，并将其作为此FEC编码进程中的参考值。在FEC编码过程中，通过反向搜索找到当前帧的参考帧，并将所有参考帧添加到编码窗口中。当编码窗口超过最大窗口T’或发现内部帧时，向后搜索停止。按照这种方法加上FEC冗余信息经过数据包平滑发送模块，打包成RTP数据包。随后，RTP报文从发送方发送到接收方接收。然后，这些RTP数据包在接收缓冲区中进行处理，以检查数据包的顺序和时间戳、帧边界等。一旦帧重建完成，它被发送到解码器显示在用户的屏幕上。

反向搜索的过程为：首先确定当前帧，选择当前帧之前的若干帧进行搜索，搜索当前帧的参考帧，将所有参考帧按照他们的生成时间顺序进行排列。然后，为了进行FEC编码，FEC编码器从排队序列中选择最后的T’-1帧，与当前帧构建编码窗口。参考帧包括直接参考帧和间接参考帧。

基于强化学习的模型建模依赖马尔科夫决策过程，定义其四元组组<状态S,动作A,奖励函数R,状态转移函数T>，具体情况如下：

状态空间：状态空间定义为传输层的各项指标信息，包括丢包率(loss rate，记为l)、包时延(delay，记为d)，实际编码速率(encoder bitrate，记为b)。此外，为了将各个指标约束到相同数据级别，将所有指标首先进行数据归一化处理，然后将其作为模型的输入，以避免异常值的干扰，影响神经网络的正常训练以及梯度更新。

奖励函数：此奖励函数主要涉及关乎视频质量的重要指标：视频码率(记为v)、时延(记为d)，以及帧率(记为f)。上述3种指标通过合理的超参数调整，如对视频码率及帧率给予正向奖励(奖励因子)，对视频缓冲时延给予负向惩罚(惩罚因子)，然后进行加权综合，强化学习的奖励函数为：

式中，α、β分别为视频码率和是奖励因子，γ是惩罚因子，v为视频码率，f为帧率，d为时延。

动作空间：将连续动作空间定义为FEC最大编码窗口T的预测值，输出范围为A＝[T_min,T_max]，具体值为此空间内的任一离散数值。

S14、将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值。

在优选的实施例当中，根据状态空间信息更新初始动作值，得到更新后的动作值，具体为：

在本实施例中，将状态空间输入给神经网络模型，算法会根据当前策略生成较优的最大编码窗口动作值T，此动作值会传输到发送端作为下一阶段的视频发送速率，继而模型会生成此次反馈的奖励函数值，用来判断上一次动作的收益情况，如若收益值较大，模型将会倾向于生成此类较优策略；如若收益值较小或者为负值，模型的参数训练则会避免生成类似动作。

上述阶段循环往复，在训练一定规模的数据集并拥有较多的经验之后，则会演变为一个能够合理预测网络带宽的最大编码窗口T预测模型。

S15、将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完。

在本实施例中，在发送一个帧后，继续发送一下个帧，并将帧传递给基于参考图像的滑动窗口FEC时，编码器缓存帧并获得它的参考帧。同时，通过上述基于强化学习的最大编码窗口T预测模型，FEC控制器会获得预测值T’，并将其作为此FEC编码进程中的参考值，然后通过反向搜索找到当前帧的参考帧，并将所有参考帧添加到编码窗口中。当编码窗口超过最大窗口T’或发现内部帧时，向后搜索停止。最后，再加上FEC冗余信息经过数据包平滑发送模块，打包成RTP数据包。随后，RTP报文从发送方发送到接收方接收。RTP数据包在接收缓冲区中进行处理，以检查数据包的顺序和时间戳、帧边界等。一旦帧重建完成，它被发送到解码器显示在用户的屏幕上。

需要说明的是，在发送帧时根据实际需要选取视频帧发送。

在适用SVC模式下的基于参考图像结构的编码窗口管理机制上，引入强化学习算法，不仅可以保证原有SVC技术的多路分发的优势，还可以通过强化学习分析历史数据，网络状况、传输质量等因素，来推测不同的情况下最适合的FEC最大编码窗口，避免过大的冗余传输，从而节约带宽资源。

实施例二

相应地，参见图3，图3是本发明提供的一种基于可扩展编码模式的前向纠错优化系统，如图所示，该基于可扩展编码模式的前向纠错优化系统包括：

接收模块301，用于接收用户的视频数据；

编码模块302，用于对视频数据进行可扩展视频编码，得到多个视频帧，其中，多个视频帧包括基础层码流帧和增强层码流帧；

第一数据包发送模块303，用于将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包；

更新模块304，用于将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值；

第二数据包发送模块305，将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完。

将所有目标参考帧添加到编码窗口，当编码窗口大于初始动作值时或寻找到第一视频帧对应的参考帧时，停止反向搜索，得到第一视频帧对应的参考帧。

选择排列结果中预设个数的帧和第一视频帧构建编码窗口。

相应地，本发明提供的基于可扩展编码模式的前向纠错优化设备，包括：处理器和存储器，

存储器中存储有计算机程序，且计算机程序被配置为由处理器执行，处理器执行如本申请的实施例一所示的基于可扩展编码模式的前向纠错优化方法对应的操作。

相应地，本发明提供了一种存储介质，存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所示的基于可扩展编码模式的前向纠错优化方法的步骤。

本实施例更详细的工作原理和步骤流程可以但不限于参见实施例一的相关记载。

综上所述，实施本发明的实施例，具有如下有益效果：

接收用户的视频数据，对视频数据进行可扩展视频编码，得到多个视频帧，将多个视频帧的第一视频帧输入到预设FEC编码模型中，以使预设FEC编码模型通过编码器缓存第一视频帧，根据第一视频帧和初始动作值得到第一视频帧对应的参考帧，根据第一视频帧、参考帧和FEC冗余信息得到第一数据包，将第一数据包发送至接收端后，接收接收端发送的状态空间信息，根据状态空间信息更新初始动作值，得到更新后的动作值，将多个视频帧的第二视频帧输入预设FEC编码模型中，根据预设FEC编码模型和更新后的动作值对第二视频帧进行编码，得到第二数据包，将第二数据包发送至接收端并更新更新后的动作值，得到新动作值，根据新动作值对多个视频帧中的第N视频帧进行编码，重复此步骤直到视频帧发送完，本方法通过动态调整动作值对视频数据进行传输，避免了过大的冗余传输，节约带宽资源，减少了因为增加FEC处理开销带来的额外延迟。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可扩展编码模式的前向纠错优化方法，其特征在于，包括：

接收用户的视频数据；

对所述视频数据进行可扩展视频编码，得到多个视频帧，其中，所述多个视频帧包括基础层码流帧和增强层码流帧；

将所述多个视频帧的第一视频帧输入到预设FEC编码模型中，以使所述预设FEC编码模型通过编码器缓存所述第一视频帧，根据所述第一视频帧和初始动作值得到所述第一视频帧对应的参考帧，根据所述第一视频帧、所述参考帧和FEC冗余信息得到第一数据包；

将所述第一数据包发送至接收端后，接收所述接收端发送的状态空间信息，根据所述状态空间信息更新所述初始动作值，得到更新后的动作值；

将所述多个视频帧的第二视频帧输入所述预设FEC编码模型中，根据所述预设FEC编码模型和所述更新后的动作值对所述第二视频帧进行编码，得到第二数据包，将所述第二数据包发送至接收端并更新所述更新后的动作值，得到新动作值，根据所述新动作值对所述多个视频帧中的第N视频帧进行编码，重复此步骤直到所述视频帧发送完。

2.如权利要求1所述的基于可扩展编码模式的前向纠错优化方法，其特征在于，所述预设FEC编码模型通过编码器缓存所述第一视频帧，根据所述第一视频帧和初始动作值得到所述第一视频帧对应的参考帧，具体为：

编码器缓存所述第一视频帧后，根据所述初始动作值反向搜索寻找所述第一视频对应的目标参考帧；

利用所述目标参考帧构建编码窗口，当所述编码窗口大于初始动作值时或寻找到所述第一视频帧对应的参考帧时，停止反向搜索，得到所述第一视频帧对应的参考帧。

3.如权利要求2所述的基于可扩展编码模式的前向纠错优化方法，其特征在于，所述利用所述目标参考帧构建编码窗口，具体为：

选择所述排列结果中预设个数的帧和所述第一视频帧构建编码窗口。

4.如权利要求1所述的基于可扩展编码模式的前向纠错优化方法，其特征在于，所述根据所述状态空间信息更新所述初始动作值，得到更新后的动作值，具体为：

将所述状态空间信息进行数据归一化处理，得到归一化后的状态空间信息；

将所述归一化后的状态空间信息输入所述预设FEC编码模型，得到更新后的动作值。

5.一种基于可扩展编码模式的前向纠错优化系统，其特征在于，包括：

接收模块，用于接收用户的视频数据；

编码模块，用于对所述视频数据进行可扩展视频编码，得到多个视频帧，其中，所述多个视频帧包括基础层码流帧和增强层码流帧；

第一数据包发送模块，用于将所述多个视频帧的第一视频帧输入到预设FEC编码模型中，以使所述预设FEC编码模型通过编码器缓存所述第一视频帧，根据所述第一视频帧和初始动作值得到所述第一视频帧对应的参考帧，根据所述第一视频帧、所述参考帧和FEC冗余信息得到第一数据包；

更新模块，用于将所述第一数据包发送至接收端后，接收所述接收端发送的状态空间信息，根据所述状态空间信息更新所述初始动作值，得到更新后的动作值；

第二数据包发送模块，将所述多个视频帧的第二视频帧输入所述预设FEC编码模型中，根据所述预设FEC编码模型和所述更新后的动作值对所述第二视频帧进行编码，得到第二数据包，将所述第二数据包发送至接收端并更新所述更新后的动作值，得到新动作值，根据所述新动作值对所述多个视频帧中的第N视频帧进行编码，重复此步骤直到所述视频帧发送完。

6.如权利要求5所述的基于可扩展编码模式的前向纠错优化系统，其特征在于，所述预设FEC编码模型通过编码器缓存所述第一视频帧，根据所述第一视频帧和初始动作值得到所述第一视频帧对应的参考帧，具体为：

7.如权利要求6所述的基于可扩展编码模式的前向纠错优化系统，其特征在于，所述利用所述目标参考帧构建编码窗口，具体为：

8.如权利要求5所述的基于可扩展编码模式的前向纠错优化系统，其特征在于，所述根据所述状态空间信息更新所述初始动作值，得到更新后的动作值，具体为：

9.一种基于可扩展编码模式的前向纠错优化设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的基于可扩展编码模式的前向纠错优化方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于可扩展编码模式的前向纠错优化方法的步骤。