CN111901592B

CN111901592B - 预测编码神经网络权重更新方法及装置

Info

Publication number: CN111901592B
Application number: CN202010613236.8A
Authority: CN
Inventors: 马思伟; 林凯; 贾川民; 王苫社; 赵政辉
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-01-17
Anticipated expiration: 2040-06-30
Also published as: CN111901592A

Abstract

本申请公开了一种预测编码神经网络权重更新方法、装置及介质。本申请适用于基于神经网络的预测编码工具，包括帧内预测、帧间预测、以及预测后的增强等。由于视频前后帧存在的连续性，导致已编码帧与待处理帧在场景、纹理、内容的分布上存在着极高的相似性，因此在已编码数据中挖掘相关信息来调整网络参数可以使得神经网络定制化，十分有利于后续编码过程。另一方面，重构像素在编解码端都易获取，相比于预测像素，重构像素的客观质量更接近于原始像素，因此可以作为标签来反向微调神经网络的参数。

Description

预测编码神经网络权重更新方法及装置

技术领域

本申请中涉及视频编码技术，尤其是一种预测编码模块神经网络权重更新方法、装置及介质。

背景技术

如今广泛使用的视频编码标准普遍采用混合编码框架，包括预测、变换、量化、熵编码、环路滤波等模块。其中，预测模块旨在利用视频的时空相似性以降低数据冗余，即通过当前帧或者相邻帧的参考像素推断得到预测像素。近年来由于深度学习的发展，基于神经网络的预测编码包括预测后增强、帧内/帧间预测等工作不断涌现。神经网络在大规模训练集收敛后而后被嵌入到编码环境中，对预测结果增强或者由参考像素推断预测像素。

然而，现有工作设计的神经网络在编码过程中的权重是固定不变的，视频数据的压缩则是一个持续的过程，由于前后帧在时空域存在着连续性，已编码数据中存在着大量有效信息供神经网络学习与调整。

发明内容

本申请实施例提供一种预测编码神经网络权重更新方法、装置、电子设备及介质，本申请实施例用于解决相关技术中存在的神经网络在编码过程中的权重固定不变的所导致的预测结果不精准的问题。

其中，根据本申请实施例的一个方面，提供的一种预测编码神经网络权重更新方法，包括：

借助于神经网络，根据原始像素生成预测像素或得到预测像素后进一步增强；

以所述重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新。

可选地，在基于本申请上述方法的另一个实施例中，所述根据原始像素生成预测像素，包括：

利用神经网络在帧内预测模块，或，使用帧间预测模块导出所述预测像素；

可选地，在基于本申请上述方法的另一个实施例中，所述增强预测像素，包括：

利用预设的神经网络模型以及参考像素，增强所述预测像素。

可选地，在基于本申请上述方法的另一个实施例中，

在神经网络预测任务中，以所述重构像素为标签，将参考像素作为输入实现预测编码神经网络权重的更新；或，

在神经网络增强任务中，以所述重构像素为标签，将所述预测像素作为输入实现预测增强神经网络权重的更新。

可选地，在基于本申请上述方法的另一个实施例中，

将所述预测像素或者所述参考像素划分为目标数量个大小相同的像素块；

将所述目标数量个大小相同的像素块以组的形式输入至所述编码神经网络中，以所述重构像素为标签计算损失函数进行反向传播权重更新。

可选地，在基于本申请上述方法的另一个实施例中，

对所述重构像素进行环路滤波处理后，以所述重构像素为标签，实现预测编码神经网络权重在线更新。

可选地，在基于本申请上述方法的另一个实施例中，框架具体应用场景包括亮度分量以及色度分量。

可选地，在基于本申请上述方法的另一个实施例中，神经网络权重微调时包括但不限于更新卷积层、池化层、激活层等的权重。

可选地，在基于本申请上述方法的另一个实施例中，神经网络权重微调时包括更新所有层权重与只更新某几层权重。

可选地，在基于本申请上述方法的另一个实施例中，神经网络微调时的优化器包括但不限于Adam,SGD。

可选地，在基于本申请上述方法的另一个实施例中，神经网络微调时参数包括学习率、迭代次数、优化器设置等由编解码器统一设置或作为语法元素写入码流。

其中，根据本申请实施例的一个方面，提供的一种预测编码神经网络权重更新装置，包括：

获取模块，被设置为借助于神经网络，根据原始像素生成预测像素或得到预测像素后进一步增强；

更新模块，被设置为以所述重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述预测编码神经网络权重更新方法的操作。

本申请适用于基于神经网络的预测编码工具，包括帧内预测、帧间预测、以及预测后的增强等。由于视频前后帧存在的连续性，导致已编码帧与待处理帧在场景、纹理、内容的分布上存在着极高的相似性，因此在已编码数据中挖掘相关信息来调整网络参数可以使得神经网络定制化，十分有利于后续编码过程。另一方面，重构像素在编解码端都易获取，相比于预测像素，重构像素的客观质量更接近于原始像素，因此可以作为标签来反向微调神经网络的参数。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请提出的一种预测编码神经网络权重更新方法的示意图；

图2为本申请提出的基于神经网络的预测增强的流程示意图；

图3为本申请提出的基于神经网络的帧内预测/帧间预测的流程示意图；

图4为本申请提出的一种在不同量化步长下以重构值更新预测增强网络参数的变化示意图；

图5为本申请提出的又一种在不同量化步长下以重构值更新预测增强网络参数的变化示意图；

图6为本申请预测编码神经网络权重更新的电子装置的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图5来描述根据本申请示例性实施方式的用于进行预测编码神经网络权重更新方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种预测编码神经网络权重更新方法、装置、目标终端及介质。

图1示意性地示出了根据本申请实施方式的一种预测编码神经网络权重更新方法的流程示意图。如图1所示，该方法包括：

S101，借助于神经网络，根据原始像素生成预测像素或得到预测像素后进一步增强。

首先，本申请属于数字信号处理领域，用于视频压缩算法。主要针对基于神经网络的预测编码提出一种权重在线更新的框架，具体来说即在编码过程中利用已编码的数据修正神经网络的权重从而提升神经网络的有效性。

S102，以重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新。

进一步的，在以混合编码框架为基础的视频编码标准中，编码器首先根据参考像素导出预测像素，随后计算与真实像素之间的差值得到残差像素像素，残差像素经历变换、量化、反量化、反变换等一系列环节与预测像素相加得到重构像素。

其中，由于量化过程中损失了部分高频信息，使得重构像素的质量发生退化，纹理、边缘等细节丢失的程度随着量化步长的增大而上升。但与预测像素和参考像素相比，退化后的重构像素仍然更接近于真实值，因此本申请以退化后的重构像素为标签在编解码过程中在线调整神经网络权重。

其中，本申请中可以利用面向基于神经网络的预测编码模型，在编码过程中在线的调整神经网络的权重。另外，框架具体应用场景包括但不限于基于神经网络的帧内/帧间预测，预测后增强等相关工作。

具体的，本申请在进行网络权重更新时可以以预测像素或者参考像素为输入，重构像素为标签进行网络权重更新。可以理解的，神经网络权重更新位于每帧编码环路的最后一个环节。且神经网络权重更新时包括但不限于更新卷积层、池化层、激活层等的权重。

需要说明的是，本申请中在实现神经网络权重更新时包括更新所有层权重，或者，只更新其中若干层的权重。具体来说，还可以看将预测像素或者参考像素划分为若干个大小相同的像素块作为权重微调时神经网络的输入，像素块划分后以组的形式输入神经网络进行推理，并计算损失函数进行反向传播权重微调，每组的像素块的个数不限。

其中，神经网络权重更新的方式采用梯度下降，具体的优化器可以选择为SGD、Adam等常见优化器，学习率、迭代步数、优化器设置等必要参数可由编解码端统一设置或写到码流中。更新过程以重构块作为标签，损失函数可以选择为L1，L2，SSIM，SATD等。

进一步的，反向传播与梯度下降的基本工作原理为：首先对模型进行初始化，进而开始对数据正向计算，并在损失函数基础上向着损失最小的点靠近为目标去指引网络权重更新的方向，其中反向传播把损失值反向传给神经网络的每一层，让每一层都根据损失值反向调整权重，直至精度结果达到预设条件为止。

可选的，在本申请一种可能的实施方式中，可以通过下述步骤实现：

利用神经网络在帧内预测模块，或，使用帧间预测模块导出预测像素；

增强预测像素，包括：利用预设的神经网络模型以及参考像素，增强预测像素。

可选的，在神经网络预测任务中，以重构像素为标签，将参考像素作为输入实现预测编码神经网络权重的更新；或，

在神经网络增强任务中，以重构像素为标签，将预测像素作为输入实现预测增强神经网络权重的更新。

可选的，将预测像素或者参考像素划分为目标数量个大小相同的像素块；

将目标数量个大小相同的像素块以组的形式输入至编码神经网络中，以重构像素为标签计算损失函数进行反向传播权重更新。

可选的，对重构像素进行环路滤波处理后，以重构像素为标签，实现预测编码神经网络权重在线更新。

可选的，框架具体应用场景包括亮度分量以及色度分量。

可选的，神经网络权重微调时包括但不限于更新卷积层、池化层、激活层等的权重。

可选的，神经网络权重微调时包括更新所有层权重与只更新某几层权重。

可选的，神经网络微调时的优化器包括但不限于Adam,SGD等。

可选的，神经网络微调时参数包括学习率、迭代次数、优化器设置等由编解码器统一设置或作为语法元素写入码流。

其中，本申请面向神经网络的预测编码模块，以在大规模数据集上针对预测模块任务训练收敛的神经网络为基础。本申请分为编码端和解码端两个部分，两端以相同的数据以及反向传播方式同步更新神经网络权重，以保证编解码端输出的一致性。

进一步的，本申请实例提出了一种权重在线更新的神经网络预测编码框架，目的是利用视频序列前后帧分布的相似性来在编码过程中在线调整神经网络的权重，使得神经网络的输出符合该视频序列的纹理和细节等特性。本申请利用已编码的重构信息作为标签来反向传播，实现了权重的在线更新，并且在编解码端以相同的方式更新神经网络权重以保证编解码的一致性。本申请主要应用场景为视频压缩中的预测模块，如图2以及图3所示，包括基于神经网络的帧内预测/帧间预测，预测后增强等相关工作。

进一步的，本申请可以利用Adam优化算法或是SGD优化算法来时实现预测编码神经网络权重在线更新。其中，Adam优化算法(Adam optimization algorithm)是随机梯度下降算法的扩展式，其广泛用于深度学习应用中，尤其是计算机视觉和自然语言处理等任务。

其中，Adam优化算法是一种在深度学习模型中用来替代随机梯度下降的优化算法。其结合了深度学习优化算法最优的性能，它还是能提供解决稀疏梯度和噪声问题的优化方法。而且，Adam的调参相对简单，默认参数就可以处理绝大部分的问题。具体的，Adam优化算法是的参数包括：alpha：同样也称为学习率或步长因子，它控制了权重的更新比率(如0.001)。较大的值(如0.3)在学习率更新前会有更快的初始学习，而较小的值(如1.0E-5)会令训练收敛到更好的性能。β1：一阶矩估计的指数衰减率(如0.9)。β2：二阶矩估计的指数衰减率(如0.999)。该超参数在稀疏梯度(如在NLP或计算机视觉任务中)中应该设置为接近1的数。е：该参数是非常小的数，其为了防止在实现中除以零(如10E-8)。

SGD随机梯度下降算法(Stochastic Gradient Descent),是每一次迭代中每个样本分别进行计算,梯度算法的最终目标是减少cost值,训练出最优的参数值,相较于GD每一次迭代都让所有样本去优化参数,一次迭代进行一次优化,SGD一次只让一个样本去优化参数。

更进一步的，权重更新环节位于当前帧编码环路的最后一步。在进行权重更新时首先将预测像素或者参考像素划分为若干个大小相等的像素块，尺寸相同的若干个像素块堆叠组成一组张量作为网络的输入。其中每组像素块的数量由编解码器预先统一设置或者作为语法元素写入到码流中。

神经网络权重更新的方式采用梯度下降，具体的优化器可以选择为SGD、Adam等常见优化器，学习率、迭代步数、优化器设置等必要参数可由编解码端统一设置或写到码流中。更新过程以重构块作为标签，损失函数可以选择为L1，L2，SSIM，SATD等等。

需要说明的是，本申请不对目标数量做具体限定，例如可以为2个，也可以为5个等等。

本事情以权重在线更新的方式进一步提升了神经网络在预测编码模块的有效性，与网络权重固定的方式相比压缩效率大大提升。图4与图5展示了在不同量化步长下以重构值更新预测增强网络参数的变化，随着梯度更新迭代次数的增加，网络在离线环境中测试集的客观质量不断上升，验证了本申请的有效性。

在本申请的另外一种实施方式中，如图6所示，本申请还提供一种预测编码神经网络权重更新的装置。其中，该装置包括获取模块301，更新模块302，其中，

获取模块301，被设置为借助于神经网络，根据原始像素生成预测像素或得到预测像素后进一步增强；

更新模块302，被设置为以重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为利用神经网络在帧内预测模块，或，使用帧间预测模块导出预测像素；

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为利用预设的神经网络模型以及参考像素，增强预测像素。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为在神经网络预测任务中，以重构像素为标签，将参考像素作为输入实现预测编码神经网络权重的更新；或，

更新模块302，被配置为在神经网络增强任务中，以重构像素为标签，将预测像素作为输入实现预测增强神经网络权重的更新。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为将预测像素或者参考像素划分为目标数量个大小相同的像素块；

更新模块302，被配置为将目标数量个大小相同的像素块以组的形式输入至编码神经网络中，以重构像素为标签计算损失函数进行反向传播权重更新。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为对重构像素进行环路滤波处理后，以重构像素为标签，实现预测编码神经网络权重在线更新。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为框架具体应用场景包括亮度分量以及色度分量。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为神经网络权重微调时包括但不限于更新卷积层、池化层、激活层等的权重。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为神经网络权重微调时包括更新所有层权重与只更新某几层权重。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为神经网络微调时的优化器包括但不限于Adam,SGD等。

在本申请的另一种实施方式中，更新模块302，还包括：

更新模块302，被配置为神经网络微调时参数包括学习率、迭代次数、优化器设置等由编解码器统一设置或作为语法元素写入码流。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种预测编码神经网络权重更新方法，其特征在于，包括：

以重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新；

其中，在神经网络预测任务中，以所述重构像素为标签，将参考像素作为输入实现预测编码神经网络权重的更新；或，

2.如权利要求1所述的方法，其特征在于，所述根据原始像素生成预测像素，包括：

利用神经网络在帧内预测模块，或，使用帧间预测模块导出所述预测像素。

3.如权利要求1所述的方法，其特征在于，所述增强预测像素，包括：

4.如权利要求1所述的方法，其特征在于，包括：

5.如权利要求1所述的方法，其特征在于，包括：

6.根据权利要求1所述方法，其特征在于，框架具体应用场景包括亮度分量以及色度分量。

7.根据权利要求1所述方法，其特征在于，神经网络权重微调时包括但不限于更新卷积层、池化层、激活层等的权重。

8.根据权利要求1所述方法，其特征在于，神经网络权重微调时包括更新所有层权重与只更新某几层权重。

9.根据权利要求1所述方法，其特征在于，神经网络微调时的优化器包括但不限于Adam,SGD。

10.根据权利要求1所述方法，其特征在于，神经网络微调时参数包括学习率、迭代次数、优化器设置，由编解码器统一设置或作为语法元素写入码流。

11.一种预测编码神经网络权重更新的装置，其特征在于，包括：

更新模块，被设置为以重构像素为标签，编解码端实现预测编码模块神经网络权重的同步更新；

12.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-10中任一所述预测编码神经网络权重更新的方法的操作。