CN112702604B

CN112702604B - 用于分层视频的编码方法和装置以及解码方法和装置

Info

Publication number: CN112702604B
Application number: CN202110316707.3A
Authority: CN
Inventors: 何刚; 于冰; 戴宇荣; 闻兴
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-29
Anticipated expiration: 2041-03-25
Also published as: CN112702604A

Abstract

本公开提供了一种分层视频编码方法和装置以及分层视频解码方法和装置，其中，所述分层视频编码方法包括：获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；使用卷积神经网络基于当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；使用质量增强的内层视频帧作为层间参考视频帧来执行针对当前增强层视频帧的运动预测。

Description

用于分层视频的编码方法和装置以及解码方法和装置

技术领域

本公开涉及视频编解码技术领域，尤其涉及一种用于分层视频的编码方法和装置、解码方法和装置、电子设备及计算机可读存储介质。

背景技术

高效视频编码标准（HEVC/H.265）是一种在传输视频过程中降低视频冗余数据的有效手段，可大大节省网络带宽，减少传输压力，适应更为广泛的传输条件。可分级视频编码（SHVC），作为HEVC的扩展技术，是为了适应IP网络的异构、波动和拥塞而采用的一种高效、强鲁棒性的视频编码技术。该技术将一个基本层和若干增强层看成一个多层视频系统，对单一视频序列产生若干层高低有序的压缩码流。SHVC可通过利用单层高效视频编码的编解码器，并添加内层层间参考图像处理模块构建实现，其中，内层参考为增强层的编码效率提升提供了基础。

在采用低码率编码视频帧时，编解码后的图像与原始视频帧相比具有视频压缩编码损伤，主观上表征为较明显的图像失真。作为深度学习网络中的一种，残差卷积神经网络由于具有卷积层和残差连接等结构，能够很好地提取图像压缩过程中丢失的高频信息，可在保留图像细节的前提下完成视频帧的编码损伤修复，进而实现增强层编码效率的提升。

相关技术的SHVC大致可以分为两类：1）提升编码预测准确度；2）提升编码参考帧质量。但是现有技术还没有将深度学习应用于质量可分级视频编码效率提升上，目前还停留在手工统计数据规律后人为设计算法来提升内层参考视频帧质量，提升效果有限且低效。由于深度神经网络强大的特征提取与重建能力，可以利用深度神经网络来提升质量可分级的内层视频帧质量，进而提升视频帧编解码效率。

发明内容

本公开提供一种分层视频编码方法，其特征在于，包括：获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；使用卷积神经网络基于当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；使用质量增强的内层视频帧作为层间参考视频帧来执行针对当前增强层视频帧的运动预测。

根据本公开的第一方面，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

根据本公开的第一方面，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

根据本公开的第一方面，所述生成具有运动修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的第一方面，所述生成具有压缩损伤修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的第一方面，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

根据本公开的第一方面，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

根据本公开的第一方面，所述使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征包括：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的第一方面，所述使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征包括：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的第一方面，所述对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征包括：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的第一方面，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

根据本公开的第二方面，提供了一种分层视频编码装置，包括：输入模块，被配置为获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；质量增强模块，被配置为使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；运动预测模块，被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动预测。

根据本公开的第二方面，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

根据本公开的第二方面，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前先前重建的增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

根据本公开的第二方面，所述卷积神经网络被配置为通过以下操作来生成具有运动修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的第二方面，所述卷积神经网络被配置为通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的第二方面，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

根据本公开的第二方面，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

根据本公开的第二方面，所述卷积神经网络被配置为通过以下操作来执行压缩损伤修复以得到精细化的运动修复特征：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的第二方面，所述卷积神经网络被配置为通过以下操作来执行运动修复以得到精细化的压缩损伤修复特征：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的第二方面，所述卷积神经网络通过以下操作来生成融合后的内层视频帧特征：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的第二方面，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

根据本公开的第三方面，提供了一种分层视频解码方法，所述方法包括：获取分层视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿。

根据本公开的第三方面，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

根据本公开的第三方面，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前先前重建的增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

根据本公开的第三方面，所述生成具有运动修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的第三方面，所述生成具有压缩损伤修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的第三方面，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

根据本公开的第三方面，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

根据本公开的第三方面，所述使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征包括：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的第三方面，所述使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征包括：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的第三方面，所述对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征包括：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的第三方面，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

根据本公开的第四方面，提供了一种分层视频解码装置，所述装置包括：输入模块，被配置为获取分层视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧并输入训练好的卷积神经网络；质量增强模块，被配置为使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；运动补偿模块，被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿。

根据本公开的第四方面，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

根据本公开的第四方面，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前先前重建的增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

根据本公开的第四方面，所述卷积神经网络被配置为通过以下操作来生成具有运动修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的第四方面，所述卷积神经网络被配置为通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的第四方面，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

根据本公开的第四方面，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

根据本公开的第四方面，所述卷积神经网络通过以下操作来使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的第四方面，所述卷积神经网络通过以下操作来使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的第四方面，所述卷积神经网络通过以下操作来生成融合后的内层视频帧特征：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的第四方面，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

根据本公开的第五方面，提供了一种电子设备，其特征在于，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的分层视频编码方法和/或分层视频解码方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如上所述的分层视频编码方法和/或分层视频解码方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被至少一个处理器运行以执行如上所述的分层视频编码方法和/或分层视频解码方法。

本公开的实施例提供的技术方案至少带来以下有益效果：根据本公开的分层视频编码方案和解码方案结合了分层编码特性与视频时域相关特性，不仅利用了先前重建的基本层编码视频帧，同时还利用了先前重建的高质量增强层视频帧，将两种强相关性的特征信息（多帧&多层）送入设计的卷积神经网络中，极大程度上地提高了内层视频帧的质量，进而提高了分层视频编码效率，在提高压缩质量的同时降低了视频的码率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的分层视频编码和分层视频解码的方案的整体框架示意图。

图2是示出根据本公开的示例性实施例的分层视频编码方法的流程图。

图3是示出根据本公开的示例性实施例的用于增强内层视频帧质量的卷积神经网络的结构示意图。

图4是示出根据本公开的示例性实施例的用于增强内层视频帧质量的卷积神经网络的各个模块的示意图。

图5是示出根据本公开的示例性实施例的分层视频编码装置的框图。

图6是示出根据本公开的示例性实施例的分层视频解码方法的流程图。

图7是示出根据本公开的示例性实施例的分层视频解码装置的框图。

图8是示出根据本公开的示例性实施例的用于分层视频编码和/或解码的电子设备的示意图。

图9是示出根据本公开的另一示例性实施例的用于分层视频编码和/或解码的电子设备的示意图。

图10是示出根据本公开的示例性实施例的分层视频编解码方案的仿真修复效果示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

在对本公开的实施例进行详细说明以前，先对本公开的实施例可能涉及到的一些术语或缩略语进行说明。

图1是根据本公开的示例性实施例的示出根据本公开的示例性实施例的分层视频编码和分层视频解码的方案的整体流程示意图。

在根据本公开的示例性实施例的质量分级的分层视频编码装置110处，将待编码视频帧分别输入基本层编码处理单元111和增强层编码处理单元112，从基本层编码处理单元111的基本层解码图像缓存器中取出先前重建的低质量视频帧和当前时刻的低质量视频帧（即，当前时刻的基本层视频帧以及与当前时刻的基本层视频帧相邻的重建的前向基本层视频帧和后向基本层视频帧），同时从增强层编码处理单元中取出先前重建的高质量视频帧（即，重建的前向增强层视频帧和后向增强层视频帧），一并送入训练好的卷积神经网络中进行内层质量提升，从而得到质量提升后的内层视频帧，再将其送入增强层解码图像缓存器，在后续的操作中用作参考视频帧，从而可输出相比于原始质量可分级视频编码的质量提升的增强层码流。也就是说，在增强层编码处理单元112中，以质量增强的内层视频帧作为参考视频帧执行针对当前增强层视频帧的帧间预测，通过后续的变换、量化、算术编码和环路滤波可以生产增强层码流，而基本层码流不做处理。

这里，卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。稍后将参照附图3-图5来详细说明根据本公开的示例性实施例的卷积神经网络的结构。

根据网络异构、用户终端能力的差异，在根据本公开的示例性实施例的质量分级的分层视频解码装置120处，可利用训练好的相同的卷积神经网络解码出提升后的高质量视频。也就是说，分层视频解码装置120的基本层解码处理单元121和增强层解码处理单元122在分别对接收到的基本层视频码流和增强层视频码流进行算术解码、反量化、反变换、运动补偿、环路滤波之后得到了重建的低质量视频帧和重建的高质量视频帧，然后，可从基本层解码处理单元121的基本层解码图像缓存器中取出先前和当前重建的低质量视频帧，同时从增强层解码处理单元122中取出先前重建的高质量视频，一并送入训练好的卷积神经网络中进行内层质量提升，得到质量提升后的内层视频帧，再将其送入增强层解码图像缓存器，从而以质量增强的内层视频帧作为参考视频帧执行针对当前增强层视频帧的运动补偿以生成质量提升后的高质量视频帧。

这里，卷积神经网络的处理对象为基本层解码图像缓存器输出的缓存视频帧，同时可以利用先前增强层重建视频帧作为卷积神经网络参考信息，经过卷积神经网络进行运动修复和压缩修复后得到质量提升的内层视频帧，为后续增强层视频帧提供更为精确的参考。

接下来，将参照图2-图10来说明根据本公开的示例性实施例的分层视频编码方法和装置以及分层视频解码方法和装置。

图2是示出根据本公开的示例性实施例的分层视频编码方法的流程图。应理解，可以在具有视频编解码处理能力的设备上实现根据本公开的示例性实施例的分层视频编码方法。例如，可以在手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备上实施该分层视频编码方法。

如图2所示，首先，在步骤S210，获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧。在如图1所示的分层视频编码器110中，可从基本层解码缓存器111获取当前基本层视频帧、先前重建的基本层视频帧，从增强层解码缓存器112获取先前重建的增强层视频帧。这里，先前重建的基本层视频帧包括在时间上与当前基本层视频帧（即，当前时刻的基本层视频帧）相邻的前向基本层视频帧和后向基本层视频帧，先前重建的增强层视频帧包括在时间上与当前增强层视频帧（即，当前时刻的增强层视频帧）相邻的前向增强层视频帧和后向增强层视频帧。

接下来，在步骤S220，使用卷积神经网络基于当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧。根据本公开的示例性实施例，卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。这里，由于卷积神经网络具有强大的特征提取和重建能力，因此，使用卷积神经网络可以提升质量可分级的内层视频帧的质量。

然后，在步骤S230，使用质量增强的内层视频帧作为层间参考视频帧来执行针对当前增强层视频帧的运动预测。这样，由于使用质量增强的内层视频帧来替换质量可分级视频编码中原始的内层视频帧，从而可以提高编码参考视频帧的质量，进而可以提高增强层视频帧的编码效率。

也就是说，根据本公开的示例性实施例的分层视频编码方法结合了分层编码特性与视频时域相关特性，不仅利用了先前重建的基本层编码视频帧，同时还利用了先前重建的高质量增强层视频帧，将两种强相关性的特征信息（多帧&多层）送入设计的卷积神经网络中，极大程度上地提高了内层视频帧的质量。此外，由于额外引入了先前重建的高质量增强层视频帧参考信息，在多帧&多层的强相关参考特征信息中同时存在运动差异和压缩损伤差异，因此，在根据本公开的示例性实施例的卷积神经网络中设计了运动修复模块、压缩修复模块以及压缩损伤协同处理模块（即，融合模块）。下面将参照图3-图5来详细说明根据本公开的示例性实施例的卷积神经网络通过运动修复、压缩损伤修复以及融合特征来生成质量增强的内层视频帧的过程。

图3是示出根据本公开的示例性实施例的用于执行质量增强的卷积神经网络的结构示意图。根据本公开的示例性实施例的卷积神经网络可被训练好后存储在如图1的分层视频编码装置110的存储器（未示出）中，并且在对视频执行分层编码时被调用。

如图3所示，根据本公开的示例性实施例的用于质量增强的卷积神经网络300可包括运动修复模块310、压缩损伤修复模块320以及融合模块330。

由于基本层之间的运动差异与增强层之间的运动差异相似，当前时刻的增强层视频帧可以由运动修复（MR）模块利用先前时刻重建的增强层视频帧以及基本层之间的运动差异近似得到；同时，由于先前时刻的压缩损伤差异与当前时刻的压缩损伤差异相似，当前时刻的增强层视频帧同时也可以由压缩损伤修复（CR）模块利用当前时刻重建的基本层视频帧以及先前时刻的压缩损伤差异近似得到。基于此，在步骤S220，运动修复模块310可根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征，而压缩损伤修复模块320可根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征。这里，运动修复模块310可包括两个运动修复模块310-1和310-2，压缩损伤修复模块320可包括两个压缩损伤修复模块320-1和320-2，其中，运动修复模块310-1和压缩损伤修复模块320-1分别被配置为基于先前重建的前向增强层视频帧和先前重建的前向基本层视频帧以及当前基本层视频帧来生成具有运动修复信息的内层视频帧特征，而运动修复模块320-1和压缩损伤修复模块320-2分别被配置为基于先前重建的后向增强层视频帧和先前重建的后向基本层视频帧以及当前基本层视频帧来生成具有运动修复信息的内层视频帧特征。

根据本公开的示例性实施例，运动修复模块310可通过以下操作来生成具有运动修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的示例性实施例，压缩损伤修复模块320可通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的示例性实施例，运动修复模块310在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。具体地，运动修复模块310可对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图，将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异，并将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的示例性实施例，压缩损伤修复模块320在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。具体地，压缩损伤修复模块320可使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异，并将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的示例性实施例，在步骤S220，融合模块330可对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征，然后，将使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

融合模块330可通过以下操作来修复高频特征以生成融合后的内层视频帧特征：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联，对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的示例性实施例，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。也就是说，根据本公开的示例性实施例的用于训练卷积神经网络而构建的训练数据集具有任务针对性、压缩修复范围广泛性、内容样式多样性。

例如，可采用官方提供的标准的可分级视频编码器SHM进行视频编码，非常适合包括本公开在内的关于分层视频编码的内层视频质量提升研究以及其他分层视频编码的相关研究，具有任务针对性。考虑到实际生活中压制的分层视频帧质量变化多样、难以预测，针对本公开的示例性实施例的卷积神经网络构建的数据集可采用不同的量化编码参数QP（变化范围为20-39）进行压缩编码，使其能够适用于实际生活中绝大多数的分层视频的质量提升，具有压缩修复范围广泛性。例如，构建的训练数据集可选取800个高清自然视频，包含了640×360，720×480，1280×720，1920×1080和2560×1600五种不同分辨率视频，构建的数据集在视频帧分辨率上具有多样性，同时，利用场景切割将视频分为多个内容不相关的视频片段，生成了自然界与日常生活中场景多样的多个不同视频片段，视频内容涵盖范围广阔，数据集的视频帧内容上具有多样性。这里，训练数据集制作中的剪裁操作主要是为了网络训练时适应显卡内存的需求，过大的视频帧分辨率会导致内存溢出，同时过小的分辨率不利于捕捉相邻视频帧的有效运动信息，所以进行裁剪操作并选择了此分辨率大小。场景切割操作是为了保持视频内容的连贯性与高相似性，相似的视频帧才能提供为运动修复提供有效运动修复，反之则会提供错误的参考运动信息从而不利于网络训练。此外，场景切割操作将视频分为多个内容不相关的视频片段，能够提高网络的泛化性能，避免过拟合。

下面将参照图4来详细说明构建根据本公开的示例性实施例的用于质量增强的卷积神经网络的方式。应理解，在图4中示出并在以下说明中描述的卷积神经网络的结构和各种参数是用于实现如上参照图2-图3说明的卷积神经网络及其各个模块的操作的示例，本领域的技术人员可采用与其类似或等效的结构和参数来实现如上参照图2-图3所述的卷积神经网络的操作。另外，在图4的说明中，以针对先前重建的前向增强层视频帧（即，当前时刻i之前的先前时刻i-n的增强层视频帧）和先前重建的前向基本层视频帧（即，当前时刻i之前的先前时刻i-n的基本层视频帧）的运动修复模块、压缩损伤模块作为示例进行说明，但本领域的技术人员应理解，相同和类似的结构和参数的运动修复模块和压缩损伤修复模块也可应用于后向增强层视频帧和后向基本层视频帧。

图4中的（a）示出了根据本公开的示例性实施例的运动修复模块的具体结构。如图4中的（a）所示，运动修复模块可包括特征提取模块、多尺度特征提取算子、空间注意力集中机制和常规卷积模块。

如图4中的（a）的虚线框所示，特征提取模块的输入被送入卷积层（1, k, 3）→ReLU激活→卷积层（k, k, 3）→ReLU激活→卷积层（k, k, 3），常规卷积层的三个参数分别表示输入通道数、输出通道数和卷积核大小，这里，k可以为16、32、48、64等。而在特征提取模块的输出中，第一个ReLU激活的输出记做

，第二个ReLU激活的输出记做

，最终的输出记做

，其输出可以拆分记做

，

，

。可以看出，运动修复模块可包括三个特征提取模块分别对先前重建的增强层视频帧、先前重建的基本层视频帧和当前基本层视频帧执行特征提取，从而分别得到浅层、中层和深层三个层次的特征。应理解，运动修复模块所提取的特征的层数不限于此，可根据实际需要采用更多或更少数量的特征层次。

多尺度特征提取算子MFEO的结构如图4中的（d）所示，其结构可以描述为：

分支1，输入送入Concat级联操作→常规卷积层（2, k, 3）→ReLU激活；

分支2，输入分支1的输出，送入空洞卷积层（k, k, 3, 2），其中，空洞卷积层的四个参数分别表示输入通道数、输出通道数、卷积核大小和空洞率；

分支3，输入分支1的输出，送入空洞卷积层（k, k, 3, 2）；

分支4，输入分支1的输出，送入空洞卷积层（k, k, 3, 4）；

分支5，输入分支2、3和4的输出，送入Concat级联操作→常规卷积层（k*3, k, 1），输出多尺度特征提取算子特征提取结果。

运动修复模块的结构可被描述如下：

分支1，输入

和

，送入多尺度特征提取算子，输出具有先前时刻i-n的压缩损伤修复信息的特征

；

分支2，输入当前时刻i的基本层视频帧

，送入特征提取模块，输出

，

，

；

分支3，输入

，送入特征提取模块，输出

，

，

；

分支4，输入

，送入特征提取模块，输出

，

，

；

分支5，输入

，

，

和具有先前时刻i-n的压缩损伤修复信息的特征

，进行运动修复，得到浅层运动修复特征

；

分支6，输入

，

，

和具有先前时刻i-n的压缩损伤修复信息的特征

，进行运动修复，得到中层运动修复特征

；

分支7，输入

，

，

和具有先前时刻i-n的压缩损伤修复信息的特征

，进行运动修复，得到深层运动修复特征

；

分支8，输入分支5、6和7的输出，送入Concat操作→常规卷积层（3*k, k, 1），输出为运动修复模块最终输出，记做运动修复后的特征

。

在分支5、6、7中，可通过空间注意力机制SA来进行压缩损伤修复。

具体地，首先，对利用多尺度特征提取算子得到的

进行平均池化操作后再利用

激活函数处理得到空间注意力集中后的权重图

（取值范围为0～1）：

，

其中，

表示

激活函数处理，

表示平均池化操作；

然后，将

与

的差值作为基本层相邻帧之间的运动差异，将基本层相邻帧之间的运动差异

与空间注意力集中后的权重图

相乘得到压缩损伤修复后的基本层相邻帧之间的运动差异

：

。

通过以上操作，可将利用空间注意力集中机制进行压缩损伤修复后的基本层的相邻帧之间的运动差异

添加到相邻时刻的增强层的特征

中，可得到运动修复后的特征

：

。

图4中的（b）示出了根据本公开的示例性实施例的压缩损伤修复模块的具体结构。如图4中的（b）所示，运动修复模块可包括特征提取模块、多尺度特征提取算子、变形卷积模块和常规卷积模块。这里，多尺度特征提取算子和特征提取模块的结构与前述的结构相同，在此不再重复描述。具体地，压缩损伤修复模块的结构可描述为：

分支1，输入

和

，送入多尺度特征提取算子，得到输出具有基本层的运动修复信息的特征

；

分支2，输入

，送入特征提取模块，输出

，

，

；

分支3，输入

，送入特征提取模块，输出

，

，

；

分支4，输入

，送入特征提取模块，输出

，

，

；

分支5，输入

，

，

和具有基本层的运动修复信息的特征

，进行压缩修复，得到浅层压缩修复特征

；

分支6，输入

，

，

和具有基本层的运动修复信息的特征

，进行压缩修复，得到中层压缩修复特征

；

分支7，输入

，

，

和具有基本层的运动修复信息的特征

，进行压缩修复，得到深层压缩修复特征

；

分支8，输入分支5、6和7的输出，送入Concat级联操作→常规卷积层（3*k, k, 1），输出压缩修复模块最终输出，记做压缩修复后的特征

。

在分支5、6、7中，可通过以下的方式来进行运动补偿：

将

和

的差值作为相邻时刻的基本层与增强层之间的质量差异，将相邻时刻的基本层与增强层之间的质量差异

结合

送入可变形卷积得到运动补偿后的相邻时刻的基本层与增强层之间的质量差异

：

，

其中，Dconv()表示可变形卷积。

这样，可将利用可变形卷积进行运动补偿后的相邻时刻的基本层与增强层之间的质量差异

添加到当前时刻基本层的特征

中，可得到压缩修复后的特征

：

。

图4中的（c）示出了根据本公开的示例性实施例的卷积神经网络的融合模块的结构。如图4中的（c）所示，融合模块的结构可描述为：

分支1，输入运动修复后的特征1、运动修复后的特征2、压缩损伤修复后的特征1和压缩损伤修复后的特征2，送入Concat操作→融合块→融合块→常规卷积层（k*2, 1），得到最后的高频信息残差图

。这里，运动修复后的特征1和压缩损伤修复后的特征1是使用重建的前向增强层视频帧、重建的前向基本层视频帧和当前基本层视频帧得到的（如图3的运动修复模块310-1和压缩损伤修复模块320-1所示），而运动修复后的特征2和压缩损伤修复后的特征2是使用重建的后向增强层视频帧、重建的后向基本层视频帧和当前基本层视频帧得到的（如图3的运动修复模块310-1和压缩损伤修复模块320-1所示），在之前的说明中对此进行了详细描述，在此不再重复。

分支2，输入当前基本层视频帧

与分支1的得到高频信息残差图

，将

与

相加，输出质量提升后的内层视频帧。

这里，融合块的结构如图4中的（c）的虚线框中所示，其结构可以描述为：

分支1，输入记做

，送入常规卷积层（k*2, k*2, 3,）；

分支2，输入

和分支1的输出，送入Concat级联操作→常规卷积层（k*4, k*2,1）→ReLU激活→常规卷积层（k*2, k*2, 3）；

分支3，输入

、分支1和分支2的输出，送入Concat级联操作→卷积层（k*6, k*2,1），输出融合块最终输出。

通过以上结构的运动修复模块、压缩损伤修复模块和融合模块构建的如图3所示的卷积神经网络的主网络的结构可描述为：

5个输入分别记做当前时刻i的基本层视频帧

，重建的前向基本层视频帧

，重建的前向增强层视频帧

，重建的后向基本层视频帧

和重建的后向增强层视频帧

；

分支1，输入

，

和

，送入运动修复模块1，得到运动修复后的特征1

；

分支2，输入

，

和

，送入运动修复模块2，得到运动修复后的特征2

；

分支3，输入

，

和

，送入压缩修复模块1，得到压缩修复后的特征1

；

分支4，输入

，

和

，送入压缩修复模块2，得到压缩修复后的特征2

；

分支5，输入分支1、分支2、分支3和分支4的输出，以及

，送入融合模块，输出主网络的最终输出，即质量提升后的内层视频帧。

在构建了如上所述的卷积神经网络之后，接下来可生成训练数据集来训练卷积神经网络。

例如，可随机选取至少800个高清自然视频，对每个视频无重叠地进行画幅裁剪，每个视频至少裁剪出9个与原高清自然视频帧数相同的小分辨率视频，每个小分辨率视频的长和宽皆为不小于144的偶数。然后，可将进行画幅裁剪后的小分辨率视频根据直方图统计进行场景切割，得到多个视频内容连续且无场景转换的帧数为17帧的视频片段。将所有进行场景切割后的视频片段转换成YUV420p数据格式的视频片段，再输入到可分级视频编码器中进行编码，根据不同的量化编码参数QP进行编码，得到编码后的低质量视频编码码流和高质量视频编码码流。将编码后的低质量视频编码码流和高质量视频编码码流依次输入到可分级视频解码器中进行解码，得到解码后的低质量重建视频片段和高质量重建视频片段。将所有YUV420p数据格式的视频片段图像，低质量重建视频片段图像和高质量重建视频片段图像构成一个质量可分级视频编码训练集。应理解，以上仅是构成质量可分级视频编码训练集的示例，本领域的技术人员可根据训练需求和实际性能要求构建训练集。

在训练卷积神经网络的过程中，首先初始化卷积神经网络，然后将质量可分级视频编码训练集输入到卷积神经网络中，在网络中遍历训练集。其中，可采用Adam优化器对卷积神经网络的参数进行迭代更新，直到图像

损失值的均值收敛后终止迭代，从而得到训练好的卷积神经网络。

在如上所述得到训练好的卷积神经网络之后，可根据如上参照图2-图3所述的分层视频编码方法来对视频进行质量可分级编码。也就是说，可将视频输入到如图1所示的可分级编码装置110中进行质量可分级编码，得到质量可分级编码重建后的低质量编码码流（即基本层视频码流）和高质量编码码流（即，增强层视频码流）。然后，依所训练卷积神经网络的输入需求，从低质量编码码流和高质量编码码流中分别提取低质量重建视频帧和高质量重建视频帧，将所提取的低质量重建视频帧和高质量重建视频帧输入已训练好的卷积神经网络中，得到提升质量后的内层视频帧，依序组成质量提升后的内层视频帧并利用质量提升后的内层视频帧对增强层视频帧再次编码：将质量提升后的内层视频帧输入到可分级编码器的增强层解码图像缓存器中，为增强层提供质量提升后的层间编码参考进行运动，可分级编码器在对增强层视频帧进行编码后输出最终的质量提升且码率下降的高质量码流。

如图5所示，根据本公开的示例性实施例的分层视频编码装置可包括输入模块510、质量增强模块520和运动预测模块530。

根据本公开的示例性实施例，输入模块510被配置为获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧。质量增强模块520被配置为使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧。运动预测模块530被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动预测。

根据本公开的示例性实施例，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

根据本公开的示例性实施例，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前先前重建的增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

根据本公开的示例性实施例，所述卷积神经网络被配置为通过以下操作来生成具有运动修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的示例性实施例，所述卷积神经网络被配置为通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的示例性实施例，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

根据本公开的示例性实施例，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

根据本公开的示例性实施例，所述卷积神经网络被配置为通过以下操作来执行压缩损伤修复以得到精细化的运动修复特征：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的示例性实施例，所述卷积神经网络被配置为通过以下操作来执行运动修复以得到精细化的压缩损伤修复特征：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的示例性实施例，所述卷积神经网络通过以下操作来生成融合后的内层视频帧特征：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

根据本公开的示例性实施例，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

如图6所示，首先，在步骤S610，获取分层视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧。如图1所示，可从分层视频解码装置120的增强层解码缓存器获取先前重建的增强层视频帧，并从基本层解码缓存器获取先前重建的基本层视频帧和当前基本层视频帧。

接下来，在步骤S620，使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧。这里，卷积神经网络是与在编码端使用的卷积神经网络相同的网络，该网络预先被训练并存储在分层视频解码装置120的存储器中。当对分层视频码流执行解码时，可调用存储在存储器中的卷积神经网络以执行步骤S620的操作。

然后，在步骤S630，使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿。

根据本公开的示例性实施例，所述生成具有运动修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

根据本公开的示例性实施例，所述生成具有压缩损伤修复信息的内层视频帧特征包括：使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

根据本公开的示例性实施例，所述使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征包括：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的示例性实施例，所述使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征包括：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

根据本公开的示例性实施例，所述对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征包括：将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

如图7所示，根据本公开的示例性实施例的分层视频解码装置可包括输入模块710、质量增强模块720和运动补偿模块730。输入模块710被配置为获取分层视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧并输入训练好的卷积神经网络。质量增强模块720被配置为使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧。运动补偿模块730被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿。

根据本公开的示例性实施例，所述卷积神经网络通过以下操作来使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征：对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

根据本公开的示例性实施例，所述卷积神经网络通过以下操作来使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征：使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

以上已经参照图4说明了在图5、图6和图7中使用的卷积神经网络的结构和参数的示例，在此不再重复描述。应理解，在图4中示出的卷积神经网络的结构和参数仅是示意性的，其他类型的结构也可以用于实现卷积神经网络的各个操作。

图8是示出根据本公开的示例性实施例的一种用于分层视频编码和/或分层视频解码的电子设备800的结构框图。该电子设备800例如可以是：智能手机、平板电脑、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（FieldProgrammable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。在本公开的示例性实施例中，处理器801还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本公开的的示例性实施例的分层视频编码方法和/或分层视频解码方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O（Input/Output，输入/输出）相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路804还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本公开对此不加以限定。

显示屏805用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-Emitting Diode ,有机发光二极管）等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS（LocationBased Service ，基于位置的服务）。定位组件808可以是基于美国的 GPS （GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器311可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图3中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9所示为另一种电子设备900的结构框图。例如，电子设备900可以被提供为一服务器。参照图9，电子设备900包括一个或多个处理处理器910以及存储器920。存储器920可以包括用于执行以上的数据标注方法的一个或一个以上的程序。电子设备900还可以包括一个电源组件930被配置为执行电子设备900的电源管理，一个有线或无线网络接口940被配置为将电子设备900连接到网络，和一个输入输出（I/O）接口950。电子设备900可以操作基于存储在存储器920的操作系统，例如Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或类似。

图10是示出根据本公开的示例性实施例的分层视频编码方法和解码方法的修复效果示意图。

从图中第一行的路面放大情况可以看出，原始帧经过质量可分级视频编码后的原始内层帧的路面纹理模糊不清，将其送入训练好的卷积神经网络进行修复后输出，得到修复后的内层帧，可以看出经过压缩后路面丢失的纹理被大面积地修复还原，从主观视觉方面内层帧质量也得到极大提升。

从图中第二行的校车后窗放大情况可以看出，原始帧经过质量可分级视频编码后的原始内层帧的“SCHOOL BUS”字样很难辨认出形状，将其送入训练好的卷积神经网络进行修复后输出，得到修复后的内层帧，“SCHOOL BUS”字样再次易于辨认，可以看出，本公开的分层视频编解码方案可以缓解视频图像由于质量可分级视频编码操作导致的视频图像质量损伤，使得视频图像细节纹理得到一定恢复，同时增强层视频在压缩质量略有提升的情况下编码码率从1767kbps下降为1644kbps，从而减少了压缩视频进行网络传输时占用的带宽。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的分层视频编码/解码方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述方法。

根据本公开的分层视频编码方案和解码方案结合了分层编码特性与视频时域相关特性，不仅利用了先前重建的基本层编码视频帧，同时还利用了先前重建的高质量增强层视频帧，将两种强相关性的特征信息（多帧&多层）送入设计的卷积神经网络中，极大程度上地提高了内层视频帧的质量，进而提高了分层视频编码效率，在提高压缩质量的同时降低了视频的码率。

本领域技术人员在考虑说明书及实践这里公开的方案后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种分层视频编码方法，其特征在于，包括：

获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；

使用卷积神经网络基于当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；

使用质量增强的内层视频帧作为层间参考视频帧来执行针对当前增强层视频帧的运动预测，

其中，所述卷积神经网络被训练为基于先前重建的基本层视频帧与当前基本层视频帧之间的时域相关性以及先前重建的基本层视频帧与先前重建的增强层视频帧之间的质量相关性从当前基本层视频帧生成质量增强的内层视频帧。

2.如权利要求1所述的方法，其特征在于，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：

根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；

根据先前重建的基本层视频帧和先前重建的增强层视频帧之间的压缩损伤特征与当前增强层视频帧和当前基本层视频帧之间的压缩损伤特征的相似性从当前基本层视频帧生成具有压缩损伤修复信息的内层视频帧特征；

对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征；

使用融合后的内层视频帧特征对当前基本层视频帧执行修复以生成质量增强的内层视频帧。

3.如权利要求2所述的方法，其特征在于，所述生成具有运动修复信息的内层视频帧特征包括：

使用多尺度特征提取算子从先前重建的增强层视频帧和先前重建的基本层视频帧提取出具有运动修复信息的特征；

分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征均具有多个层；

使用具有运动修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的运动特征进行运动修复以获得运动修复特征；

通过对运动修复特征的每个层进行级联和卷积来生成具有运动修复信息的内层视频帧特征。

4.如权利要求2所述的方法，其特征在于，所述生成具有压缩损伤修复信息的内层视频帧特征包括：

使用多尺度特征提取算子从先前重建的基本层视频帧和当前基本层视频帧提取出具有压缩损伤修复信息的特征；

分别提取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征，其中，当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征均具有多个层；

使用具有压缩损伤修复信息的特征对当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧的压缩特征进行压缩损伤修复以获得压缩损伤修复特征；

通过对压缩损伤修复特征的每个层进行级联和卷积来生成具有压缩损伤修复信息的特征。

5.如权利要求3所述的方法，其特征在于，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

6.如权利要求4所述的方法，其特征在于，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

7.如权利要求5所述的方法，其特征在于，所述使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征包括：

对具有运动修复信息的特征执行平均池化操作并利用Sigmoid激活函数处理平均池化后的具有运动修复信息的特征以得到空间注意力集中后的权重图；

将当前基本层视频帧和先前重建的基本层视频帧的运动特征之差与所述权重图相乘以得到压缩损伤修复后的基本层相邻视频帧的运动差异；

将压缩损伤修复后的基本层相邻视频帧的运动差异添加到先前重建的增强层视频帧的运动特征以得到精细化的运动修复特征。

8.如权利要求6所述的方法，其特征在于，所述使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征包括：

使用具有压缩损伤修复信息的特征对先前重建的基本层视频帧和先前重建的基本层视频帧的压缩特征之差进行可变形卷积以得到运动补偿后的基本层和增强层之间的质量差异；

将运动补偿后的基本层和增强层之间的质量差异添加到当前基本层视频帧的压缩特征以得到精细化的压缩损伤修复特征。

9.如权利要求2所述的方法，其特征在于，所述对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征包括：

将具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征级联；

对级联的具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征执行多次卷积操作，其中，所述多次卷积操作中的各个卷积操作使用不同数量的滤波器。

10.如权利要求1所述的方法，其特征在于，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

11.一种分层视频编码装置，包括：

输入模块，被配置为获取待编码视频的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；

质量增强模块，被配置为使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；

运动预测模块，被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动预测，

12.如权利要求11所述的装置，其特征在于，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：

根据先前重建的基本层视频帧和当前基本层视频帧之间的运动差异与先前重建的增强层视频帧和当前先前重建的增强层视频帧之间的运动差异的相似性从先前重建的增强层视频帧生成具有运动修复信息的内层视频帧特征；

13.如权利要求12所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来生成具有运动修复信息的内层视频帧特征：

14.如权利要求12所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征：

15.如权利要求13所述的装置，其特征在于，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

16.如权利要求14所述的装置，其特征在于，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

17.如权利要求15所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来执行压缩损伤修复以得到精细化的运动修复特征：

18.如权利要求16所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来执行运动修复以得到精细化的压缩损伤修复特征：

19.如权利要求12所述的装置，其特征在于，所述卷积神经网络通过以下操作来生成融合后的内层视频帧特征：

20.如权利要求11所述的装置，其特征在于，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

21.一种分层视频解码方法，其特征在于，所述方法包括：

从分层视频码流获取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧；

使用卷积神经网络基于获取的当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧来生成质量增强的内层视频帧；

使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿，

22.如权利要求21所述的方法，其特征在于，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：

23.如权利要求22所述的方法，其特征在于，所述生成具有运动修复信息的内层视频帧特征包括：

24.如权利要求22所述的方法，其特征在于，所述生成具有压缩损伤修复信息的内层视频帧特征包括：

25.如权利要求23所述的方法，其特征在于，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

26.如权利要求24所述的方法，其特征在于，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

27.如权利要求25所述的方法，其特征在于，所述使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征包括：

28.如权利要求26所述的方法，其特征在于，所述使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征包括：

29.如权利要求22所述的方法，其特征在于，所述对具有运动修复信息的内层视频帧特征和具有压缩损伤修复信息的内层视频帧特征进行高频特征修复以生成融合后的内层视频帧特征包括：

30.如权利要求21所述的方法，其特征在于，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

31.一种分层视频解码装置，其特征在于，所述装置包括：

输入模块，被配置为从分层视频码流获取当前基本层视频帧、先前重建的基本层视频帧和先前重建的增强层视频帧并输入训练好的卷积神经网络；

运动补偿模块，被配置为使用质量增强的内层视频帧作为层间参考视频帧执行针对当前增强层视频帧的运动补偿，

32.如权利要求31所述的装置，其特征在于，所述卷积神经网络被配置为通过执行以下操作来生成质量增强的内层视频帧：

33.如权利要求32所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来生成具有运动修复信息的内层视频帧特征：

34.如权利要求32所述的装置，其特征在于，所述卷积神经网络被配置为通过以下操作来生成具有压缩损伤修复信息的内层视频帧特征：

35.如权利要求33所述的装置，其特征在于，所述卷积神经网络在执行运动修复时使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征。

36.如权利要求34所述的装置，其特征在于，所述卷积神经网络在执行压缩损伤修复时使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征。

37.如权利要求35所述的装置，其特征在于，所述卷积神经网络通过以下操作来使用空间注意力机制执行压缩损伤修复以得到精细化的运动修复特征：

38.如权利要求36所述的装置，其特征在于，所述卷积神经网络通过以下操作来使用可变形卷积执行运动修复以得到精细化的压缩损伤修复特征：

39.如权利要求32所述的装置，其特征在于，所述卷积神经网络通过以下操作来生成融合后的内层视频帧特征：

40.如权利要求31所述的装置，其特征在于，所述卷积神经网络是通过使用具有多种分辨率的多个质量可分级视频片段训练得到的，其中，所述多个质量可分级视频片段的内容不相关并且采用不同的量化编码参数被压缩编码。

41.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到10中任一权利要求所述的分层视频编码方法或如权利要求21到30中的任一权利要求所述的分层视频解码方法。

42.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如权利要求1到10中任一权利要求所述的分层视频编码方法或如权利要求21到30中的任一权利要求所述的分层视频解码方法。