CN114125454A

CN114125454A - 一种视频图像编码系统及方法

Info

Publication number: CN114125454A
Application number: CN202210088933.5A
Authority: CN
Inventors: 罗其锋; 李华; 刘文韬; 张春梅; 张宝星; 王天师; 谭莹莹; 包达志; 魏俊锋; 黄国柱; 熊激川
Original assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-03-01

Abstract

本发明涉及图像处理技术领域，公开了一种视频图像编码系统及方法，其系统通过提取目标视频图像的特征图，对特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，将两个通道描述向量矩阵进行合并，并经过激活层输出通道注意特征，通过空间注意力模块对通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，将两个空间描述向量矩阵按照通道进行合并，并经过卷积层进行激活，从而得到二维空间注意映射矩阵，通过残差重构模块基于预设的深度残差网络对二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像，从而降低了视频图像失真率，提高了图像分辨率。

Description

一种视频图像编码系统及方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频图像编码系统及方法。

背景技术

随着图像采集与显示技术的快速发展，4K/8K 等高分辨率视频正逐渐进入我们的工作和生活。而新一代视频压缩标准（HEVC）较前一代在高分辨率视频的编码上节50%左右的码流，但由于高清视频图像的分辨率成倍增加，压缩后的视频数据量仍然很大，而且目前网络带宽资源仍然比较有限，这给视频数据的传输和存储带来很大的压力，也就导致提高了视频图像失真率，降低图像分辨率。

发明内容

本发明提供了一种视频图像编码系统及方法，解决了视频图像失真率增高，从而降低图像分辨率的技术问题。

有鉴于此，本发明第一方面提供了一种视频图像编码系统，包括：特征图提取网络模块和自我关注机制模块；

所述特征图提取网络模块用于基于深度学习算法提取目标视频图像的特征图，还用于将所述特征图发送至所述自我关注机制模块；

所述自我关注机制模块包括通道注意力模块、空间注意力模块和残差重构模块；

所述通道注意力模块用于对所述特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，还用于将两个所述通道描述向量矩阵分别发送至两层的卷积层网络，利用逐个元素相加法将两个所述通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，还用于将所述新的通道描述向量矩阵发送至激活层输出通道注意特征；还用于将所述通道注意特征发送至所述空间注意力模块；

所述空间注意力模块用于对所述通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，还用于将两个所述空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵；还用于将所述新的空间描述向量矩阵发送至 7×7 的卷积层进行激活，从而得到二维空间注意映射矩阵；还用于将所述二维空间注意映射矩阵发送至所述残差重构模块；

所述残差重构模块用于基于预设的深度残差网络对所述二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像。

优选地，本系统还包括压缩模块，用于对原始视频图像进行压缩，从而得到压缩图像以作为所述目标视频图像。

优选地，所述特征图提取网络模块包含两层深度学习卷积层，两层深度学习卷积层的大小分别为3×3×64和3×3×256。

优选地，所述激活层的激活函数为Sigmoid函数。

优选地，所述预设的深度残差网络由堆叠的若干个残差块组成，每个残差块由卷积层、批处理归一化层和非线性激活函数层组成。

第二方面，本发明还提供了一种视频图像编码方法，包括以下步骤：

基于深度学习算法提取目标视频图像的特征图；

对所述特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，将两个所述通道描述向量矩阵分别发送至两层的卷积层网络，利用逐个元素相加法将两个所述通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，将所述新的通道描述向量矩阵发送至激活层输出通道注意特征；

对所述通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，将两个所述空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵，将所述新的空间描述向量矩阵发送至 7×7 的卷积层进行激活，从而得到二维空间注意映射矩阵；

基于预设的深度残差网络对所述二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像。

优选地，本方法还包括：对原始视频图像进行压缩，从而得到压缩图像以作为所述目标视频图像。

第三方面，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过基于深度学习算法提取目标视频图像的特征图，通道注意力模块对特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，利用逐个元素相加法将两个通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，并经过激活层输出通道注意特征，又通过空间注意力模块对通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，将两个空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵，并经过卷积层进行激活，从而得到二维空间注意映射矩阵，通过残差重构模块基于预设的深度残差网络对二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像，从而降低了视频图像失真率，提高了图像分辨率。

附图说明

图1为本发明实施例提供的一种视频图像编码系统的结构示意图；

图2为本发明实施例提供的一种视频图像编码方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供的一种视频图像编码系统，包括：特征图提取网络模块100和自我关注机制模块200；

特征图提取网络模块100用于基于深度学习算法提取目标视频图像的特征图，还用于将特征图发送至自我关注机制模块200；

需要说明的是，特征图提取网络模块100包含两层深度学习卷积层，两层深度学习卷积层的大小分别为3×3×64和3×3×256，通过深度学习算法提取目标视频图像的浅层特征图。

特征图可以理解为一个H×W×C的二维图片，H表示图片高度，W表示图片宽度，C表示通道数，图像由多个特征图叠加形成。自我关注机制模块200包括通道注意力模块201、空间注意力模块202和残差重构模块203；

通道注意力模块201用于对特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，还用于将两个通道描述向量矩阵分别发送至两层的卷积层网络，利用逐个元素相加法将两个通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，还用于将新的通道描述向量矩阵发送至激活层输出通道注意特征；还用于将通道注意特征发送至空间注意力模块202；

可以理解的是，通道注意力模块201用来描述信号特征的重要程度，加强特征映射表达能力，提升深度网络对重要特征的关注并减少次要特征，从而降低无关目标与噪声的影响，为了更好地计算通道注意力，通道注意力模块201采用全局平均池化和全局最大池化两种方式来分别利用不同的信息。

平均池化层联结空间信息的同时，全局最大池化层能够提取特定对象特征的重要信息。特征图经过平均池化，得到256个1x1的特征图，并进行全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵C×1×1，是一个C维的向量，C表示特征图的通道数，接着，再将两个通道描述向量矩阵C×1×1分别送入一个两层的卷积层网络FC1和FC2，FC1的神经元个数为 C/r，其中，r是缩减率(根据情况自行定义的参数)。FC2的神经元个数为 C。使用逐个元素相加法(即将两个相同形状矩阵中对应位置元素相加得到该位置元素的值，得到一个新的矩阵)将两个通道描述向量矩阵合并，最后，经过激活层输出通道注意特征，其中，激活层的激活函数为Sigmoid函数。空间注意力模块202用于对通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，还用于将两个空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵；还用于将新的空间描述向量矩阵发送至 7×7 的卷积层进行激活，从而得到二维空间注意映射矩阵；还用于将二维空间注意映射矩阵发送至残差重构模块203；

需要说明的是，空间注意力模块202通过学习通道注意特征的空间特征，来获取空间位置信息。

其中，空间描述向量矩阵为3x3的矩阵的特征图。卷积层的卷积核大小为7×7，通过对3x3的矩阵的特征图进行放大，得到7x7的特征图，也即二维空间注意映射矩阵（7x7）。

残差重构模块203用于基于预设的深度残差网络对二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像。

需要说明的是，预设的深度残差网络由堆叠的若干个残差块组成，每个残差块由卷积层、批处理归一化层和非线性激活函数层组成。特征图经过多个残差块进行处理，最终得到256个7x7的特征图，从而重新组合成一幅图像。

二维空间注意映射矩阵通过每个残差块不断提高重构图像的分辨率，最终实现压缩图像的超高分辨率重构，考虑采用特征损失函数来衡量真实图像与重构图像之间的不同。因此，深度残差网络的损失函数定义如下：

式中，

表示学到的网络参数，N表示图像样本的数量，R表示残差块的数量，

表示输出

的权重，

表示重构后的图像，

表示重构前的图像，i表示第i个图像样本，r表示第r个残差块。

在一个具体实施例中，本系统还包括压缩模块，用于对原始视频图像进行压缩，从而得到压缩图像以作为目标视频图像。

可以理解的是，通过对原始视频图像进行压缩，可以提高传输速度。

本实施例提供了一种视频图像编码系统，通过基于深度学习算法提取目标视频图像的特征图，通道注意力模块对特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，利用逐个元素相加法将两个通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，并经过激活层输出通道注意特征，又通过空间注意力模块对通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，将两个空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵，并经过卷积层进行激活，从而得到二维空间注意映射矩阵，通过残差重构模块基于预设的深度残差网络对二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像，从而降低了视频图像失真率，提高了图像分辨率。

以上为本发明提供的一种视频图像编码系统的实施例的详细描述，以下为本发明提供的一种视频图像编码方法的实施例的详细描述。

为了方便理解，请参阅图2，本发明提供的一种视频图像编码方法，包括以下步骤：

S100、基于深度学习算法提取目标视频图像的特征图；

S200、对特征图进行全局平均池化和全局最大池化并行处理，从而得到对应的两个通道描述向量矩阵，将两个通道描述向量矩阵分别发送至两层的卷积层网络，利用逐个元素相加法将两个通道描述向量矩阵进行合并，从而得到新的通道描述向量矩阵，将新的通道描述向量矩阵发送至激活层输出通道注意特征；

S300、对通道注意特征进行一个通道维度的全局平均池化和全局最大池化并行处理，得到相应的两个空间描述向量矩阵，将两个空间描述向量矩阵按照通道进行合并，从而得到新的空间描述向量矩阵，将新的空间描述向量矩阵发送至 7×7 的卷积层进行激活，从而得到二维空间注意映射矩阵；

S400、基于预设的深度残差网络对二维空间注意映射矩阵进行重构，从而得到超分辨率重构图像。

进一步地，本方法还包括：对原始视频图像进行压缩，从而得到压缩图像以作为目标视频图像。

本发明还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法，装置和单元的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频图像编码系统，其特征在于，包括：特征图提取网络模块和自我关注机制模块；

2.根据权利要求1所述的视频图像编码系统，其特征在于，还包括压缩模块，用于对原始视频图像进行压缩，从而得到压缩图像以作为所述目标视频图像。

3.根据权利要求1所述的视频图像编码系统，其特征在于，所述特征图提取网络模块包含两层深度学习卷积层，两层深度学习卷积层的大小分别为3×3×64和3×3×256。

4.根据权利要求1所述的视频图像编码系统，其特征在于，所述激活层的激活函数为Sigmoid函数。

5.根据权利要求1所述的视频图像编码系统，其特征在于，所述预设的深度残差网络由堆叠的若干个残差块组成，每个残差块由卷积层、批处理归一化层和非线性激活函数层组成。

6.一种视频图像编码方法，其特征在于，包括以下步骤：

基于深度学习算法提取目标视频图像的特征图；

7.根据权利要求6所述的视频图像编码方法，其特征在于，还包括：对原始视频图像进行压缩，从而得到压缩图像以作为所述目标视频图像。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求6至7中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求6至7中任一项所述的方法的步骤。