CN111372084B

CN111372084B - 面向神经网络编解码工具的并行推理方法及系统

Info

Publication number: CN111372084B
Application number: CN202010100106.4A
Authority: CN
Inventors: 马思伟; 林凯; 贾川民; 王苫社; 赵政辉
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-07-20
Anticipated expiration: 2040-02-18
Also published as: CN111372084A

Abstract

本发明公开了一种面向神经网络编解码工具的并行推理方法，包括：对待处理的图像进行边界扩充，得到边界完整的图像；根据光栅扫描顺序将所述边界完整的图像划分成大小相同的图像块；将所述大小相同的图像块组织成若干个张量，并将所述若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置所述张量的批尺寸值。通过上述方法，可以有效减少神经网络推理时的显存，降低神经网络视频编码工具的编解码复杂度。

Description

面向神经网络编解码工具的并行推理方法及系统

技术领域

本发明涉及数字信号处理技术领域，特别涉及一种面向神经网络编解码工具的并行推理方法及系统。

背景技术

深度学习在传统计算机视觉任务上不断取得突破，环路滤波作为底层的计算机视觉任务，十分适合用深度学习处理，神经网络具有强大的非线性拟合能力，对于视频编码后产生的块效应、振铃效应等有较好的抑制作用。

现有技术中，已有许多针对AVS3,VVC,HEVC等主流视频编码标准的神经网络环路滤波工作。但是一方面神经网络模型计算量通常较大，直接嵌入视频编解码器中导致复杂度成倍增长，另一方面对于大分辨率(4K)的视频序列，由于显存大小的限制，无法整帧进行网络推理。

发明内容

本公开实施例提供了一种面向神经网络编解码工具的并行推理方法及系统。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

在一些可选地实施例中，一种面向神经网络编解码工具的并行推理方法，包括：

对待处理的图像进行边界扩充，得到边界完整的图像；

根据光栅扫描顺序将边界完整的图像划分成大小相同的图像块；

将大小相同的图像块组织成若干个张量，并将若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置张量的批尺寸值。

进一步地，对待处理的图像进行边界扩充，包括：

使用边界像素对待处理的图像进行镜像扩充；

使用边界像素对待处理的图像进行反射扩充。

进一步地，根据光栅扫描顺序将边界完整的图像划分成大小相同的图像块，包括：

所述图像块的大小可以任意设定；

所述图像块的大小可以与深度学习编码工具中率失真优化决策的块大小一致。

进一步地，将大小相同的图像块组织成若干个张量，包括：

将所述大小相同的图像块放入张量中；

与率失真优化结合，解码端当该图像块的率失真决策结果为真时，将该图像块放入张量中。

进一步地，还包括：

当剩余图像块数量少于设置的张量的批尺寸值时，将剩余图像块组织成一组张量。

进一步地，对待处理的图像进行边界扩充之前，还包括：

获取待处理的图像。

在一些可选地实施例中，一种面向神经网络编解码工具的并行推理装置，包括：

扩充模块，用于对待处理的图像进行边界扩充，得到边界完整的图像；

划分模块，用于根据光栅扫描顺序将边界完整的图像划分成大小相同的图像块；

组织模块，用于将大小相同的图像块组织成若干个张量，并将若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置张量的批尺寸值。

进一步地，扩充模块，包括：

第一扩充单元，用于使用边界像素对待处理的图像进行镜像扩充；

第二扩充单元，用于使用边界像素对待处理的图像进行反射扩充。

在一些可选地实施例中，一种面向神经网络编解码工具的并行推理系统，包括：

一个或多个处理器、存储一个或多个程序的存储装置；

当一个或多个程序被一个或多个处理器执行时，一个或多个处理器实现上述实施例提供的一种面向神经网络编解码工具的并行推理方法。

在一些可选地实施例中，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时，实现上述实施例提供的一种面向神经网络编解码工具的并行推理方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本发明提供了一种面向神经网络编解码工具的并行推理方法，首先将神经网络编码工具待处理的输入图像扩展边界后划分成尺寸相同的图像块，其次将相同大小的若干个图像块堆叠成一个批次并行进行神经网络推理。通过根据神经网络编码工具以及硬件显存大小灵活的设置每个批次的图像块数量，可以发挥硬件的并行推理能力，降低神经网络嵌入视频解码器中编解码复杂度。即使对于大分辨率(4K)的视频序列，本发明也可以不受显存大小的限制进行网络推理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种面向神经网络编解码工具的并行推理方法的流程示意图；

图2是根据一示例性实施例示出的一种不同并行批尺寸值的解码复杂度示意图；

图3是根据一示例性实施例示出的一种面向神经网络编解码工具的并行推理装置的结构示意图；

图4是根据一示例性实施例示出的一种面向神经网络编解码工具的并行推理系统的结构示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或一个以上实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

S101、对待处理的图像进行边界扩充，得到边界完整的图像；

通常，为了避免边界像素的数量不足划分模块中的图像块大小，首先将待输入神经网络的图像进行边界扩充，在对待处理的图像进行边界扩充之前，还包括，获取待处理的图像，然后对待处理的输入图像进行边界扩充，得到边界完整的图像。

具体地，在对输入的图像进行边界扩充时，扩充使用的像素为最边界处的像素，可以使用边界像素对待处理的图像进行镜像扩充，也可以使用边界像素对待处理的图像进行反射扩充。

通过上述方法，对待输入神经网络的图像进行边界扩充，可以保证边界像素的数量满足划分模块的要求。

S102、根据光栅扫描顺序将边界完整的图像划分成大小相同的图像块；

通常，对图像的边界进行扩充后，根据光栅扫描顺序将扩充完成的图像划分成大小相同的图像块，其中，图像块的大小任意，当其与深度学习编码工具中率失真优化决策的块大小一致时，可以进一步降低解码复杂度。

在嵌入编解码器时，基于神经网络的环路滤波等编码工具往往与率失真优化相结合。通过将图像块的大小与深度学习编码工具中率失真优化决策的块大小保持一致，可以与块级率失真优化紧密结合，借助于码流中的块级率失真语法元素，将所有语法元素为“1”的图像块组成一组张量。在张量组织过程时可以跳过关闭神经网络编码工具的图像块，避免不必要的计算，进一步降低解码复杂度。

为不失一般性，本发明将图像块大小设为(h*w)，在实际操作中，为避免分块并行带来额外的块效应，分块的时候会考虑周围像素，实际的分块尺寸为(h+2*p,w+2*p)，其中p为卷积核大小，网络推理结束后只有中间(h*w)的区域作为运算结果返回。

通过上述方法，本发明中的图像块可以与神经网络编码工具的块级率失真优化紧密结合，可以跳过神经网络编码工具关闭的图像块，减少冗余计算，进一步加速解码过程。

S103、将大小相同的图像块组织成若干个张量，并将若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置张量的批尺寸值。

具体地，得到划分完成的大小相同的图像块后，将多个大小相同的图像块组织成一组张量，其中，根据神经网络编码工具以及硬件显存大小设置张量的批尺寸值，批尺寸值表示一个张量中图像块的数目。将组织完成的张量送入神经网络中进行前向传播处理。

可选地，当剩余图像块数量少于设置的张量的批尺寸值时，将剩余图像块按照实际数目组织成一组张量进行并行处理。

可选地，张量的批尺寸值可以是预先设定的值，也可以自适应根据实际使用的硬件决定。

通过上述方法，可以根据神经网络编码工具以及硬件显存大小灵活的设置每个批次的图像块数量，同时可以发挥硬件的并行推理能力，降低编解码复杂度。

如图2所示，张量的批尺寸值(bs)分别为1、4、8、16、32，解码复杂度随着张量的批尺寸个数的增多而递减，由此可知，本发明提出的基于张量并行的前向推断方法能够有效的降低解码时间和运行时显存开销，并且可以根据显存的实际情况灵活的选择张量尺寸，即并行推理图像块个数，实现自适应的张量批尺寸决策。

进一步地，对待处理的图像进行边界扩充，包括：

使用边界像素对待处理的图像进行镜像扩充；

使用边界像素对待处理的图像进行反射扩充。

通过上述方法，对待输入神经网络的图像进行边界扩充，可以保证边界像素的数量满足划分要求。

图像块的大小任意，当其与深度学习编码工具中率失真优化决策的块大小一致，可以进一步降低解码复杂度。

进一步地，将大小相同的图像块组织成若干个张量，包括：

当该图像块的编码端率失真决策结果为真时，将该图像块放入张量中。

进一步地，还包括：

进一步地，对待处理的图像进行边界扩充之前，还包括：

获取待处理的图像。

S301、扩充模块，用于对待处理的图像进行边界扩充，得到边界完整的图像；

S302、划分模块，用于根据光栅扫描顺序将边界完整的图像划分成大小相同的图像块；

S303、组织模块，用于将大小相同的图像块组织成若干个张量，并将若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置张量的批尺寸值。

进一步地，扩充模块，包括：

图4是根据一示例性实施例示出的一种面向神经网络编解码工具的并行推理系统的示意图。

在一些实施例中，一种面向神经网络编解码工具的并行推理系统，包括处理器41和存储有程序指令的存储器42，还可以包括通信接口43和总线44。其中，处理器41、通信接口43、存储器42可以通过总线44完成相互间的通信。通信接口43可以用于信息传输。处理器41可以调用存储器42中的逻辑指令，以执行上述实施例提供的面向神经网络编解码工具的并行推理方法。

此外，上述的存储器42中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器42作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种面向神经网络编解码工具的并行推理方法，其特征在于，包括：

对待处理的图像进行边界扩充，得到边界完整的图像；

根据光栅扫描顺序将所述边界完整的图像划分成大小相同的图像块，其中，所述图像块的大小可以任意设定，所述图像块的大小可以与深度学习编码工具中率失真优化决策的块大小一致；

将所述大小相同的图像块组织成若干个张量，并将所述若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置所述张量的批尺寸值。

2.根据权利要求1所述的方法，其特征在于，所述对待处理的图像进行边界扩充，包括：

使用边界像素对所述待处理的图像进行镜像扩充；

使用边界像素对所述待处理的图像进行反射扩充。

3.根据权利要求1所述的方法，其特征在于，将所述大小相同的图像块组织成若干个张量，包括：

将所述大小相同的图像块放入张量中；

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述对待处理的图像进行边界扩充之前，还包括：

获取待处理的图像。

6.一种面向神经网络编解码工具的并行推理装置，其特征在于，包括：

划分模块，用于根据光栅扫描顺序将所述边界完整的图像划分成大小相同的图像块，其中，所述图像块的大小可以任意设定，所述图像块的大小可以与深度学习编码工具中率失真优化决策的块大小一致；

组织模块，用于将所述大小相同的图像块组织成若干个张量，并将所述若干个张量作为一组张量同时送入神经网络中进行前向传播处理，其中，根据神经网络编码工具以及硬件显存大小设置所述张量的批尺寸值。

7.根据权利要求6所述的装置，其特征在于，所述扩充模块，包括：

第一扩充单元，用于使用边界像素对所述待处理的图像进行镜像扩充；

第二扩充单元，用于使用边界像素对所述待处理的图像进行反射扩充。

8.一种面向神经网络编解码工具的并行推理系统，其特征在于，包括：

一个或多个处理器、存储一个或多个程序的存储装置；

当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现如权利要求1～5任一项所述的一种面向神经网络编解码工具的并行推理方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～5任一项所述的一种面向神经网络编解码工具的并行推理方法。