CN114463447A

CN114463447A - 一种图像处理方法、装置、电子设备以及存储介质

Info

Publication number: CN114463447A
Application number: CN202111624217.6A
Authority: CN
Inventors: 黄靖淞; 王康; 刘德龙; 陈波扬
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-10

Abstract

本发明提供一种图像处理方法、装置、电子设备以及存储介质，图像处理方法包括：对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；利用所述量化后的图像处理模型对待处理图像进行处理。该方法能够压缩图像处理模型占用的存储空间，降低图像处理模型在平台上的部署难度。

Description

一种图像处理方法、装置、电子设备以及存储介质

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种图像处理方法、装置、电子设备以及存储介质。

背景技术

随着深度学习的快速发展，卷积神经网络结构越来越复杂，参数量越来越大，对存储空间的要求也越来越大，这无疑会增加卷积神经网络在平台上的部署难度，难度主要在于算法推理速度可能达不到实时性，以及模型占用内存空间大。

发明内容

本发明提供一种图像处理方法、装置、电子设备以及存储介质，该方法能够压缩图像处理模型占用的存储空间，降低图像处理模型在平台上的部署难度。

为解决上述技术问题，本发明提供的第一个技术方案为：提供一种图像处理方法，包括：对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；利用所述量化后的图像处理模型对待处理图像进行处理。

其中，所述对图像处理模型的卷积层和批处理层进行量化的步骤，包括：将所述卷积层与所述批处理层进行融合，得到融合层；对融合层进行量化。

其中，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：利用量化后的融合层对所述待处理图像进行处理。

其中，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：对所述待处理图像进行分块，得到多个待处理块；利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理；其中，一个所述待处理块中所述像素点的数量是一个所述线程束中所述线程数量的整数倍。

其中，所述利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理的步骤，包括：响应于相邻的所述线程对应处理的所述像素点的位置满足预设条件，则利用所述GPU的纹理内存存储所述像素点对应的数据，进而加速访存。

其中，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：利用第一CPU线程以及第二CPU线程对所述待处理图像的图像序列进行检测；响应于所述图像序列为奇数，利用所述第一CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测；响应于所述图像序列为偶数，利用所述第二CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测。

其中，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：将所述待处理图像的图像序列存入数据集合中；利用所述第一CPU线程或所述第二CPU线程从数据集合中获取所述图像序列；响应于获取所述图像序列成功，利用所述第一CPU线程或所述第二CPU线程基于所述量化后的图像处理模型对所述图像序列对应的所述待处理图像进行检测。

为解决上述技术问题，本发明提供的第二个技术方案为：提供一种图像处理装置，包括：量化模块，用于对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；处理模块，用于利用所述量化后的图像处理模型对待处理图像进行处理。

为解决上述技术问题，本发明提供的第三个技术方案为：提供一种电子设备，包括：存储器和处理器，其中，存储器存储有程序指令，处理器从存储器调取程序指令以执行上述任一项的方法。

为解决上述技术问题，本发明提供的第四个技术方案为：提供一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现上述任一项的方法。

本发明的有益效果，区别于现有技术的情况，本发明对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；利用所述量化后的图像处理模型对待处理图像进行处理。该方法能够压缩图像处理模型占用的存储空间，降低图像处理模型在平台上的部署难度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明图像处理方法的一实施例的流程示意图；

图2为图1中步骤S12的第一实施例的流程示意图；

图3为图1中步骤S12的第二实施例的流程示意图；

图4为图1中步骤S12的第三实施例的流程示意图；

图5为本发明图像处理装置的一实施例的结构示意图；

图6为本发明电子设备的一实施例的结构示意图；

图7为本发明计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具体的，请参见1，图1为本发明图像处理方法的一实施例的流程示意图，具体包括：

步骤S11：对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型。

首先，对模型进行训练，进而得到图像处理模型，图像处理模型训练完成后，卷积(Convolution，CONV)层和批标准化(Batch Normalization，BN)层的参数已经固定。

具体的，量化可以减少计算量，并且压缩模型的大小。本申请中，对卷积层以及批标准化层进行量化，可以减少卷积层以及批标准层的计算量，进而压缩图像处理模型占用的存储空间的大小。

在一实施例中，可以将卷积层与批处理层进行融合，得到融合层对融合层进行量化。相对于分别对卷积层与批处理层进行量化而言，可以减少量化次数。也即一次量化操作即可以同时得到卷积层量化的收益以及批处理层量化的收益。在一实施例中，量化就是将训练好的图像处理模型从FP32表示转化为用FP16或FP8表示，一般而言，FP16、FP8计算速度比FP32计算速度快，并且所占用的存储空间更小。

具体的，卷积层的计算公式为：y＝w*x+b，x为卷积层的输入，y为卷积层的输出，w为卷积核权值，b为偏置值。批处理层的计算公式为：

其中y1为批处理层的输入，μ为均值，σ²为方差，ε为扰动值，用于防止分母

为0，γ为缩放系数，β为平移量，X～为输出。将卷积层的计算公式代入批处理层的计算公式，即实现卷积层与批处理层的融合，具体的，融合层的计算公式为：

也即融合层的本质是将卷积核权值乘以一个系数，将偏置加上一个系数。

步骤S12：利用所述量化后的图像处理模型对待处理图像进行处理。

具体的，利用量化后的融合层对待处理图像进行处理。在实际的图像处理过程中，卷积层和批标准化层的计算都是在GPU上，具体的，卷积层在GPU端计算完成后会将输出的特征图拷贝到CPU端，在批标准化层进行计算时，将特征图再从CPU端拷贝到GPU端作为批标准化层的输入。本申请将卷积层与批标准化进行融合，然后进行量化，利用量化后的融合层对待处理图像进行处理，一方面压缩图像处理模型占用的存储空间的大小，另一方面在融合层计算时，既可以达到卷积层与批标准化的计算精度，又避免了计算数据在CPU与GPU之间的传输，减少了计算耗时，提高了计算速度。

本申请经优化后的算法模型在英伟达嵌入式异构平台部署，该硬件设备是ARMCPU+NVIDIA GPU的方式，所以在PC电脑端可以用的深度学习框架，在嵌入式端基本上也能兼容使用，因而算法移植的成本相对较低，可以较好地将算法模型部署上去。

通常，对待处理图像进行处理时，需要做一些预处理以及后处理，预处理与后处理的代码通常是在CPU端执行的串行代码，由于图像是由很多像素组成，预处理以及后处理存在对每个像素点进行相同操作，具体而言，就是在CPU端利用代码对像素点逐一进行处理，图像中的像素点数量多，计算过程尤其耗时。本申请利用GPU对待处理图像进行预处理以及后处理，在GPU端使用CUDA语言对CPU串行代码进行加速，发挥GPU的并行功能，提高计算速度，减少耗时。具体的，利用CUDA加速图像预处理后，还需要结合图2，步骤S12具体包括：

步骤S21：对待处理图像进行分块，得到多个待处理块。

步骤S22：利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理。

具体的，对待处理图像进行分块时，使得每一个待处理块的像素点的数量是一个线程束中线程数量的整数倍。在一具体实施例中，GPU的并行方式为SIMT(SingleInstruction Multiple Threads，即单指令多线程)，一般而言，一个线程束包含32个线程，一个线程束中多个线程执行同一条指令。可以理解的，在对待处理图像进行分块时，使得每一待处理块中像素点的数量为32的整数倍。以此，在对像素点进行处理时，接收到指令时，线程束中的32个线程均可以对应对至少一个像素点进行处理，使得计算资源被充分利用。

在一实施例中，还可以进行访存加速。由于普通的全局内存访问中存在空间局部性，会影响访存速度，本申请利用GPU的纹理内存存储像素点对应的数据，进而加速访存。具体的，在相邻的所述线程对应处理的所述像素点的位置满足预设条件，则利用所述GPU的纹理内存存储所述像素点对应的数据，进而加速访存。纹理内存和表面内存(surfacememory)实质上是全局内存的一个特殊形态，全局内存被绑定为纹理内存(表面内存)，对其的读(写)操作将通过专门的texture cache(纹理缓存)进行，其实称为纹理缓存更加贴切。纹理缓存的优势：纹理缓存具备硬件插值特性，可以实现最近邻插值和线性插值。纹理缓存针对二维空间的局部性访问进行了优化，所以通过纹理缓存访问二维矩阵的邻域会获得加速。也即，在相邻的所述线程对应处理的所述像素点的位置很接近时，利用所述GPU的纹理内存存储所述像素点对应的数据，进而加速访存。

需要说明的是，GPU的并行方式，线程网络包含多个线程束，线程束又包含多个线程，每一个线程都是相互独立的，可以执行自己的计算，互不干扰。

具体的，在单线程处理图片帧的情况下，CPU、GPU利用率没有持续保持在较高水平，表明处理器的计算能力没有完全发挥。本申请采用多线程的方案进行图像处理，一方面可以提高CPU和GPU的利用率，另一方面还可以提升检测帧率。具体请参见图3，包括：

步骤S31：利用第一CPU线程以及第二CPU线程对所述待处理图像的图像序列进行检测。

数据库中存储有大量的待处理图像，每一待处理图像都具有其对应的图像序列，该图像序列可以表征待处理图像在数据库中的帧数。本实施例中，利用第一CPU线程以及第二CPU线程对待处理图像的图像序列进行检测。

步骤S32：响应于所述图像序列为奇数，利用所述第一CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测；响应于所述图像序列为偶数，利用所述第二CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测。

在检测到图像序列为奇数时，利用第一CPU线程基于量化后的图像处理模型对对应的待处理图像进行检测。在检测到图像序列为偶数时，利用第二CPU线程基于量化后的图像处理模型对对应的待处理图像进行检测。也即本实施例中，利用第一CPU线程对奇数序列的待处理图像进行检测，利用第二CPU线程对偶数序列的待处理图像进行检测。

本实施例中，第一CPU线程与第二CPU线程在进行待处理图像的检测时，总耗时存在一定的差异。

本实施例中，通过CUDA编程语言加速图像预处理后处理；通过多线程多路推理的方式，充分利用计算资源，从而提升处理帧率。

在另一实施例中，为了进一步减少耗时，本申请还提出一种动态多线程的图像检测方法，利用多线程进行图像处理，如图4所示，具体包括：

步骤S41：将所述待处理图像的图像序列存入数据集合中。

步骤S42：利用所述第一CPU线程或所述第二CPU线程从数据集合中获取所述图像序列。

步骤S43：响应于获取所述图像序列成功，利用所述第一CPU线程或所述第二CPU线程基于所述量化后的图像处理模型对所述图像序列对应的所述待处理图像进行检测。

具体的，将所有待处理图像的图像序列存入一个数据集合img_list中，该数据集合用锁保护，每次第一CPU线程或所述第二CPU线程从img_list尾取待处理图像的图像序列，如果取到，就从数组尾将序号弹出，并释放锁，然后第一CPU线程或所述第二CPU线程进行图像检测；如果没取到则表示img_list正在被读写，当前线程等待，直到取到下一个处理图像的图像序列，才开始检测。例如，第一CPU线程在将当前的待处理图像检测完成之后，从img_list尾取待处理图像的图像序列，如果取到，则对取到的待处理图像进行检测，若未取到，则说明第二CPU线程正在访问img_list。本实施例中，动态多线程预测策略下，同一个子线程不一定每次都取得奇数或者偶数序列图片，而可能是奇数序列也可能是偶数序列，可以更好地进行调度，避免了第一CPU线程或所述第二CPU线程的等待时间，充分提高了利用率。

请参见图5，为本发明图像处理装置的一实施例的结构示意图，具体包括量化模块51以及处理模块52。

其中，量化模块51用于对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型。在一实施例中，量化模块51将所述卷积层与所述批处理层进行融合，得到融合层；对融合层进行量化。

处理模块52用于利用所述量化后的图像处理模型对待处理图像进行处理。在一实施例中，处理模块52利用量化后的融合层对所述待处理图像进行处理。

在一实施例中，处理模块52对所述待处理图像进行分块，得到多个待处理块；利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理；其中，一个所述待处理块中所述像素点的数量是一个所述线程束中所述线程数量的整数倍。

在一实施例中，响应于相邻的所述线程对应处理的所述像素点的位置满足预设条件，处理模块52则利用所述GPU的纹理内存存储所述像素点对应的数据，进而加速访存。

在一实施例中，处理模块52利用第一CPU线程以及第二CPU线程对所述待处理图像的图像序列进行检测；响应于所述图像序列为奇数，处理模块52利用所述第一CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测；响应于所述图像序列为偶数，处理模块52利用所述第二CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测。

在一实施例中，将所述待处理图像的图像序列存入数据集合中；处理模块52利用所述第一CPU线程或所述第二CPU线程从数据集合中获取所述图像序列；响应于获取所述图像序列成功，处理模块52利用所述第一CPU线程或所述第二CPU线程基于所述量化后的图像处理模型对所述图像序列对应的所述待处理图像进行检测。

请参见图6，为本发明电子设备的一实施例的结构示意图，电子设备包括相互连接的存储器202和处理器201。

存储器202用于存储实现上述任意一项的方法的程序指令。

处理器201用于执行存储器202存储的程序指令。

其中，处理器201还可以称为CPU(Central Processing Unit，中央处理单元)。处理器201可能是一种集成电路芯片，具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器202可以为内存条、TF卡等，可以存储设备的电子设备中全部信息，包括输入的原始数据、计算机程序、中间运动结果和最终运动结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，电子设备才有记忆功能，才能保证正常工作。电子设备的存储器按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图7，为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有方法的程序文件203，其中，该程序文件203可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像处理方法，其特征在于，包括：

对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；

利用所述量化后的图像处理模型对待处理图像进行处理。

2.根据权利要求1所述的图像处理方法，其特征在于，所述对图像处理模型的卷积层和批处理层进行量化的步骤，包括：

将所述卷积层与所述批处理层进行融合，得到融合层；

对融合层进行量化。

3.根据权利要求1所述的图像处理方法，其特征在于，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：

利用量化后的融合层对所述待处理图像进行处理。

4.根据权利要求1所述的图像处理方法，其特征在于，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：

对所述待处理图像进行分块，得到多个待处理块；

利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理；其中，一个所述待处理块中所述像素点的数量是一个所述线程束中所述线程数量的整数倍。

5.根据权利要求4所述的图像处理方法，其特征在于，所述利用GPU线程束中线程基于所述量化后的图像处理模型对所述待处理块中的像素点进行处理的步骤，包括：

响应于相邻的所述线程对应处理的所述像素点的位置满足预设条件，则利用所述GPU的纹理内存存储所述像素点对应的数据，进而加速访存。

6.根据权利要求1～5任一项所述的图像处理方法，其特征在于，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：

利用第一CPU线程以及第二CPU线程对所述待处理图像的图像序列进行检测；

响应于所述图像序列为奇数，利用所述第一CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测；响应于所述图像序列为偶数，利用所述第二CPU线程基于所述量化后的图像处理模型对对应的所述待处理图像进行检测。

7.根据权利要求1～5任一项所述的图像处理方法，其特征在于，所述利用所述量化后的图像处理模型对待处理图像进行处理的步骤，包括：

将所述待处理图像的图像序列存入数据集合中；

利用第一CPU线程或第二CPU线程从数据集合中获取所述图像序列；

响应于获取所述图像序列成功，利用所述第一CPU线程或所述第二CPU线程基于所述量化后的图像处理模型对所述图像序列对应的所述待处理图像进行检测。

8.一种图像处理装置，其特征在于，包括：

量化模块，用于对图像处理模型的卷积层和批处理层进行量化，得到量化后的图像处理模型；

处理模块，用于利用所述量化后的图像处理模型对待处理图像进行处理。

9.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器存储有程序指令，所述处理器从所述存储器调取所述程序指令以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-7任一项所述的方法。