CN115565010A

CN115565010A - 一种图像处理方法、装置、设备及可读存储介质

Info

Publication number: CN115565010A
Application number: CN202211269537.9A
Authority: CN
Inventors: 张书铭
Original assignee: Zhengzhou Inspur Data Technology Co Ltd
Current assignee: Zhengzhou Inspur Data Technology Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-03

Abstract

本申请公开了一种图像处理方法、装置、设备及可读存储介质，该方法包括：获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对目标图像进行特征提取，得到图像特征；利用图像特征，对目标图像进行分类；其中，训练过程，包括：利用教师网络模型和知识蒸馏学生网络模型，分别提取训练图像的特征，得到至少两个第一特征值和至少两个第二特征值；利用第一特征值与第二特征值确定的损失值，对学生网络模型进行调参处理，训练完成后得到目标网络模型。在本申请中，使得训练后得到目标网络模型能够在处理图像时，具有教师网络模型的精准度，但目标网络模型的模型大小更小，运行速度更快。

Description

一种图像处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种图像处理方法、装置、设备及可读存储介质。

背景技术

在人工智能时代，随着服务器和个人主机配置的发展，在训练神经网络的时候，研发人员越来越倾向于使用海量数据和十万百万的迭代次数去训练一个庞大的网络模型。经过这种训练方法的模型在处理实际业务的过程中，往往有着令人满意的表现。

受制于空间、资源等相关因素的影响，这些细致入微的庞大模型，可能在进行部署的时候变得棘手。同时，随着人工智能的应用场景的增多，微型的嵌入式系统设备逐渐成为市场上诸多场景应用的首选，因此，神经网络模型的轻量化，势在必行。但是，轻量化的网络模型在实际应用中，其效果远不如细致入微的庞大模型。

综上所述，如何使得轻量化的网络模型能够具备庞大模型的处理效果等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种图像处理方法、装置、设备及可读存储介质，能够使得训练后得到目标网络模型能够在处理图像时，具有教师网络模型的精准度，但目标网络模型的模型大小更小，运行速度更快。

为解决上述技术问题，本申请提供如下技术方案：

一种图像处理方法，包括：

获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对所述目标图像进行特征提取，得到图像特征；

利用所述图像特征，对所述目标图像进行分类；

其中，所述目标网络模型的训练过程，包括：

利用所述教师网络模型，提取训练图像的特征，得到至少两个第一特征值；

利用知识蒸馏学生网络模型，提取所述训练图像的特征，得到至少两个第二特征值；

利用所述第一特征值与所述第二特征值，确定所述知识蒸馏学生网络模型的损失值；

利用所述损失值对所述知识蒸馏学生网络模型进行调参处理，直到训练完成，将所述知识蒸馏学生网络模型确定为目标网络模型。

优选地，利用所述第一特征值与所述第二特征值，确定所述知识蒸馏学生网络模型的损失值，包括：

分别比对所述第一特征值与所述第二特征值，得到至少两个特征差异；

利用至少两个所述特征差异，确定所述知识蒸馏学生网络模型的损失值。

优选地，利用至少两个所述特征差异，确定所述知识蒸馏学生网络模型的损失值，包括：

计算各个所述特征差异分别对应的损失；

对各个所述损失进行加权求和，得到所述损失值。

优选地，利用所述损失值对所述知识蒸馏学生网络模型进行调参处理，包括：

选择与所述损失值对应的梯度下降模式，对知识蒸馏学生网络模型的卷积层进行调参处理。

优选地，所述利用所述教师网络模型，提取训练图像的特征，得到至少两个第一特征值，包括：

将训练好的卷积神经网络模型，作为所述教师网络模型，并提取所述训练图像的特征，得到至少两个所述第一特征值。

优选地，在所述利用知识蒸馏学生网络模型，提取所述训练图像的特征，得到至少两个第二特征值之前，包括：

构建出与所述教师网络模型相同结构或不同结构的所述知识蒸馏学生网络模型。

优选地，所述构建出与所述教师网络模型相同结构或不同结构的所述知识蒸馏学生网络模型，包括：

所述知识蒸馏学生网络模型包括：数据集模块、特征提取模块、训练模型模块、建立模型模块、数据解析模块、精确度矫正逼近模块；其中，所述知识蒸馏学生网络模型具有比所述教师网络模型更少的卷积层数量。

一种图像处理装置，包括：

图像特征提取模块，用于获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对所述目标图像进行特征提取，得到图像特征；

图像分类模块，用于利用所述图像特征，对所述目标图像进行分类；

模型训练模块，用于利用所述教师网络模型，提取训练图像的特征，得到至少两个第一特征值；

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述图像处理方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像处理方法的步骤。

应用本申请实施例所提供的方法，获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对目标图像进行特征提取，得到图像特征；利用图像特征，对目标图像进行分类；其中，目标网络模型的训练过程，包括：利用教师网络模型，提取训练图像的特征，得到至少两个第一特征值；利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值；利用第一特征值与第二特征值，确定知识蒸馏学生网络模型的损失值；利用损失值对知识蒸馏学生网络模型进行调参处理，直到训练完成，将知识蒸馏学生网络模型确定为目标网络模型。

知识蒸馏可以将大型教师网络的知识转移到较小的学生网络。将学习能力复杂、鲁棒的教师网络学习到的特征表示提取出来，传递给参数较少、学习能力较弱的学生网络，一般可以提高学生网络的准确性。特别地，在本申请中，当训练知识蒸馏学生网络模型时，当计算损失时，利用教师网络模型输出至少两个第一特征值与知识蒸馏学生网络模型输出的至少两个第二特征值进行确定。即，在本申请中，在训练图像特征的提取网络模型时，与常规的反馈逼近真实值不同。具体的，在本申请中，知识蒸馏学生模型采用训练好的教师网络模型最终输出的值进行逼近处理，使得知识蒸馏学生模型的性能尽可能的接近教师网络模型，从而使得训练后得到目标网络模型能够在处理图像时，具有教师网络模型的精准度，但目标网络模型的模型大小更小，运行速度更快。

相应地，本申请实施例还提供了与上述图像处理方法相对应的图像处理装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种图像处理方法的实施流程图；

图2为本申请实施例中一种针对原卷积神经网络网络模型的知识蒸馏网络整体框图；

图3为本申请实施例中一种损失值确定示意图；

图4为本申请实施例中一种精度校正逼近示意图；

图5为本申请实施例中一种图像处理方法的具体实施示意图；

图6为本申请实施例中一种图像处理装置的结构示意图；

图7为本申请实施例中一种电子设备的结构示意图；

图8为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例中一种图像处理方法的流程图，该方法包括以下步骤：

S101、获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对目标图像进行特征提取，得到图像特征。

在使用目标网络模型之前，需要先构建并训练好。在本实施例中，该目标网络模型是对训练好的教师网络模型进行知识蒸馏所得，并按照本申请所提供的训练过程而训练后的。

其中，知识蒸馏，一种常用的模型压缩方法。这种方法将大型教师网络的知识转移到较小的学生网络。将学习能力复杂、鲁棒的教师网络学习到的特征表示提取出来，传递给参数较少、学习能力较弱的学生网络，可以提高学生网络的准确性。且该学生网络相较于教师网络，其规模更小，运行速率更快。

在本实施例中，对教师网络模型本身并不做限定，即教师网络模型只要为训练好的模型规模比目标网络模型大的网络即可，如VGG，LeNet，AlexNet，GooLeNet。

请参考图5，为了使得目标网络模型能够更加贴合教师网络的处理效果，可以通过执行以下步骤来训练目标网络模型。图5中的学生网络即知识蒸馏学生网络模型；老师网络即教师网络模型。

即，其中，目标网络模型的训练过程，包括：

步骤一、利用教师网络模型，提取训练图像的特征，得到至少两个第一特征值。

其中，教师网络模型可包括数据集模块、特征提取模块、训练模型模块、建立模型模块；数据集模块分未训练数据和测试数据。数据集模块分未训练数据和测试数据，一般按8：2比例分配(当然还可以为其他比例分配，在此不再一一列举)；特征提取模块提取网络数据的五元组信息特征，训练模块和建立模型模块是对数据进行训练建立算法模型。

该教师网络模型可以具体为训练好的卷积神经网络模型，也就是说，利用训练好的教师网络模型，提取训练图像的特征，得到至少两个第一特征值，包括：将训练好的卷积神经网络模型，作为教师网络模型，并提取训练图像的特征，得到至少两个第一特征值(如图5中的分对数和待加工的描述子)。

步骤二、利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值。

第二特征值如图5中的分对数和待加工的描述子。

需要注意的是，在利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值之前，需要构建出与教师网络模型相同结构或不同结构的知识蒸馏学生网络模型。具体的，知识蒸馏学生网络模型包括：数据集模块、特征提取模块、训练模型模块、建立模型模块、数据解析模块、精确度矫正逼近模块；其中，知识蒸馏学生网络模型具有比教师网络模型更少的卷积层数量。知识蒸馏学习模型的数据集模块、特征提取模块、训练模型模块、建立模型模块与原卷积神经模型框架相同，但结构上更为简单，比如减少卷积层的个数，当原卷积神经选用双卷积层叠加时，学生模型可选用单卷积层。数据解析模块对原卷积神经网络的输出进行解析，提取出特征信息。

步骤三、利用第一特征值与第二特征值，确定知识蒸馏学生网络模型的损失值。

例如，基于分对数这种特征值生成损失值1，基于描述子这种特征值生成损失值2，将各个损失值进行加权得加，得到总损失值。特别地，对于损失值1和损失值2对于的损失计算函数，可以相同也可以不同。即，图中的Llloss是与L2loss可以相同也可以不同。

步骤四、利用损失值对知识蒸馏学生网络模型进行调参处理，直到训练完成，将知识蒸馏学生网络模型确定为目标网络模型。

也就是说，在本申请中，教师网络模型与知识蒸馏学生网络模型都对同一顺利图像进行特征提取，从而分别得到第一特征值和第二特征值。在本实施例中，第一特征值和第二特征值仅用于标识二者的来源不同，即第一特征值是教师网络模型对训练图像进行特征提取而得，而第二特征值是知识蒸馏学生网络模型对训练图像进行特征提取而得。

需要注意的是，在本实施例中，第一特征值的数量至少为两个，第二特征值的数量也至少为两个。且，在确定知识蒸馏学生网络模型的损失值时，并非是基于第二特征值与真实特征值而定，而是基于第一特征值与第二特征值进行确定的。因而，基于第一特征值和第二特征值确定的损失值，并基于该损失值对知识蒸馏学生网络模型进行调参处理，可以使得知识蒸馏学生网络模型的效果更加接近教师网络模型。

在本申请中的一种具体实施方式中，上述步骤三利用第一特征值与第二特征值，确定知识蒸馏学生网络模型的损失值，包括：

步骤1、分别比对第一特征值与第二特征值，得到至少两个特征差异。

例如，可以计算第一特征值与第二特征值之间的差值绝对值，将该绝对值作为特征差异；也可以计算第一特征值与第二特征值之间的比值，将该比值作为特征差异。

步骤2、利用至少两个特征差异，确定知识蒸馏学生网络模型的损失值。

具体的，可计算各个特征差异分别对应的损失；对各个损失进行加权求和，得到损失值。在计算不同特征差异对应的损失时，可以采用不同的损失函数进行计算，也可以采用相同的损失函数进行计算。

计算出各个特征差异对应的损失之后，可以基于预先设置好的权值，来对各个损失进行加权求和，从而得到知识蒸馏学生网络模型的损失值。其中，对各个损失的权重可以根据实际需求进行设置和调整，仅需所有的权重累加为1即可。

在本申请中的一种具体实施方式中，步骤四利用损失值对知识蒸馏学生网络模型进行调参处理，可具体为选择与损失值对应的梯度下降模式，对知识蒸馏学生网络模型的卷积层进行调参处理。具体的，可以对应不同的损失值范围，设置不同的梯度下降模式，因而，当获取到当前的损失值之后，可以根据该损失值所处的损失值范围，从而确定该选择何种梯度下降模式，对知识蒸馏学生网络模型的卷积层进行调参处理。

训练好的知识蒸馏学生网络模型，即为目标网络模型。得到目标网络模型之后，便可将其设置到嵌入式设备中，进行图像处理。

该目标图像可以具体为高帧率相机所采集的图像。例如无人驾驶摄像头所采集的道路图像。得到目标图像之后，便可以利用目标网络模型对目标图像进行特征提取，从而得到图像特征。这些图像特征可以为一些符号或者数值，这些符号或数值，可以表达物体的特性(如正品/次品，坦克/汽车，桌子/椅子、阿拉伯数字等等)和位置(导弹跟踪目标的方位、集成电路引脚的位置等等)。

S102、利用图像特征，对目标图像进行分类。

得到图像特征之后，便可对目标图像进行分类。即按照图像特征具体对应的类别，对该目标图像进行分类。如，将目标图像分为有效图像或无效图像。

为便于本领域技术人员更好地理解本申请实施例所提供的图像处理方法，下面结合具体的应用场景为例，对图像处理方法中的模型训练过程进行详细说明。

以教师网络模型为原卷积神经模型算法模块为例，对知识蒸馏学生网络模块的训练。与原卷积神经网络模型训练时候的反馈逼近真实值不同，知识蒸馏学生模型采用精度矫正逼近模块对模型输出的值与原卷积神经网络模型最终输出的值进行逼近处理，使得学生模型的性能尽可能的接近原卷积神经网络模型。针对原卷积神经网络网络模型的知识蒸馏网络整体框图如图2，特征提取模块和精度矫正逼近模块如图3和图4。

其中，原卷积神经网络即对应本文中的教师网络模型；第一特征值1、第二特征值2和第一特征值3即具体的第一特征值；相应地，第二特征值1、第二特征值2和第二特征值3即为具体的第二特征值；知识蒸馏网络模型即知识蒸馏学生网络模型，本文亦简称为学生网络，学生模型。

具体的，训练过程，包括：

步骤1、将相同的数据集输入原卷积神经网络模型和知识蒸馏学生网络模型中；

步骤2、两个网络模型产生各自的特征值。

步骤3、通过特征提取模块对两个模型产生的特征值进行处理和运算。即基于特征值计算出各个特征值对应的损失。

步骤4、将损失值输入到精度矫正逼近模块，采取合适的梯度下降模式，对学生模型的卷积层进行处理，最终得到目标网络模型。

也就是说，将知识蒸馏应用到网络模型优化，可对原卷积神经网络模型和新的学生模型进行同步训练，使得学生模型在保留原卷积神经网络模型精准度的同时，压缩网络模型的大小，提升网络模型的运行速度。

相应于上面的方法实施例，本申请实施例还提供了一种图像处理装置，下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。

参见图6所示，该装置包括以下模块：

图像特征提取模块101，用于获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对目标图像进行特征提取，得到图像特征；

图像分类模块102，用于利用图像特征，对目标图像进行分类；

模型训练模块103，用于利用教师网络模型，提取训练图像的特征，得到至少两个第一特征值；

利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值；

利用第一特征值与第二特征值，确定知识蒸馏学生网络模型的损失值；

利用损失值对知识蒸馏学生网络模型进行调参处理，直到训练完成，将知识蒸馏学生网络模型确定为目标网络模型。

应用本申请实施例所提供的装置，获取目标图像，并利用对训练好的教师网络模型进行知识蒸馏所得目标网络模型，对目标图像进行特征提取，得到图像特征；利用图像特征，对目标图像进行分类；其中，目标网络模型的训练过程，包括：利用教师网络模型，提取训练图像的特征，得到至少两个第一特征值；利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值；利用第一特征值与第二特征值，确定知识蒸馏学生网络模型的损失值；利用损失值对知识蒸馏学生网络模型进行调参处理，直到训练完成，将知识蒸馏学生网络模型确定为目标网络模型。

在本申请的一种具体实施方式中，模型训练模块103，具体用于分别比对第一特征值与第二特征值，得到至少两个特征差异；

利用至少两个特征差异，确定知识蒸馏学生网络模型的损失值。

在本申请的一种具体实施方式中，模型训练模块103，具体用于计算各个特征差异分别对应的损失；

对各个损失进行加权求和，得到损失值。

在本申请的一种具体实施方式中，模型训练模块103，具体用于选择与损失值对应的梯度下降模式，对知识蒸馏学生网络模型的卷积层进行调参处理。

在本申请的一种具体实施方式中，模型训练模块103，具体用于将训练好的卷积神经网络模型，作为教师网络模型，并提取训练图像的特征，得到至少两个第一特征值。

在本申请的一种具体实施方式中，模型训练模块103，还用于在利用知识蒸馏学生网络模型，提取训练图像的特征，得到至少两个第二特征值之前，构建出与教师网络模型相同结构或不同结构的知识蒸馏学生网络模型。

在本申请的一种具体实施方式中，模型训练模块103，具体用于知识蒸馏学生网络模型包括：数据集模块、特征提取模块、训练模型模块、建立模型模块、数据解析模块、精确度矫正逼近模块；其中，知识蒸馏学生网络模型具有比教师网络模型更少的卷积层数量。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种图像处理方法可相互对应参照。

参见图7所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的图像处理方法的步骤。

具体的，请参考图8，图8为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的图像处理方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种图像处理方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的图像处理方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

利用所述图像特征，对所述目标图像进行分类；

其中，所述目标网络模型的训练过程，包括：

2.根据权利要求1所述的图像处理方法，其特征在于，利用所述第一特征值与所述第二特征值，确定所述知识蒸馏学生网络模型的损失值，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，利用至少两个所述特征差异，确定所述知识蒸馏学生网络模型的损失值，包括：

计算各个所述特征差异分别对应的损失；

对各个所述损失进行加权求和，得到所述损失值。

4.根据权利要求1所述的图像处理方法，其特征在于，利用所述损失值对所述知识蒸馏学生网络模型进行调参处理，包括：

5.根据权利要求1所述的图像处理方法，其特征在于，所述利用所述教师网络模型，提取训练图像的特征，得到至少两个第一特征值，包括：

6.根据权利要求1至5任一项所述的图像处理方法，其特征在于，在所述利用知识蒸馏学生网络模型，提取所述训练图像的特征，得到至少两个第二特征值之前，包括：

7.根据权利要求6所述的图像处理方法，其特征在于，所述构建出与所述教师网络模型相同结构或不同结构的所述知识蒸馏学生网络模型，包括：

8.一种图像处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述图像处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像处理方法的步骤。