CN114519717A

CN114519717A - 一种图像处理方法及装置、计算机设备、存储介质

Info

Publication number: CN114519717A
Application number: CN202111660709.0A
Authority: CN
Inventors: 林丰; 胡文泽; 王孝宇; 陈宁
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-20

Abstract

本发明公开了一种图像处理方法及装置、计算机设备、存储介质，该图像处理方法包括：基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块，通过调整第一图像块大小的方式得到第二图像块；利用教师网络对多个第二图像块进行特征提取处理，以得到第一特征；教师网络为特征分类网络；利用学生网络对第一图像进行特征提取处理，以得到第二特征，学生网络为待训练的网络；对第二特征和第一特征进行知识蒸馏处理，训练完成的学生网络用于对第二图像进行目标检测。本发明通过用于分类任务的教师网络对学生网络进行蒸馏训练，不需使用带数据标签的数据集，本发明明显地提高训练完成的学生网络的目标检测性能，极大降低了成本投入。

Description

一种图像处理方法及装置、计算机设备、存储介质

技术领域

本发明涉及目标检测技术领域，更为具体来说，本发明能够提供一种图像处理方法及装置、计算机设备、存储介质。

背景技术

目前，在目标检测技术领域中，基于深度学习的算法在学术界和工业界均属于主流的技术方案。与大多数深度学习任务类似，这类方法是数据驱动的，性能的优劣很大程度上取决于训练数据的丰富程度。常用的数据集可包括MS COCO(Microsoft Common Objectsin Context，微软上下文常见对象数据集)、PASCAL VOC(PASCAL Visual Object Classes，帕斯卡视觉对象类数据集)、ImageNet(图像网络数据集)等，更大更丰富的数据集可明显提升目标检测效果。但是大多数的目标检测方案需要依赖有数据标签的数据集，而数据标签需要耗费大量的人力和物力才能够得到，携带有标签的有限数据集难以满足越来越多场景下的目标检测，不仅使得目标检测效果不理想，而且导致目标检测的实现成本过高。

发明内容

为解决传统的目标检测方案存在目标检测效果不理想、实现成本高等问题，本发明一个或多个实施例能够提供一种图像处理方法及装置、计算机设备、存储介质，以达到提高目标检测效果和降低投入成本等技术目的。

为实现上述的技术目的，本发明提供了一种图像处理方法，该图像处理方法包括但不限于如下的一个或多个步骤。

基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块。

通过调整所述第一图像块大小的方式得到第二图像块。

利用教师网络对多个所述第二图像块进行特征提取处理，以得到第一特征；所述教师网络为用于分类任务的特征分类网络。

利用学生网络对所述第一图像进行特征提取处理，以得到第二特征；所述学生网络为待训练的网络。

对所述第二特征和所述第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对所述学生网络进行迭代训练，训练完成的学生网络用于对第二图像进行目标检测。

为实现上述的技术目的，本发明还可提供一种图像处理装置，该图像处理装置可以包括但不限于第一图像裁剪模块、图像大小调整模块、第一特征提取模块、第二特征提取模块以及知识蒸馏处理模块。

第一图像裁剪模块，用于基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块。

图像大小调整模块，用于通过调整所述第一图像块大小的方式得到第二图像块。

第一特征提取模块，用于利用教师网络对多个所述第二图像块进行特征提取处理，以得到第一特征；所述教师网络为用于分类任务的特征分类网络。

第二特征提取模块，用于利用学生网络对所述第一图像进行特征提取处理，以得到第二特征；所述学生网络为待训练的网络。

知识蒸馏处理模块，用于对所述第二特征和所述第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对所述学生网络进行迭代训练，训练完成的学生网络用于对第二图像进行目标检测。

为实现上述的技术目的，本发明还能够提供一种计算机设备，计算机设备可包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行本发明任一实施例所述图像处理方法的步骤。

为实现上述的技术目的，本发明还可提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行本发明任一实施例所述图像处理方法的步骤。

为实现上述的技术目的，本发明还能够提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行本发明任一实施例中所述图像处理方法的步骤。

本发明的有益效果为：与传统的方案相比，本发明通过用于分类任务的教师网络对学生网络进行蒸馏训练，不需要使用带数据标签的数据集，本发明提供的技术方案能够明显地提高训练完成的学生网络的目标检测性能，而且极大降低了成本投入，用户的满意度非常高，用户的体验非常好。本发明能够利用现有的基于分类任务的自监督训练模型(教师网络)对用于目标检测任务的网络模型(待训练的学生网络)进行知识蒸馏，以得到用于目标检测任务的预训练模型(已训练的学生网络)；本发明既可摆脱对昂贵的数据标签的依赖，又是一个通用的方法，即本发明对任意的图像分类自监督模型在目标检测任务上都能得到可靠的性能提升。

附图说明

图1示出了本发明一个或多个实施例中的图像处理方法的流程示意图。

图2示出了本发明一个或多个实施例中的利用教师网络对学生网络进行蒸馏训练的整体算法框架示意图。

图3示出了本发明一个或多个实施例中的对感兴趣区域进行采样的示意图。

图4示出了本发明一个或多个实施例中的基于Mask R-CNN的学生网络框架示意图。

图5示出了本发明一个或多个实施例中的图像处理装置组成的示意图。

图6示出了本发明一个或多个实施例中的计算机设备内部结构组成示意图。

具体实施方式

下面结合说明书附图对本发明具体提供的一种图像处理方法及装置、计算机设备、存储介质进行详细的解释和说明。

如图1所示，并可结合图2，本发明一个或多个实施例能够提供一种图像处理方法，该图像处理方法可包括但不限于如下的一个或多个步骤。

步骤100，基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块。可见本发明的第一图像块是从第一图像上裁剪下来的感兴趣区域图像块。

可选地，本发明实施例基于感兴趣区域对已接收的第一图像进行图像裁剪处理包括：通过对第一图像中超像素融合的方式确定目标框，目标框包围的区域为感兴趣区域；裁剪(Crop)下感兴趣区域对应位置的图像。具体地，本发明实施例采用选择性搜索(selective search)方式实现感兴趣区域(ROI，Region Of Interest)采样，selectivesearch是一种经典的目标框提议算法，本发明据此可利用一系列经验性的规则对超像素进行融合，以得到不同大小的矩形框，这些矩形框作为可能含有物体的目标框(proposal)，用于后续算法进行类别判断和物体定位。对于已输入的第一图像，本发明能够利用selectivesearch对该第一图像产生一系列的目标框，作为感兴趣区域，后续将在这些感兴趣区域的特征上进行蒸馏学习。

如图3所示，对于产生的目标框过于稠密、数量众多的问题，本发明优选采用NMS(Non-Maximum Suppression，非极大值抑制)算法过滤掉大量重复度过高的目标框。具体地，本发明实施例将selective search产生的所有目标框结果赋予一个0-1区间的随机分数值，将该随机分数值作为阈值，从而过滤掉IOU(Intersection-Over-Union，交并比)大于阈值的框，最后随机采样一部分剩下的目标框用于后续的处理过程。结合图2中进行四种特征尺度的特征提取处理过程，本发明实施例中的NMS的IOU阈值设置为{0.7,0.7,0.5,0.5}，采样数设置为{64,64,32,16}，分别对应从低到高的特征尺度下所用的目标框；然后再对留下的目标框中的图像区域进行采样。当然，在本发明已提供内容基础上，也可采用其他方式优化目标框稠密的问题。应当理解的是，在本发明基础上的简单修改或等同替换，也包含在本发明的保护范围之内。

步骤200，通过调整第一图像块大小的方式得到第二图像块。本发明实施例对第一图像块进行调整大小(Resize)处理，处理后得到的图像块为第二图像块。其中，本发明所涉及的调整大小处理的具体实现过程根据实际情况进行选择，例如具体可包括但不限于最近邻插值、双线性插值、双三次插值、基于像素区域关系插值、兰索斯插值等等。

步骤300，利用教师网络对多个第二图像块进行特征提取处理，以得到第一特征；教师网络为用于分类任务的特征分类网络。通过上述过程，本发明实现了通过教师网络(预训练模型)对第一图像的特征提取。具体地，本发明实施例利用现有的自监督训练模型作为教师网络，从而对将要训练的学生网络进行蒸馏优化。其中，本实施例中的教师网络以斯温变换(Swin Transformer)作为网络结构，并能加入全局和局部的对比损失函数(contrastive loss)作为训练目标，进行自监督学习。

本实施例的全局的损失函数如下：

其中，P表示一个训练批次中(batch)的所有样本，s和t表示其中的一对正样本对，即对同一个输入图片的不同数据增强版本，它们分别输入一个学生网络和一个教师网络，p_s和p_t分别表示两者的输出，可用于表示图像的全局语义表达。|P|表示训练批次的样本数量，该损失函数是对比损失函数的一种形式，最小化该损失函数意味着要求教师网络和学生网络对同一样本的不同数据增强有鲁棒的特征表达。

本实施例的局部的损失函数如下：

其中，P表示一个训练批次中(batch)的所有样本，s和t表示其中的一对正样本对，二者分别输入一个学生网络和一个教师网络，p_i和p_j表示图像的局部语义表达，对学生网络的每个局部语义表达p_i(共T个)，

表示与p_i余弦相似度最高的局部语义表达，即

该损失函数引入了局部特征敏感性。本发明实施例可基于EsViT(Efficientself-supervised Vision Transformers，高效的自监督视觉变换)算法所得到的自监督模型已经具有很强的特征表达能力，并且不依赖于数据标签，因此本发明采用该模型作为教师网络，以网络蒸馏的方式对学生网络进行优化。

步骤400，利用学生网络对第一图像进行特征提取处理，以得到第二特征；学生网络为待训练的网络。本发明实施例中的学生网络具体为基于Mask R-CNN(掩模区域卷积神经网络)的学生网络，该学生网络可包括主干网络(Backbone)、特征金字塔网络(FPN，feature pyramid networks)、感兴趣区域对齐网络(ROI Align)以及参数共享的多层感知机层(MLP，Multi-Layer Perceptron)，多层感知机层即图示的目标检测头(Head)。

如图2所示，并可结合图3和图4，本发明实施例中利用学生网络对第一图像进行特征提取处理包括：从第一图像中提取出多个尺度下的原始特征，对多个尺度下的原始特征进行特征融合处理，以得到融合之后的特征；对融合之后的特征与通过对第一图像进行目标采样得到的特征进行感兴趣区域对齐处理，以得到目标特征；对目标特征进行格式转换处理，以得到与第一特征具有相同格式的第二特征。本发明实施例能够从第一图像中提取出第二特征，具体说明如下。

可选地，本发明实施例从第一图像中提取出多个尺度下的原始特征可包括：对第一图像依次进行分块处理以及下采样处理，以得到原始特征。本发明实施例对第一图像进行分块，然后分别对各块图像进行下采样，该下采样过程使用主干网络实现；本实施例中的主干网络包括多个斯温变换块(Swin Transformer Block)，例如图2中通过四个斯温变换块进行四种特征尺度特征的下采样。本发明实施例中以空间分辨率为H×W×3的输入图片经过4个阶段的网络运算，第一个阶段的网络运算包括线性嵌入(Linear Embedding)方式的下采样处理，第二、三、四阶段的网络运算均包括图像块合并(Patch Merging)的下采样处理，并分别依次得到分辨率为H/4×W/4×C、H/8×W/8×2C、H/16×W/16×4C及H/32×W/32×8C的特征，其中C表示特征的通道数，即越深层的特征通道数越高，K1-K4为堆叠的模块数，由所采用的Swin Transformer的规模决定。

可选地，本发明实施例对多个尺度下的原始特征进行特征融合处理可包括：基于卷积运算方式使不同尺度下的原始特征具有相同通道数；对具有相同通道数的原始特征进行逐像素相加处理，以对不同尺度下的原始特征进行特征融合处理。本发明实施例通过特征金字塔网络实现对不同特征尺度的特征的融合，特征金字塔网络用于在底层特征上引入高层语义，且不会增加过多的计算复杂度。本发明实施例来自主干网络的四种特征尺度的特征经过卷积模块(Conv)进行卷积运算而调整为统一的通道数，其中“+”代表特征的逐像素相加，相加后的特征经过卷积模块做一次融合。

如图4所示，本发明实施例对融合之后的特征与通过对第一图像进行目标采样得到的特征进行感兴趣区域对齐处理包括：基于通过对第一图像进行目标采样得到的特征确定感兴趣区域，根据感兴趣区域从融合之后的特征中提取出目标特征。其中，确定感兴趣区域的过程可采用基于目标框进行目标采样，即采用本发明选择性搜索方式实现感兴趣区域采样(ROISample)。感兴趣区域对齐运算可以是一种特征插值操作，例如通过插值得到同样大小(例如7×7)的感兴趣区域对应的特征。可理解的是，确定目标框和进行感兴趣区域采样的过程已在本说明书中有详细的记载，此处不再进行赘述。

如图4所示，本实施例可以通过目标检测头的感知机层得到每个目标检测框对应的第二特征，以用于蒸馏优化。本发明实施例中的目标检测头(Head)是一个参数共享的感知机层，该感知机层具体包括两个全连接层(FC)和非线性激活函数层(ReLU)，本发明通过目标检测头可将感兴趣区域所对应的特征统一成与教师网络输出的特征相同的形式。

步骤500，对第二特征和第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对学生网络进行迭代训练，训练完成的学生网络用于对第二图像进行目标检测。

如图2所示，本发明能够实现基于知识蒸馏的目标检测自监督训练。本发明利对第二特征和第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对学生网络进行迭代训练，具体可包括：基于损失函数确定第二特征与第一特征的蒸馏损失结果，根据蒸馏损失结果确定是否需要再次对学生网络进行迭代训练，直至蒸馏损失(Distillation Loss)结果满足预设条件。本发明实施例中的损失函数可包括但不限于L1损失函数，通过迭代训练的方式使L1损失函数均趋向于最小，例如使损失函数结果达到设定阈值，即满足预设条件。其中，L1损失函数具体指1阶范数损失函数，即平均绝对误差损失函数。

本发明实施例以知识蒸馏的方式对学生网络进行充分预训练之后，在下游的目标检测任务阶段，加入一个随机初始化的RPN(RegionProposalNetwork，区域提议网络)、一个随机初始化的目标框分类层(一层全连接层)和一个目标框定位层(一层全连接层)，即得到用于fine-tune(微调)的检测框架。

基于上述的技术方案，本发明所提供的学生网络能够基于特征金字塔网络得到融合后的特征，然后进行感兴趣区域对齐处理后得到感兴趣位置的特征；本发明使用的教师网络通过感兴趣位置(即感兴趣区域采样后的目标框)在原输入图像上进行裁剪和调整大小处理后得到子图像块，将其输入教师网络得到感兴趣区域的特征；然后将学生网络的特征和教师网络的特征进行知识蒸馏，本发明运行上述整个流程，最终获得的学生网络可用于目标检测下游任务。由此可以看出，相比于传统的方案，本发明提出的技术方案在目标检测任务上有可靠的性能增益，特别地相比于全监督的预训练方法，本发明不需要依赖于数据标签，并且能够得到更好的性能。例如在MS COCO数据集上可以提升1％以上的平均准确率(mAP，Mean Average Precision)，而且可用更少数据fine-tune(微调)，可以得到媲美于用全量的数据fine-tune(微调)而得到的性能。相比于常规技术容易受到应用场景限制的问题，本发明能够用于特定的应用场景，即使在没有数据标签的情况下，本发明也能够在特定的图像域对目标检测网络模型进行预训练，从而节省大量的人力和物力，极大地降低了投入成本。

如图5所示，与本发明提供的图像处理方法基于同一发明技术构思，本发明一个或多个实施例还能够提供一种图像处理装置。本发明实施例的图像处理装置包括但不限于第一图像裁剪模块601、图像大小调整模块602、第一特征提取模块603、第二特征提取模块604以及知识蒸馏处理模块605，具体说明如下。

第一图像裁剪模块601，可用于基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块。

可选地，第一图像裁剪模块601用于通过对第一图像中超像素融合的方式确定目标框，目标框包围的区域为感兴趣区域；第一图像裁剪模块601可用于裁剪下感兴趣区域对应位置的图像。

图像大小调整模块602，可用于通过调整第一图像块大小的方式得到第二图像块。

第一特征提取模块603，可用于利用教师网络对多个第二图像块进行特征提取处理，以得到第一特征；教师网络为用于分类任务的特征分类网络。

具体地，本发明实施例的第一特征提取模块603用于从第一图像中提取出多个尺度下的原始特征，并可用于对多个尺度下的原始特征进行特征融合处理，以得到融合之后的特征。第一特征提取模块603用于对融合之后的特征与通过对第一图像进行目标采样得到的特征进行感兴趣区域对齐处理，以得到目标特征；第一特征提取模块603用于对目标特征进行格式转换处理，以得到与第一特征具有相同格式的第二特征。

可选地，第一特征提取模块603可用于对第一图像依次进行分块处理以及下采样处理，以得到原始特征。

可选地，第一特征提取模块603可用于基于卷积运算方式使不同尺度下的原始特征具有相同通道数，以及用于对具有相同通道数的原始特征进行逐像素相加处理，以用于对不同尺度下的原始特征进行特征融合处理。

可选地，第一特征提取模块603可用于基于通过对第一图像进行目标采样得到的特征确定感兴趣区域，以及用于根据感兴趣区域从融合之后的特征中提取出目标特征。

第二特征提取模块604，用于利用学生网络对第一图像进行特征提取处理，以得到第二特征；学生网络为待训练的网络。

知识蒸馏处理模块605，可用于对第二特征和第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对学生网络进行迭代训练，训练完成的学生网络用于对第二图像进行目标检测。

具体地，知识蒸馏处理模块605可用于基于损失函数确定第二特征与第一特征的蒸馏损失结果，并用于根据蒸馏损失结果确定是否需要再次对学生网络进行迭代训练，直至蒸馏损失结果满足预设条件。

如图6所示，与本发明提供的图像处理方法基于同一发明技术构思，本发明一个或多个实施例还能够提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，该计算机可读指令被处理器执行时，使得处理器可执行本发明任一实施例中的图像处理方法的步骤。应当理解的是，本发明图像处理方法的详细执行流程已在本说明书中有详细的记载，此处不再进行赘述。

如图6所示，与本发明提供的图像处理方法基于同一发明技术构思，本发明一个或多个实施例还能够提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本发明任一实施例中的图像处理方法的步骤。可理解的是，本发明图像处理方法的详细执行流程已在本说明书中有详细的记载，此处不再进行赘述。

与本发明提供的图像处理方法基于同一发明技术构思，本发明一个或多个实施例还能够提供一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行本发明任一实施例中图像处理方法的步骤，可理解的是，本发明图像处理方法的详细执行流程已在本说明书中有详细的记载，此处不再进行赘述。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM，Random Access Memory)，只读存储器(ROM，Read-Only Memory)，可擦除可编辑只读存储器(EPROM，Erasable Programmable Read-Only Memory，或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM，Compact Disc Read-Only Memory)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA，Programmable Gate Array)，现场可编程门阵列(FPGA，Field ProgrammableGate Array)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块；

通过调整所述第一图像块大小的方式得到第二图像块；

利用教师网络对多个所述第二图像块进行特征提取处理，以得到第一特征；所述教师网络为用于分类任务的特征分类网络；

利用学生网络对所述第一图像进行特征提取处理，以得到第二特征；所述学生网络为待训练的网络；

2.根据权利要求1所述的图像处理方法，其特征在于，所述利用学生网络对所述第一图像进行特征提取处理包括：

从所述第一图像中提取出多个尺度下的原始特征；

对所述多个尺度下的原始特征进行特征融合处理，以得到融合之后的特征；

对所述融合之后的特征与通过对所述第一图像进行目标采样得到的特征进行感兴趣区域对齐处理，以得到目标特征；

对所述目标特征进行格式转换处理，以得到与所述第一特征具有相同格式的第二特征。

3.根据权利要求2所述的图像处理方法，其特征在于，所述从所述第一图像中提取出多个尺度下的原始特征包括：

对所述第一图像依次进行分块处理以及下采样处理，以得到所述原始特征。

4.根据权利要求2所述的图像处理方法，其特征在于，所述对所述多个尺度下的原始特征进行特征融合处理包括：

基于卷积运算方式使不同尺度下的原始特征具有相同通道数；

对具有相同通道数的原始特征进行逐像素相加处理，以对不同尺度下的原始特征进行特征融合处理。

5.根据权利要求2所述的图像处理方法，其特征在于，所述对所述融合之后的特征与通过对所述第一图像进行目标采样得到的特征进行感兴趣区域对齐处理包括：

基于所述通过对所述第一图像进行目标采样得到的特征确定感兴趣区域；

根据所述感兴趣区域从所述融合之后的特征中提取出所述目标特征。

6.根据权利要求1所述的图像处理方法，其特征在于，所述对所述第二特征和所述第一特征进行知识蒸馏处理，并根据知识蒸馏处理结果对所述学生网络进行迭代训练，包括：

基于损失函数确定所述第二特征与所述第一特征的蒸馏损失结果；

根据所述蒸馏损失结果确定是否需要再次对所述学生网络进行迭代训练，直至所述蒸馏损失结果满足预设条件。

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于感兴趣区域对已接收的第一图像进行图像裁剪处理包括：

通过对所述第一图像中超像素融合的方式确定目标框，目标框包围的区域为感兴趣区域；

裁剪下所述感兴趣区域对应位置的图像。

8.一种图像处理装置，其特征在于，包括：

第一图像裁剪模块，用于基于感兴趣区域对已接收的第一图像进行图像裁剪处理，以生成第一图像块；

图像大小调整模块，用于通过调整所述第一图像块大小的方式得到第二图像块；

第一特征提取模块，用于利用教师网络对多个所述第二图像块进行特征提取处理，以得到第一特征；所述教师网络为用于分类任务的特征分类网络；

第二特征提取模块，用于利用学生网络对所述第一图像进行特征提取处理，以得到第二特征；所述学生网络为待训练的网络；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述图像处理方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项权利要求所述图像处理方法的步骤。