CN117333757A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117333757A CN117333757A CN202311528950.7A CN202311528950A CN117333757A CN 117333757 A CN117333757 A CN 117333757A CN 202311528950 A CN202311528950 A CN 202311528950A CN 117333757 A CN117333757 A CN 117333757A
- Authority
- CN
- China
- Prior art keywords
- student
- teacher
- model
- image processing
- affinity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 230000002776 aggregation Effects 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 2
- 238000013140 knowledge distillation Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 abstract description 7
- 239000010410 layer Substances 0.000 description 57
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000004821 distillation Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像处理方法、装置、设备及存储介质,可以应用于图像处理领域。该方法包括:利用目标学生模型对待处理图像执行特征提取操作;基于提取到的特征确定目标识别结果;目标学生模型基于知识蒸馏训练得到,训练方法包括:将预处理后的训练数据分别传入老师模型和学生模型执行特征提取操作;对学生特征执行聚合操作,得到聚合学生特征;基于老师神经网络对聚合学生特征执行局部矫正操作;计算矫正后的学生特征与老师特征之间的亲和度;基于亲和度计算学生模型的训练损失;在训练损失满足预设条件的情况下,输出目标学生模型。本发明提供的图像处理方法利用高精度目标学生模型进行图像处理,可以有效实现资源受限场景下图像的精确处理。
Description
技术领域
本发明涉及图像处理领域,具体地,涉及一种图像处理方法、装置、设备及存储介质。
背景技术
目标检测技术的精度往往与大规模卷积神经网络的堆叠呈正相关,即大规模卷积神经网络堆叠越多目标检测越精确,使得高精确的目标检测技术,这使得高精度的目标检测技术难以应用于资源受限的终端场景。现有资源受限终端场景通常选择轻量级网络进行图像处理,但是轻量级网络常常存在精度不高的问题。
当前技术人员通常通过知识蒸馏技术来提升轻量级网络的性能,知识蒸馏技术是指将具有指导性的类间结构知识从复杂的教师模型转移到轻量的学生模型中,使得学生模型可以获得令人满意的性能。现有的知识蒸馏方法是通过增强师生中间层深度特征的一致性来提升学生模型的检测性能,即将学生网络中的多个特征图与具有相同深度和尺度的教师特征图对齐,这种方法忽略了师生模型先天的能力差异,即使是师生模型中相同的深度和尺度的特征也会具有不同的抽象层次,因此,师生模型中不适当的层间关联可能会引起多尺度特征被错误捆绑,对轻量级学生模型的精确度提升有限。
发明内容
(一)要解决的技术问题
本发明提供一种图像处理方法,用于至少部分解决上述技术问题之一。
(二)技术方案
本发明一方面提供一种图像处理方法,包括:利用目标学生模型对待处理图像执行特征提取操作;基于提取到的特征确定目标识别结果;其中,目标学生模型是基于知识蒸馏压缩后得到的,目标学生模型的训练方法包括:将预处理后的训练数据分别传入老师模型和学生模型执行特征提取操作;对学生特征执行聚合操作,得到聚合学生特征;基于老师神经网络对聚合学生特征执行局部矫正操作;计算矫正后的学生特征与老师特征之间的亲和度;基于亲和度计算学生模型的训练损失;在训练损失满足预设条件的情况下,输出目标学生模型。
可选地,对学生特征执行聚合操作,得到聚合学生特征,包括:确定与老师神经网络层对应的同层学生神经网络层;获取高于同层学生神经网络层的其他学生神经网络层中的学生特征以及同层学生神经网络层的学生特征;对学生特征执行聚合操作,得到聚合学生特征。
可选地,基于老师神经网络对聚合学生特征执行局部矫正操作,包括:对符合预设距离范围的聚合学生特征执行二次聚合操作;基于老师神经网络层中相应位置的老师特征对二次聚合后的学生特征执行局部矫正。
可选地,矫正后的学生特征与老师特征之间的亲和度计算公式如下:
其中,Q表示亲和度,表示老师神经网络中第i层特征的第v个像素点,/>表示学生神经网络中第j层特征的第u个像素点,T表示超参数,/>表示F范数。
可选地,基于亲和度计算学生模型的训练损失,包括:依次计算矫正后的学生特征的每一像素点与老师特征中每一像素点的亲和度;基于亲和度确定师生特征像素对;根据师生特征像素对计算学生模型的训练损失。
可选地,基于亲和度确定师生特征像素对包括:依次比较学生特征像素点与老师特征像素点的亲和度大小;筛选出亲和度最大的学生特征像素点和老师特征像素点作为师生特征像素对。
可选地,根据特征像素点对计算学生模型的训练损失,包括:计算特征像素对的差异值;基于师生像素对的差异值计算师生特征层间的差异值;基于师生特征层间的差异值计算学生模型的训练损失。
本发明第二方面提供一种图像处理装置,包括:特征提取模块,用于利用目标学生模型对待处理图像执行特征提取操作;确定模块,用于基于提取到的特征确定目标识别结果。
本发明的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述图像处理方法。
本发明的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述图像处理方法。
(三)有益效果
本发明提供的图像处理方法至少包括以下有益效果:
利用一层聚合特征代替了多层多尺度的学生特征,执行后续知识蒸馏操作,可以有效减少后续知识蒸馏操作的计算量以及计算复杂度,提升学生模型的训练速率。且基于局部矫正的知识蒸馏方式,有效提高了学生模型的图像处理精度,弥补了大规模教师模型与轻量级学生模型间的差异,对于尺度差异显著的遥感图像处理场景,可以通过局部矫正的方式,选择老师模型中相应的老师特征对学生特征进行局部矫正,使得矫正后的学生特征与老师特征更加匹配,进一步提高学生模型的性能,提高学生模型对尺度差异较大的图像的处理能力。
附图说明
图1示意性示出了本发明实施例中图像处理方法的流程图;
图2示意性示出了本发明实施例中目标学生模型的训练方法的流程图;
图3示意性示出了本发明实施例中对学生特征执行聚合操作的流程示意图;
图4示意性示出了本发明实施例中聚合学生特征生成流程的示意图;
图5示意性示出了本发明实施例中对聚合学生特征执行局部矫正操作的流程图;
图6示意性示出了对聚合学生模型执行局部矫正操作的流程示意图;
图7示意性示出了本发明实施例中基于亲和度计算学生模型的训练损失的流程图;
图8示意性示出了根据本发明实施例的图像处理装置的结构框图;
图9示意性示出了根据本发明实施例的图像处理方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接或可以互相通讯;可以是直接连接,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要理解的是,术语“纵向”、“长度”、“周向”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的子系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
贯穿附图,相同的元素由相同或相近的附图标记来表示。可能导致本发明的理解造成混淆时,将省略常规结构或构造。并且图中各部件的形状、尺寸、位置关系不反映真实大小、比例和实际位置关系。
类似地,为了精简本发明并帮助理解各个公开方面中的一个或多个,在上面对本发明示例性实施例的描述中,本发明的各个特征有时被一起分到单个实施例、图或者对其描述中。参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或者多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。
图1示意性示出了本发明实施例中图像处理方法的流程图。
如图1所示,该图像处理方法包括操作S110~操作S120。
在操作S110,利用目标学生模型对待处理图像执行特征提取操作。
在操作S120,基于提取到的特征确定目标识别结果。
在一些实施例中,目标学生模型是基于知识蒸馏训练得到的。
图2示意性示出了本发明实施例中目标学生模型的训练方法的流程图。
如图2所示,目标学生模型的训练方法包括操作S210~操作S260。
在操作S210,将预处理后的训练数据分别传入老师模型和学生模型执行特征提取操作。
在一些实施例中,老师模型由大规模深层神经网络构成,具有良好的性能和泛化能力,例如可以包括ResNet-101、ResNeXt-101、Res2Net-101、ViT-Large等深层网络。学生模型由轻量级浅层神经网络构成,例如可以包括ResNet-18、MobileNet-18、ViT-Small等浅层网络,相较于由大规模深层神经网络构成的老师模型,学生模型的参数数量大幅降低,更适合在资源受限的终端场景使用。为提高学生模型的性能,可以利用老师模型学习到的知识去指导学生模型的训练,使得学生模型以较小的参数数量获得与老师模型相当的性能,提升资源受限场景下的高精度图像处理。
在具体实施过程中,训练数据可以来源于卫星、无人机拍摄的RGB/SAR影像和人工标签,也可以来源于DOTA、DIOR、FAIR1M数据集中的航拍图像和标签。对训练数据进行预处理包括:去除部包含目标或目标占比小于总面积30%的图像,以确保训练数据的图像中均包含明确的目标。根据训练需求对图像的长边和短边执行放缩操作,例如可以将图像的长边和短边放缩为1024像素。以50%的概率对图像和标签进行水平、垂直或水平垂直翻转,以50%的概率调整图像的亮度、色度、对比度、饱和度并加入噪点,即对训练数据中一半的图像执行反转操作和调整操作,进一步丰富训练数据,以获得干净足量的遥感数据和标签,利用这些寻可怜数据新型训练,可以有效提升训练后学生模型的精度。
在操作S220,对学生特征执行聚合操作,得到聚合学生特征。
在一些实施例中,将预处理后的训练数据分别传入老师模型和学生模型,由老师模型和学生模型分别对传入的训练数据执行特征提取操作,得到多个老师特征和多个学生特征。其中,老师模型训练参数是预先训练好的,学生模型的参数为随机初始化参数。对多个学生特征执行聚合操作,生成聚合学生特征。聚合学生特征利用一层聚合特征代替了多层多尺度的学生特征,减少后续知识蒸馏操作中的计算量以及计算复杂度。
在操作S230,基于老师神经网络对聚合学生特征执行局部矫正操作。
在一些实施例中,局部矫正操作利用空间先验知识,进一步矫正不匹配的师生特征像素点,以提高学生模型的蒸馏效果。
对于卷积神经网络而言,由相同实例生成的特征图可以在多个中间层中以不同的粒度进行聚合,但是由于图片的特性,不同层相同空间位置点之间的相似性总是最大的。例如,在图像的右上角有一个船只,那么在每层神经网络中,每层神经网络右上角的特征都会存在一个最接近的响应值,右上角的特征并不会随着每层的操作转移至左下角中。正是基于这一特性,本申请提出基于老师神经网络对聚合学生特征进行局部矫正,即获取老师神经网络中与聚合学生特征对应位置的老师特征对聚合学生特征进行矫正。在提高学生模型蒸馏效果的同时有效节约蒸馏时间,实现对学生模型快速、高效的蒸馏。
在操作S240,计算矫正后的学生特征与老师特征之间的亲和度。
在一些实施例中,计算矫正后的学生特征与对应老师神经网络层中所有老师特征的亲和度,以筛选关联的师生特征对对后续层间蒸馏进行指导,进一步提高学生蒸馏效果。
在操作S250,基于亲和度计算学生模型的训练损失。
在操作S260,在训练损失满足预设条件的情况下,输出目标学生模型。
在一些实施例中,通过计算学生模型的训练损失来确定学生模型的训练效果,当学生模型的训练损失满足预设条件的情况下,得到轻量级高精度的目标学生模型,输出目标学生模型用以进行图像处理。
本发明提供的目标学生模型,利用一层聚合特征代替了多层多尺度的学生特征,执行后续知识蒸馏操作,可以有效减少后续知识蒸馏操作的计算量以及计算复杂度,提升学生模型的训练速率。且基于局部矫正的知识蒸馏方式,有效提高了学生模型的图像处理精度,弥补了大规模教师模型与轻量级学生模型间的差异,对于尺度差异显著的遥感图像处理场景,可以通过局部矫正的方式,选择老师模型中相应的老师特征对学生特征进行局部矫正,使得矫正后的学生特征与老师特征更加匹配,进一步提高学生模型的性能,提高学生模型对尺度差异较大的图像的处理能力。
例如,在遥感图像中包括庞大的机场以及小型的车辆、飞机等,对于诸如车辆、飞机等小目标,可以通过局部矫正的方式,利用老师模型中小目标对应老师特征对学生特征进行局部矫正,有效提高学生模型对小目标的处理能力,提高目标学生模型的性能,使得目标学生模型对同时包含大目标和小目标的图像进行精确处理。
图3示意性示出了本发明实施例中对学生特征执行聚合操作的流程示意图。
如图3所示,对学生特征执行聚合操作包括操作S310~操作S330。
在操作S310,确定与老师神经网络层对应的同层学生神经网络层。
在操作S320,获取高于同层学生神经网络层的其他学生神经网络层中的学生特征以及同层学生神经网络层的学生特征。
在一些实施例中,越深层的神经网络提取的特征越高级,例如特征图的感受野更大、包含的语义信息更丰富。因此,在进行学生特征聚合的时候,需要对学生特征进行筛选,仅选择与老师神经网络层同层的学生神经网络层的学生特征以及高于同层老师神经网络层的、携带充足语义信息的学生神经网络层的学生特征进行聚合。
在操作S330,对学生特征执行聚合操作,得到聚合学生特征。
在一些实施例中,聚合学生特征的计算公式如下:
其中,表示聚合学生特征,Fusion( )表示特征聚合操作,s j 表示第j层学生网络的特征,/>表示第j+1层学生网络聚合后的特征,L为师生特征层总数的近似值,j表示当前层数,s、j均小于等于L。
由于遥感图像图幅辽阔、分辨率高,在利用遥感图像对学生模型进行蒸馏训练时,存在学生模型难以收敛、训练效果不理想的问题,故本发明提出对学生特征执行聚合操作,利用一层聚合学生特征代替多层多尺度的学生特征,有效减少后续蒸馏操作需要计算的学生特征的数量,达到降低计算复杂度、提升学生模型训练效率的目的。
图4示意性示出了本发明实施例中聚合学生特征生成流程的示意图。
如图4所示,聚合学生特征的生成过程包括:在空间分辨率较小的情况下,通过上采样操作将的/>调整为与s j 大小形状相同的特征/>。对于第j层学生网络的特征s j ,采用卷积层conv1对s j 进行处理,得到更加显著的判别特征/>,连接和/>生成注意力图,生成的注意力图以逐点相乘的形式被分别添加在/>和/>上,获得最终输出/>。
相较于一般的融合运算,本申请的聚合特征为跨层特征,可以在减少计算量的前提下构建适合于跨层关联蒸馏的知识表示。
图5示意性示出了本发明实施例中对聚合学生特征执行局部矫正操作的流程图。
图6示意性示出了对聚合学生模型执行局部矫正操作的流程示意图。
如图5所示,对聚合学生特征执行局部矫正操作,包括操作S510~操作S520。
在操作S510,对符合预设距离范围的聚合学生特征执行二次聚合操作。
在一些实施例中,由于不同层对应的空间位置点之间的相似性最大,本申请提出,在融合和矫正特征时只需关注参考点p周围以小组关键的采样点p+∆p,无需考虑整个特征图上的所有像素点。因此,本申请在对聚合学生特征执行局部矫正操作时,仅需对符合预设距离范围内的聚合学生特征执行二次聚合操作,有效减少计算量,提升计算速率。
在操作S520,基于老师神经网络层中相应位置的老师特征对二次聚合后的学生特征执行局部矫正。
在一些实施例中,对聚合学生特征执行二次聚合操作,并利用二次聚合后的学生特征对老师神经网络层中相应位置的老师特征进行学习。例如,对学生特征1至学生特征5执行二次聚合操作,得到学生特征1-5,由学生特征1-5学习相应位置的老师特征,实现对学生模型中学生特征的局部矫正。局部矫正通过局部采样和自适应加权的方式,将学生特征校正至与教师特征更加匹配的状态。
矫正后的学生特征表达式如下:
其中,u表示学生特征中第u个像素点,p表示像素点u所在位置的参考点,∆p表示采样点偏离参考点p的程度,表示以p为中心向四周偏移∆p后的响应值,w为学生模型中的自适应参数。
基于空间先验知识,利用老师特征对相应的二次聚合后的学生特征进行局部矫正,一方面可以使得矫正后的学生特征达到与教师特征更加匹配的状态,从而提高学生模型的性能。另一方面,二次聚合后的学生特征信息更加丰富,利用聚合后的学生特征对老师特征进行学习,可以提高学生模型的泛化能力。
图7示意性示出了本发明实施例中基于亲和度计算学生模型的训练损失的流程图。
如图7所示,本发明实施例中基于亲和度计算学生模型的训练损失包括操作S710~操作S730。
在操作S710,依次计算矫正后的学生特征的每一像素点与老师特征中每一像素点的亲和度。
在一些实施例中,矫正后的学生特征与老师特征之间的亲和度计算公式如下:
其中,Q表示亲和度,表示老师神经网络中第i层特征的第v个像素点,/>表示学生神经网络中第j层特征的第u个像素点,T表示超参数,/>表示F范数。
对于教师模型第j层特征响应值,计算/>与学生融合特征s fuse 中每一个像素点之间的亲和度/>,并对t j 和/>之间的特征分布差异进行优化,有效降低计算复杂度。
在操作S720,基于亲和度确定师生特征像素对。
在一些实施例中,依次比较每一学生特征像素点与老师特征像素点的亲和度的值,筛选出最大亲和度对应的学生特征像素点和老师特征像素点作为师生特征像素对。
在操作S730,根据师生特征像素对计算学生模型的训练损失。
在一些实施例中,根据师生特征像素对计算学生模型的训练损失包括:
计算特征像素对的差异值,其中,特征像素对的差异值计算公式如下:
基于特征像素对的差异值计算师生特征层间差异值,其中,层间差异值的计算公式如下:
基于层间差异值计算学生模型的训练损失。其中,计算学生模型的训练损失包括计算层矫正的蒸馏损失以及基于层矫正的蒸馏损失计算学生模型的整体损失。
层矫正的蒸馏损失Loss CL-KD 的计算公式如下:
其中,D(s j ,t i )的计算公式为,N CL 是归一化系数
学生模型整体损失Loss的计算公式如下:
Loss=Loss
CL-KD
+Loss
cls
+Loss
reg
其中,Loss cls 表示学生模型自身与真值标签间的分类损失,Loss reg 表示学生模型自身与真值标签间的回归损失。
基于学生模型整体损失Loss判断学生模型是否符合要求,在学生模型符合要求的情况下,将该学生模型作为目标学生模型输出,用于执行图像处理。
该图像处理方法还包括,在学生模型训练过程中(即知识蒸馏过程中),全量更新学生模型参数并自适应更新教师模型参数,计算教师模型的预测误差值,当教师模型的预测误差值大于学生模型的预测误差值,或师生模型预测差值大于阈值时,需对教师模型的参数进行更新,并基于更新后的教师模型对学生模型进行二次训练。
本发明提供的目标学生模型,是基于聚合学生特征以及局部矫正操作通过知识蒸馏得到的,可以自适应的搜寻匹配的师生层间的关联,弥补了大规模教师模型和轻量级学生模型间的差异,有效提高了学生模型在尺度差异显著场景下的图像处理精度,实现对尺度差异显著图像的精确处理。
图8示意性示出了根据本发明实施例的图像处理装置的结构框图。
如图8所示,该实施例的图像处理装置800包括特征提取模块810、确定模块820。
特征提取模块810,用于利用目标学生模型对待处理图像执行特征提取操作。
确定模块820,用于基于提取到的特征确定目标识别结果。
根据本发明的实施例,特征提取模块810、确定模块820中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本发明的实施例,特征提取模块810、确定模块820中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,特征提取模块810、确定模块820的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本发明实施例的图像处理方法的电子设备的方框图。
如图9所示,根据本发明实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、
调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
利用目标学生模型对待处理图像执行特征提取操作;
基于提取到的特征确定目标识别结果;
其中,所述目标学生模型是基于知识蒸馏训练得到的,所述目标学生模型的训练方法包括:
将预处理后的训练数据分别传入老师模型和学生模型执行特征提取操作;
对学生特征执行聚合操作,得到聚合学生特征;
基于老师神经网络对所述聚合学生特征执行局部矫正操作;
计算矫正后的学生特征与老师特征之间的亲和度;
基于所述亲和度计算学生模型的训练损失;
在所述训练损失满足预设条件的情况下,输出所述目标学生模型。
2.根据权利要求1所述的图像处理方法,其特征在于,所述对学生特征执行聚合操作,得到聚合学生特征,包括:
确定与老师神经网络层对应的同层学生神经网络层;
获取高于所述同层学生神经网络层的其他学生神经网络层中的学生特征以及所述同层学生神经网络层的学生特征;
对所述学生特征执行聚合操作,得到聚合学生特征。
3.根据权利要求1所述的图像处理方法,其特征在于,所述基于老师神经网络对所述聚合学生特征执行局部矫正操作,包括:
对符合预设距离范围的聚合学生特征执行二次聚合操作;
基于老师神经网络层中相应位置的老师特征对二次聚合后的学生特征执行局部矫正。
4.根据权利要求1所述的图像处理方法,其特征在于,所述矫正后的学生特征与老师特征之间的亲和度计算公式如下:
;
其中,Q表示亲和度,表示老师神经网络中第i层特征的第v个像素点,/>表示学生神经网络中第j层特征的第u个像素点,T表示超参数,/>表示F范数。
5.根据权利要求1所述的图像处理方法,其特征在于,所述基于所述亲和度计算学生模型的训练损失,包括:
依次计算矫正后的学生特征的每一像素点与老师特征中每一像素点的亲和度;
基于亲和度确定师生特征像素对;
根据所述师生特征像素对计算学生模型的训练损失。
6.根据权利要求5所述的图像处理方法,其特征在于,所述基于亲和度确定师生特征像素对包括:
依次比较学生特征像素点与老师特征像素点的亲和度大小;
筛选出亲和度最大的学生特征像素点和老师特征像素点作为师生特征像素对。
7.根据权利要求5所述的图像处理方法,其特征在于,所述根据所述特征像素点对计算学生模型的训练损失,包括:
计算所述特征像素对的差异值;
基于所述师生像素对的差异值计算所述师生特征层间的差异值;
基于所述师生特征层间的差异值计算学生模型的训练损失。
8.一种图像处理装置,其特征在于,包括:
特征提取模块,用于利用目标学生模型对待处理图像执行特征提取操作;
确定模块,用于基于提取到的特征确定目标识别结果。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311528950.7A CN117333757A (zh) | 2023-11-16 | 2023-11-16 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311528950.7A CN117333757A (zh) | 2023-11-16 | 2023-11-16 | 图像处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333757A true CN117333757A (zh) | 2024-01-02 |
Family
ID=89290576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311528950.7A Withdrawn CN117333757A (zh) | 2023-11-16 | 2023-11-16 | 图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333757A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402311A (zh) * | 2020-03-09 | 2020-07-10 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的轻量级立体视差估计方法 |
CN115565010A (zh) * | 2022-10-14 | 2023-01-03 | 郑州浪潮数据技术有限公司 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115937071A (zh) * | 2022-05-13 | 2023-04-07 | 青岛海信电子技术服务有限公司 | 一种图像检测方法、装置、设备及介质 |
CN115995018A (zh) * | 2022-12-09 | 2023-04-21 | 厦门大学 | 基于样本感知蒸馏的长尾分布视觉分类方法 |
CN116486089A (zh) * | 2023-06-09 | 2023-07-25 | 厦门微亚智能科技有限公司 | 基于知识蒸馏的点云分割网络轻量化方法、装置及设备 |
-
2023
- 2023-11-16 CN CN202311528950.7A patent/CN117333757A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402311A (zh) * | 2020-03-09 | 2020-07-10 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的轻量级立体视差估计方法 |
CN115937071A (zh) * | 2022-05-13 | 2023-04-07 | 青岛海信电子技术服务有限公司 | 一种图像检测方法、装置、设备及介质 |
CN115565010A (zh) * | 2022-10-14 | 2023-01-03 | 郑州浪潮数据技术有限公司 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115995018A (zh) * | 2022-12-09 | 2023-04-21 | 厦门大学 | 基于样本感知蒸馏的长尾分布视觉分类方法 |
CN116486089A (zh) * | 2023-06-09 | 2023-07-25 | 厦门微亚智能科技有限公司 | 基于知识蒸馏的点云分割网络轻量化方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
YIDAN ZHANG 等: ""Bridging the Gap Between Cumbersome and Light Detectors via Layer-Calibration and Task-Disentangle Distillation in Remote Sensing Imagery"", 《IEEE》, 1 February 2023 (2023-02-01), pages 1 - 18 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191663B (zh) | 车牌号码识别方法、装置、电子设备及存储介质 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN112215119B (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN112528862B (zh) | 基于改进的交叉熵损失函数的遥感图像目标检测方法 | |
CN111126514A (zh) | 图像多标签分类方法、装置、设备及介质 | |
CN108197669B (zh) | 卷积神经网络的特征训练方法及装置 | |
CN115223117B (zh) | 三维目标检测模型的训练和使用方法、装置、介质及设备 | |
CN111310746B (zh) | 文本行检测方法、模型训练方法、装置、服务器及介质 | |
CN113838064B (zh) | 一种基于分支gan使用多时相遥感数据的云去除方法 | |
CN112270259A (zh) | 基于轻量级卷积神经网络的sar图像舰船目标快速检测方法 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN114943888B (zh) | 基于多尺度信息融合的海面小目标检测方法 | |
CN113505634A (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN113628180B (zh) | 一种基于语义分割网络的遥感建筑物检测方法及系统 | |
CN114612658A (zh) | 基于双重类别级对抗网络的图像语义分割方法 | |
CN111325094A (zh) | 一种基于高分辨距离像的舰船类型的识别方法及系统 | |
CN115984646B (zh) | 面向遥感跨卫星观测的分布式目标检测方法、装置和卫星 | |
CN115861595B (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
US20230386023A1 (en) | Method for detecting medical images, electronic device, and storage medium | |
CN117333757A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN116052149A (zh) | 一种基于CS-ABCNet的电力塔牌检测识别方法 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
Dang et al. | A Path Aggregation Network Based on Residual Feature Enhancement for Object Detection in Remote Sensing Imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240102 |