CN111738289B - 计算机视觉cv模型训练方法、装置、电子设备和存储介质 - Google Patents
计算机视觉cv模型训练方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111738289B CN111738289B CN202010389080.XA CN202010389080A CN111738289B CN 111738289 B CN111738289 B CN 111738289B CN 202010389080 A CN202010389080 A CN 202010389080A CN 111738289 B CN111738289 B CN 111738289B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- features
- signal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 99
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013140 knowledge distillation Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004821 distillation Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 3
- 101150041570 TOP1 gene Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013643 reference control Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种计算机视觉CV模型训练方法、装置、电子设备和存储介质,所述方法包括:获取第一CV模型提取的训练图像的第一视觉特征,获取第二CV模型提取的训练图像的第二视觉特征;对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征的第一拆解特征和第二视觉特征的第二拆解特征;根据第一拆解特征生成表征训练图像间关系的监督信号,根据第二拆解特征生成表征图像间关系的学习信号;根据监督信号和学习信号确定第二CV模型的训练损失值,根据训练损失值对第二CV模型的参数进行优化。本申请可以得到更多监督信号,提高模型拟合效果,同时可以学到图像间更重要的关系,避免了一些不具有判别力的图像关系对模型精度的影响。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种计算机视觉CV模型训练方法、装置、电子设备和存储介质。
背景技术
知识蒸馏(Knowledge Distillation,简称KD)在近些年来的计算机视觉任务中取得了较大的突破,该方法将大模型的输出作为知识,让一个更小的模型去学习,从而可以得到一个精度高同时模型较小、速度较快的模型。主流的知识蒸馏主要让小模型去拟合大模型的输出分布,从而使得结果接近大模型,最早是Hinton在ICLR(InternationalConference on Learning Representations,国际学习表征会议)2015会议上提出,而最近研究者也有提出基于关系的知识蒸馏,即通过构造样本对之间的关系,让小模型去学习,可以进一步提升性能。假设样本为n,基于分布的蒸馏只能得到O(n)级别的监督信号,而基于关系的蒸馏可以得到O(n2)级别的监督信号,从而使得小模型更好地拟合大模型的输出。目前基于关系的知识蒸馏方法主要有CVPR(IEEE Conference on Computer Vision andPattern Recognition,IEEE国际计算机视觉与模式识别会议)2019会议上发表的Relational Knowledge Distillation(关系知识蒸馏)和ICCV(IEEE InternationalConferenceon Computer Vision,国际计算机视觉大会)2019会议上发表的Similarity-Preserving Knowledge Distillation(保持相似性的知识蒸馏)。
然而,发明人发现,现有技术中用于计算机视觉任务的知识蒸馏模型的蒸馏效果及模型精度仍有待进一步提升。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的计算机视觉CV模型训练方法、装置、电子设备和存储介质。
依据本申请的第一方面,提供了一种计算机视觉CV模型训练方法,包括:
获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;
对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;
根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;
根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。
可选地,所述对各训练图像的第一视觉特征和第二视觉特征分别进行拆解包括:
确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中。
可选地,所述根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号包括:
根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;
根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
可选地,所述根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号包括:
根据子空间中各训练图像的第一拆解特征,确定各训练图像之间的第一余弦相似度,以及根据子空间中各训练图像的第二拆解特征确定各训练图像之间的第二余弦相似度;
根据所述第一余弦相似度确定所述初始监督信号,以及根据所述第二余弦相似度确定所述初始学习信号。
可选地,所述初始监督信号为根据所述第一余弦相似度确定的第一关系矩阵,所述初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。
可选地,所述根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号包括:
根据所述图神经网络确定所述第一关系矩阵的第一邻接矩阵,根据所述第一邻接矩阵确定调整监督信号;
根据所述图神经网络确定所述第二关系矩阵的第二邻接矩阵,根据所述第二邻接矩阵确定调整学习信号。
可选地,所述根据所述监督信号和所述学习信号确定第二CV模型的训练损失值包括:
根据所述监督信号与所述学习信号之间的平均绝对误差确定所述第二CV模型的训练损失值。
依据本申请的第二方面,提供了一种计算机视觉CV模型训练装置,包括:
获取单元,用于获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;
拆解单元,用于对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;
生成单元,用于根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;
优化单元,用于根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。
可选地,所述拆解单元还用于:
确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中。
可选地,所述生成单元还用于:
根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;
根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
可选地,所述生成单元还用于:
根据子空间中各训练图像的第一拆解特征,确定各训练图像之间的第一余弦相似度,以及根据子空间中各训练图像的第二拆解特征确定各训练图像之间的第二余弦相似度;
根据所述第一余弦相似度确定所述初始监督信号,以及根据所述第二余弦相似度确定所述初始学习信号。
可选地,所述初始监督信号为根据所述第一余弦相似度确定的第一关系矩阵,所述初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。
可选地,所述生成单元还用于:
根据所述图神经网络确定所述第一关系矩阵的第一邻接矩阵,根据所述第一邻接矩阵确定调整监督信号;
根据所述图神经网络确定所述第二关系矩阵的第二邻接矩阵,根据所述第二邻接矩阵确定调整学习信号。
可选地,所述优化单元还用于:
根据所述监督信号与所述学习信号之间的平均绝对误差确定所述第二CV模型的训练损失值。
依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的计算机视觉CV模型训练方法。
依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的计算机视觉CV模型训练方法。
由上述可知,本申请的技术方案,通过获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。通过本申请的计算机视觉CV模型训练方法,可以得到更多的监督信号,有利于提高模型的拟合效果,同时模型可以学到图像之间更重要的关系,从而避免了一些不具有判别力的图像关系对模型精度的影响。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的计算机视觉CV模型训练方法的流程示意图;
图2示出了根据本申请一个实施例的计算机视觉CV模型训练流程示意图;
图3示出了根据本申请一个实施例的计算机视觉CV模型训练装置的结构示意图;
图4示出了根据本申请一个实施例的电子设备的结构示意图;
图5示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
在计算机视觉(Computer Vision,简称CV)任务场景下,如图像场景分类、安全图像审核、智能图片裁切等,训练一个精度足够高且泛化能力较强的任务模型是非常耗时耗力的,需要采集大量丰富的图像样本,并且从巨大且冗余的数据样本中提取特征结构,需要巨大的资源消耗,除了实时性的要求外,最后训练得到的模型预测精度虽然较高,但是模型大而笨重,在实际应用中,会存在计算资源和延迟的限制,因此就如何使得模型减重且精度不损失,现有技术中提出了知识蒸馏的方法。知识蒸馏是一种模型压缩的方式,对目前的计算机视觉任务来说,是提升计算机视觉任务模型的精度和效率的一种重要手段。
然而,为了提高模型的拟合效果,现有技术中的知识蒸馏方法虽然考虑到了样本之间的关系,但其得到的监督信号仍不够多,导致模型的拟合效果仍有待进一步提升;此外,现有技术中在基于样本关系引入更多的监督信号的同时,可能也会引入过多无用的信号,导致模型训练速度和精度被降低。
基于此,本申请实施例提供了一种计算机视觉CV模型训练方法,如图1所示,所述方法包括如下的步骤S110至步骤S140:
步骤S110,获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征。
在知识蒸馏模型中,包括两种模型分别是教师模型(teacher model)和学生模型(student model),教师模型往往是一个更加复杂的网络,具有非常好的性能和泛化能力,可以用这个网络来作为一个软目标来指导另外一个更加简单的学生模型来学习,使得更加简单、参数运算量更少的学生模型也能够具有和教师模型相近的性能。
在本申请实施例的计算机视觉任务场景下,在对计算机视觉模型进行知识蒸馏时,同样涉及到两个模型,包括第一CV模型(即教师模型)和第二CV模型(即学生模型)。这里的第一CV模型可以是基于大量图像数据事先训练好的神经网络模型,利用这两个CV模型分别对训练图像进行特征提取,进而可以得到第一CV模型对应的第一视觉特征以及第二CV模型对应的第二视觉特征。这里的视觉特征可以是表征图像颜色、形状、纹理等各种视觉信息的特征。
步骤S120,对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征。
具体实施时,为了使模型在训练过程中能够学习到更多的监督信号,提高模型的拟合效果,本申请实施例将上述提取到的第一视觉特征和第二视觉特征分别进行特征拆解,进而得到了第一视觉特征和第二视觉特征分别在多个子空间内的第一拆解特征和第二拆解特征,例如对于一个大小为c·h·w(c为通道数,h为图像高度,w为图像宽度)的特征图,将其按通道维度拆分至n个子空间(n为正整数),则可以得到n个c/n·h·w的特征图。
步骤S130,根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号。
在得到第一视觉特征在多个子空间内的第一拆解特征以及第二视觉特征在多个子空间内的第二拆解特征后,可以在各子空间内分别确定各训练图像之间的关系,也即将各训练图像之间的关系拓展到多个子空间中,进而得到更多的监督信号或者学习信号。具体地,可以根据提取到的拆解特征确定特征之间的关系,进而根据特征之间的关系得到各训练图像之间的关系,对于第一CV模型来说,其得到的是根据第一拆解特征生成的表征训练图像间关系的监督信号,对于第二CV模型来说,其得到的是根据第二拆解特征生成表征训练图像间关系的学习信号,因此本申请实施例中的监督信号和学习信号均是用于表征图像间关系的信息,名称的不同仅是用于区分信号的来源是基于第一拆解特征还是基于第二拆解特征。
步骤S140,根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。
知识蒸馏的最终目的是为了让学生模型的训练结果与教师模型的训练结果尽可能的接近,在本申请实施例中则是为了让第二CV模型输出的学习信号与第一CV模型输出的监督信号尽可能接近,因此可以通过计算学习信号与监督信号之间的损失函数来确定第二CV模型与第一CV模型的接近程度,通过该损失函数反向更新第二CV模型的参数,进而使得最终得到的第二CV模型具有和第一CV模型相近的性能。
可见,图1所示的方法,通过对第一视觉特征进行拆解,可以得到更多的监督信号,从而提高了第二CV模型的学习效率,使其能够更好地拟合第一CV模型。
在本申请的一个实施例中,所述对各训练图像的第一视觉特征和第二视觉特征分别进行拆解包括:确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中。
本申请实施例在进行特征拆解时,可以按照特征通道维度将特征图拆解到n个子空间中,得到n个c/n·h·w的特征图。例如,对于2048通道的特征图,如果n取2048,则对应可以得到2048个1通道的特征图,如果n取1024,则对应可以得到1024个2通道的特征图,n的具体取值可以根据实际情况来设定,在此不做具体限定。
在本申请的一个实施例中,所述根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号包括:根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
本申请实施例的监督信号包括初始监督信号和调整监督信号,同样学习信号包括初始学习信号和调整学习信号,初始监督信号/初始学习信号指的是基于各子空间下的各拆解特征之间的关系生成的信号,特征拆解虽然能够获得更多的监督信号或学习信号,但同时也可能会引入一些不具有判别力的特征关系,进而影响模型的精度。
因此为了避免上述问题,本申请实施例在得到初始监督信号/初始学习信号的基础上,引入了图神经网络(Graph Neural Network,简称GNN)对初始监督信号/初始学习信号进行调整,以避免一些无用的特征关系对模型训练造成干扰。具体地,可以利用图神经网络来挖掘特征之间的相似度,建立特征之间的图关系,并以此进行信息交互,使得各样本之间的特征具有更强的判别力。
在本申请的一个实施例中,所述根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号包括:根据子空间中各训练图像的第一拆解特征,确定各训练图像之间的第一余弦相似度,以及根据子空间中各训练图像的第二拆解特征确定各训练图像之间的第二余弦相似度;根据所述第一余弦相似度确定所述初始监督信号,以及根据所述第二余弦相似度确定所述初始学习信号。
本申请实施例在生成初始监督信号/初始学习信号时,基于训练图像之间的余弦相似度来生成。余弦相似度是用来计算个体间相似程度的常用算法,在本申请实施例中,它把特征向量空间中两个特征向量夹角的余弦值当作衡量两个特征间差异的大小的度量。余弦值的范围在-1和1之间,余弦值越接近于1,两个特征向量的方向越接近,也就是两个特征向量越相似;越接近于-1,两个特征向量的方向越相反;越接近于0,两个特征向量越近似于正交。
具体地,在各子空间维度下,计算各拆解特征之间的余弦相似度,根据各拆解特征之间的余弦相似度得到各训练图像之间的余弦相似度,进而将上述各训练图像之间的余弦相似度作为用于表征训练图像间关系的初始监督信号/初始学习信号。
在本申请的一个实施例中,所述初始监督信号为根据所述第一余弦相似度确定的第一关系矩阵,所述初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。
本申请实施例中的初始监督信号为根据第一余弦相似度确定的第一关系矩阵,初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。具体地,上述计算得到的余弦相似度为任意两个训练图像之间的余弦相似度,例如有n个子空间下的b个图像,对于b个图像中的任意一个图像,计算其在每个子空间中和其他所有图像(包括该图像本身)的余弦相似度,就可以得到n·b·b个余弦相似度,这n·b·b个余弦相似度就可以看作是n个b·b大小的关系矩阵。
在本申请的一个实施例中,所述根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号包括:根据所述图神经网络确定所述第一关系矩阵的第一邻接矩阵,根据所述第一邻接矩阵确定调整监督信号;根据所述图神经网络确定所述第二关系矩阵的第二邻接矩阵,根据所述第二邻接矩阵确定调整学习信号。
本申请实施例在利用图神经网络对初始监督信号/初始学习信号进行调整时,先基于上述得到的关系矩阵计算了特征之间的邻接矩阵Ai,j,之后根据该邻接矩阵以及上一次图神经网络迭代后得到的特征得到当前特征/>作为调整后的监督信号/学习信号。
具体地,本申请实施例的邻接矩阵Ai,j的公式可以为:
其中,Ai,j代表第i个和第j个训练图像之间的关系,ti和tj分别代表第i个和第j个训练图像对应的特征。
本申请实施例的图神经网络最终输出的特征可以采用如下公式得到:
其中,表示第i个图像进行l次图神经网络迭代后的特征,α为0到1之间的常数,N为训练图像的数量。
在本申请的一个实施例中,所述根据所述监督信号和所述学习信号确定第二CV模型的训练损失值包括:根据所述监督信号与所述学习信号之间的平均绝对误差确定所述第二CV模型的训练损失值。
本申请实施例的损失函数具体可以采用平均绝对误差(Mean AbsoluteDeviation,简称MAE)来计算,平均绝对误差又叫平均绝对离差,是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。在本申请实施例中,通过计算监督信号与学习信号之间的平均绝对误差,可以准确确定第二CV模型与第一CV模型输出结果的接近程度,通过不断减小平均绝对误差,进而可以使最终得到的第二CV模型具有与第一CV模型相近的性能,达到较优的模型拟合效果。
如图2所示,提供了一种计算机视觉CV模型的训练流程示意图。首先将小批量(mini-batch)的训练图像(例如b个)分别送入第一CV模型(teacher model)和第二CV模型(student model)中进行特征提取,得到第一视觉特征(c·h·w)和第二视觉特征(c'·h'·w'),根据特征通道维度,将第一视觉特征和第二视觉特征分别拆解至n个子空间中,得到第一拆解特征(n·b·c/n·h·w)和第二拆解特征(n·b·c'/n·h'·w'),之后分别在各子空间下,确定各拆解特征之间的关系,进而分别得到n·b·b个训练图像间的关系。之后将第一CV模型和第二CV模型各自对应的n·b·b个训练图像间的关系分别输入图神经网络,进一步挖掘特征间的图关系,进而输出两个CV模型对应的最终的图像间关系。最后通过计算两个模型输出的图像间关系的损失值(Distillation loss)来更新第二CV模型的参数,进而完成模型的整个训练过程。
为了验证本申请训练得到的计算机视觉CV模型(即作为学生模型的第二CV模型)的性能,分别在cifar-10和cifar-100两个分类数据集上进行了测试,本申请实施例用于分类任务的测试方案包括以下四种:GroupKD(特征拆解),GraphKD(图神经网络),SubgraphKD(特征拆解+图神经网络)以及SubgraphKD+KD(特征拆解+图神经网络,且和现有技术中的KD同时使用),现有技术中的KD是指没有对图像之间的关系进行约束的知识蒸馏方法,而本申请在测试阶段的SubgraphKD+KD相当于是把本申请的模型加在现有KD上,对图像关系进行约束。模型的基础网络结构采用ResNet残差网络,性能评价指标采用top1精度,top1精度是指预测标签取最大的概率向量作为预测结果,如果预测结果中概率最大的向量分类正确,则预测正确,否则预测错误。
分类测试结果如表1(cifar-10)和表2(cifar-100)所示(表中的Methods一列即为测试使用的不同模型,Baseline指代基准对照组,基准对照组中的各模型均通过中括号的内容标出了出处),可以看出,在图像分类任务上,本申请实施例训练后的CV模型性能相比其他方法有大幅度提升。
表1
表2
表3和表4分别是在CUB-200-2011和Cars 196两个图像检索数据集上进行的测试,本申请实施例用于检索任务的测试方案包括以下三种:GroupKD分组(特征拆解),GraphKD(图神经网络)和SubgraphKD(特征拆解+图神经网络),模型的基础网络结构同样采用ResNet残差网络,性能评价指标采用top1精度。可以看出,在图像检索任务方面,本申请实施例训练的CV模型与现有技术相比也有明显的精度提升。
表3
表4
本申请实施例提供了一种计算机视觉CV模型训练装置300,如图3所示,所述计算机视觉CV模型训练装置300包括:获取单元310、拆解单元320、生成单元330和优化单元340。
获取单元310,用于获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征。
在知识蒸馏模型中,包括两种模型分别是教师模型(teacher model)和学生模型(student model),教师模型往往是一个更加复杂的网络,具有非常好的性能和泛化能力,可以用这个网络来作为一个软目标来指导另外一个更加简单的学生模型来学习,使得更加简单、参数运算量更少的学生模型也能够具有和教师模型相近的性能。
在本申请实施例的计算机视觉任务场景下,在对计算机视觉模型进行知识蒸馏时,同样涉及到两个模型,包括第一CV模型(即教师模型)和第二CV模型(即学生模型)。这里的第一CV模型可以是基于大量图像数据事先训练好的神经网络模型,利用这两个CV模型分别对训练图像进行特征提取,进而可以得到第一CV模型对应的第一视觉特征以及第二CV模型对应的第二视觉特征。这里的视觉特征可以是表征图像颜色、形状、纹理等各种视觉信息的特征。
拆解单元320,用于对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征。
具体实施时,为了使模型在训练过程中能够学习到更多的监督信号,提高模型的拟合效果,本申请实施例将上述提取到的第一视觉特征和第二视觉特征分别进行特征拆解,进而得到了第一视觉特征和第二视觉特征分别在多个子空间内的第一拆解特征和第二拆解特征,例如对于一个大小为c·h·w的特征图,将其按通道维度拆分至n个子空间,则可以得到n个c/n·h·w的特征图。
生成单元330,用于根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号。
在得到第一视觉特征在多个子空间内的第一拆解特征以及第二视觉特征在多个子空间内的第二拆解特征后,可以在各子空间内分别确定各训练图像之间的关系,也即将各训练图像之间的关系拓展到多个子空间中,进而得到更多的监督信号或者学习信号。具体地,可以根据提取到的拆解特征确定特征之间的关系,进而根据特征之间的关系得到各训练图像之间的关系,对于第一CV模型来说,其得到的是根据第一拆解特征生成的表征训练图像间关系的监督信号,对于第二CV模型来说,其得到的是根据第二拆解特征生成表征训练图像间关系的学习信号,因此本申请实施例中的监督信号和学习信号均是用于表征图像间关系的信息,名称的不同仅是用于区分信号的来源是基于第一拆解特征还是基于第二拆解特征。
优化单元340,用于根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。
知识蒸馏的最终目的是为了让学生模型的训练结果与教师模型的训练结果尽可能的接近,在本申请实施例中则是为了让第二CV模型输出的学习信号与第一CV模型输出的监督信号尽可能接近,因此可以通过计算学习信号与监督信号之间的损失函数来确定第二CV模型与第一CV模型的接近程度,通过该损失函数反向更新第二CV模型的参数,进而使得最终得到的第二CV模型具有和第一CV模型相近的性能。
在本申请的一个实施例中,所述拆解单元320还用于:确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中。
在本申请的一个实施例中,所述生成单元330还用于:根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
在本申请的一个实施例中,所述生成单元330还用于:根据子空间中各训练图像的第一拆解特征,确定各训练图像之间的第一余弦相似度,以及根据子空间中各训练图像的第二拆解特征确定各训练图像之间的第二余弦相似度;根据所述第一余弦相似度确定所述初始监督信号,以及根据所述第二余弦相似度确定所述初始学习信号。
在本申请的一个实施例中,所述初始监督信号为根据所述第一余弦相似度确定的第一关系矩阵,所述初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。
在本申请的一个实施例中,所述生成单元330还用于:根据所述图神经网络确定所述第一关系矩阵的第一邻接矩阵,根据所述第一邻接矩阵确定调整监督信号;根据所述图神经网络确定所述第二关系矩阵的第二邻接矩阵,根据所述第二邻接矩阵确定调整学习信号。
在本申请的一个实施例中,所述优化单元340还用于:根据所述监督信号与所述学习信号之间的平均绝对误差确定所述第二CV模型的训练损失值。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化。通过本申请的计算机视觉CV模型训练方法,可以得到更多的监督信号,有利于学生模型去更好的拟合教师模型,同时模型可以学到图像之间更重要的关系,从而避免了一些不具有判别力的图像关系对模型精度的影响。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的计算机视觉CV模型训练装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图4示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备400包括处理器410和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器420。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码431的存储空间430。例如,用于存储计算机可读程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码431。计算机可读程序代码431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所示的计算机可读存储介质。图5示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机可读程序代码431,可以被电子设备400的处理器410读取,当计算机可读程序代码431由电子设备400运行时,导致该电子设备400执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码431可以执行上述任一实施例中示出的方法。计算机可读程序代码431可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (8)
1.一种计算机视觉CV模型训练方法,其特征在于,包括:
获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;
对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;
根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;
根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化;
其中,所述对各训练图像的第一视觉特征和第二视觉特征分别进行拆解包括:
确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中;
其中,所述根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号包括:
根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;
根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
2.根据权利要求1所述的计算机视觉CV模型训练方法,其特征在于,所述根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号包括:
根据子空间中各训练图像的第一拆解特征,确定各训练图像之间的第一余弦相似度,以及根据子空间中各训练图像的第二拆解特征确定各训练图像之间的第二余弦相似度;
根据所述第一余弦相似度确定所述初始监督信号,以及根据所述第二余弦相似度确定所述初始学习信号。
3.根据权利要求2所述的计算机视觉CV模型训练方法,其特征在于,所述初始监督信号为根据所述第一余弦相似度确定的第一关系矩阵,所述初始学习信号为根据所述第二余弦相似度确定的第二关系矩阵。
4.根据权利要求3所述的计算机视觉CV模型训练方法,其特征在于,所述根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号包括:
根据所述图神经网络确定所述第一关系矩阵的第一邻接矩阵,根据所述第一邻接矩阵确定调整监督信号;
根据所述图神经网络确定所述第二关系矩阵的第二邻接矩阵,根据所述第二邻接矩阵确定调整学习信号。
5.根据权利要求1至4任一项所述的计算机视觉CV模型训练方法,其特征在于,所述根据所述监督信号和所述学习信号确定第二CV模型的训练损失值包括:
根据所述监督信号与所述学习信号之间的平均绝对误差确定所述第二CV模型的训练损失值。
6.一种计算机视觉CV模型训练装置,其特征在于,包括:
获取单元,用于获取第一CV模型提取的训练图像的第一视觉特征,以及获取第二CV模型提取的所述训练图像的第二视觉特征;
拆解单元,用于对各训练图像的第一视觉特征和第二视觉特征分别进行拆解,得到第一视觉特征在多个子空间内的第一拆解特征和第二视觉特征在多个子空间内的第二拆解特征;
生成单元,用于根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号;
优化单元,用于根据所述监督信号和所述学习信号确定第二CV模型的训练损失值,根据所述训练损失值对所述第二CV模型的参数进行优化;
其中,所述对各训练图像的第一视觉特征和第二视觉特征分别进行拆解包括:
确定与通道维度对应的多个子空间,将所述第一视觉特征和所述第二视觉特征分别拆解到各子空间中;
其中,所述根据所述第一拆解特征生成表征训练图像间关系的监督信号,以及根据所述第二拆解特征生成表征训练图像间关系的学习信号包括:
根据所述第一拆解特征生成初始监督信号,以及根据第二拆解特征生成初始学习信号;
根据图神经网络对所述初始监督信号和所述初始学习信号分别进行调整,得到调整监督信号和调整学习信号。
7.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至5中任一项所述的计算机视觉CV模型训练方法。
8.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1至5中任一项所述的计算机视觉CV模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389080.XA CN111738289B (zh) | 2020-05-09 | 2020-05-09 | 计算机视觉cv模型训练方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389080.XA CN111738289B (zh) | 2020-05-09 | 2020-05-09 | 计算机视觉cv模型训练方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738289A CN111738289A (zh) | 2020-10-02 |
CN111738289B true CN111738289B (zh) | 2024-05-14 |
Family
ID=72647082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010389080.XA Active CN111738289B (zh) | 2020-05-09 | 2020-05-09 | 计算机视觉cv模型训练方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738289B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045640A (zh) * | 2017-03-31 | 2017-08-15 | 南京邮电大学 | 一种用于图像识别的基于邻域保持和核子空间对齐的方法 |
CN110659665A (zh) * | 2019-08-02 | 2020-01-07 | 深圳力维智联技术有限公司 | 一种异维特征的模型构建方法及图像识别方法、装置 |
CN110956158A (zh) * | 2019-12-12 | 2020-04-03 | 中山大学 | 一种基于教师学生学习框架的遮挡行人再标识方法 |
-
2020
- 2020-05-09 CN CN202010389080.XA patent/CN111738289B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045640A (zh) * | 2017-03-31 | 2017-08-15 | 南京邮电大学 | 一种用于图像识别的基于邻域保持和核子空间对齐的方法 |
CN110659665A (zh) * | 2019-08-02 | 2020-01-07 | 深圳力维智联技术有限公司 | 一种异维特征的模型构建方法及图像识别方法、装置 |
CN110956158A (zh) * | 2019-12-12 | 2020-04-03 | 中山大学 | 一种基于教师学生学习框架的遮挡行人再标识方法 |
Non-Patent Citations (2)
Title |
---|
Exploring Object Relation in Mean Teacher for Cross-Domain Detection;Qi Cai等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;3-4页 * |
Guide Subspace Learning for Unsupervised Domain Adaptation;Lei Zhang等;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;第31卷(第9期);3-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111738289A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
Kim et al. | Color–texture segmentation using unsupervised graph cuts | |
CN105184260B (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN113887661B (zh) | 一种基于表示学习重构残差分析的图像集分类方法及系统 | |
CN110210625A (zh) | 基于迁移学习的建模方法、装置、计算机设备和存储介质 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN112766170B (zh) | 基于簇类无人机图像的自适应分割检测方法及装置 | |
CN112329830B (zh) | 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
CN114943674A (zh) | 瑕疵检测方法、电子装置及存储介质 | |
CN111738289B (zh) | 计算机视觉cv模型训练方法、装置、电子设备和存储介质 | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
Tu et al. | Toward automatic plant phenotyping: starting from leaf counting | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
Sufikarimi et al. | Speed up biological inspired object recognition, HMAX | |
CN116129189A (zh) | 一种植物病害识别方法、设备、存储介质及装置 | |
Jena et al. | Elitist TLBO for identification and verification of plant diseases | |
CN112738724B (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 | |
CN109359694B (zh) | 一种基于混合协同表示的分类器的图像分类方法和装置 | |
CN113420821A (zh) | 一种基于标记和特征局部相关性的多标记学习方法 | |
CN111027589A (zh) | 一种多分制目标检测算法评价系统及方法 | |
Hahmann et al. | Combination of facial landmarks for robust eye localization using the Discriminative Generalized Hough Transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |