CN114332567A - 训练样本的获取方法、装置、计算机设备及存储介质 - Google Patents

训练样本的获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114332567A
CN114332567A CN202210254735.1A CN202210254735A CN114332567A CN 114332567 A CN114332567 A CN 114332567A CN 202210254735 A CN202210254735 A CN 202210254735A CN 114332567 A CN114332567 A CN 114332567A
Authority
CN
China
Prior art keywords
samples
response data
attention
original
attention response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210254735.1A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN202210254735.1A priority Critical patent/CN114332567A/zh
Publication of CN114332567A publication Critical patent/CN114332567A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种训练样本的获取方法、装置、计算机设备及存储介质,涉及数据处理技术领域。所述方法包括:获取训练集中的原始样本并输入教师模型,通过教师模型获取各原始样本对应的注意力反应数据,根据各所述注意力反应数据获取对应原始样本的关键特征信息,并将所述关键特征信息与干扰噪声信息组合,得到多个增强样本。本申请极大地扩充了用于训练学生模型的样本量,达到了较好的知识蒸馏效果。

Description

训练样本的获取方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种训练样本的获取方法、装置、计算机设备及存储介质。
背景技术
现有神经网络模型由于其尺寸巨大、计算和训练成本昂贵,在实际生产环境中很难得到应用。知识蒸馏(Knowledge Distillation,KD)是一种对神经网络模型进行压缩,同时保持神经网络模型的预测性能的方法。在知识蒸馏训练方法中,通常使用卷积层多、参数量大且推理速度慢的高精度重模型作为教师模型来指导轻量化、推理速度快的学生模型训练。但是在实际应用场景中,由于敏感数据无法获取、数据访问不便、数据意外丢失等各种原因,用于训练教师模型的完整数据集在知识蒸馏的过程中可能无法访问或使用。缺乏完整的数据集使得学生模型很难学习训练。在这种情况下,学生模型的训练效果极不理想。如何基于少量样本获取用于对学生模型进行训练的大量样本成为亟需解决的问题。
发明内容
为了改善现有的缺乏完整数据集使得训练样本数量不足的问题,本申请提出了一种训练样本的获取方法、装置、计算机设备及存储介质,能够对样本集中的每一个训练样本进行数据增强,通过少量训练样本获取了大量训练样本,极大地扩充了样本量。
为了实现上述目的,本发明采用如下的技术方案:
第一方面,本申请实施例提供了一种训练样本的获取方法,所述方法包括:
获取多个原始样本;
将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据;
根据各所述注意力反应数据获取对应原始样本的关键特征信息;
根据各所述关键特征信息生成多个增强样本。
在一种可能的实现方式中,所述通过所述教师模型获取各所述原始样本对应的注意力反应数据的步骤,包括:
对所述教师模型的预设卷积层输入激活张量,输出一个C×H×W的特征层,其中C为所述特征层的层数,所述特征层包括C个特征图,各所述特征图的尺寸为H×W;
计算各所述特征图中处于相同位置的特征点的平均值;
根据所述平均值获取尺寸为H×W的初始空间注意力图;
将所述初始空间注意力图进行归一化处理,得到修正空间注意力图;
通过平均池化函数将所述修正空间注意力图映射到各所述原始样本上的维度上,得到所述注意力反应数据。
在一种可能的实现方式中,所述根据各所述注意力反应数据获取对应原始样本的关键特征信息的步骤,包括:
根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩;
将各所述注意力反应遮罩与对应原始样本相乘,得到各所述关键特征信息。
在一种可能的实现方式中,所述根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩的步骤,包括:
计算所述注意力反应数据的所有元素的元素均值;
从所述注意力反应数据的各元素中确定小于所述元素均值的第一目标元素,将所述注意力反应数据中的第一目标元素的元素值设置为0,从所述注意力反应数据的各元素中确定大于等于所述元素均值的第二目标元素,将所述注意力反应数据中的第二目标元素的元素值设置为1,以得到所述注意力反应遮罩。
在一种可能的实现方式中,所述根据各所述关键特征信息生成多个增强样本的步骤,包括:
将所述注意力反应数据中的所述第一目标元素的元素值设置为1,所述第二目标元素的元素值设置为0,得到干扰参数;
从多个所述原始样本中随机抽取至少两个原始样本作为多个目标样本,将各所述目标样本分别与所述干扰参数相乘得到多个干扰噪声信息;
将各所述关键特征信息分别与各所述干扰噪声信息进行组合,得到多个增强样本。
在一种可能的实现方式中,所述根据各所述关键特征信息生成多个增强样本的步骤,包括:
生成多个随机值,将各所述关键特征信息分别与所述多个随机值进行组合,得到多个增强样本。
在一种可能的实现方式中,将多个所述原始样本与多个所述增强样本输入所述教师模型,得到第一输出结果;
将多个所述原始样本与多个所述增强样本输入学生模型,得到第二输出结果;
通过预设损失函数计算第一输出结果和第二输出结果的蒸馏损失;
将所述蒸馏损失反向梯度传递给所述学生模型,对所述学生模型进行调整。
第二方面,本申请实施例提供了一种训练样本的获取装置,所述装置包括:
第一获取模块,用于获取多个原始样本;
输入模块,用于将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据;
第二获取模块,用于根据各所述注意力反应数据获取对应的原始样本的关键特征信息;
生成模块,用于根据各所述关键特征信息生成多个增强样本。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行第一方面所述的训练样本的获取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的训练样本的获取方法。
相对于现有技术而言,本申请具有以下有益效果:
本实施例提供的训练样本的获取方法、装置、计算机设备及存储介质,获取训练集中的原始样本并输入教师模型,通过教师模型获取各原始样本对应的注意力反应数据,根据各所述注意力反应数据获取对应原始样本的关键特征信息,并将所述关键特征信息与干扰噪声信息组合,得到多个增强样本,极大地扩充了样本量。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的一种训练样本的获取方法的一流程示意图;
图2A是本发明实施例提供的原始样本的一示例图;
图2B是本发明实施例提供的注意力反应遮罩处理样本的一示例图;
图2C是本发明实施例提供的原始样本的另一示例图;
图2D是本发明实施例提供的注意力反应遮罩处理样本的另一示例图;
图2E是本发明实施例提供的原始样本的另一示例图;
图2F是本发明实施例提供的注意力反应遮罩处理样本的另一示例图;
图2G是本发明实施例提供的原始样本的另一示例图;
图2H是本发明实施例提供的注意力反应遮罩处理样本的另一示例图;
图3A是本发明实施例提供的原始样本的另一示例图;
图3B是本发明实施例提供的目标样本的一示例图;
图3C是本发明实施例提供的增强样本的一示例图;
图4是本发明实施例提供的一种训练样本的获取装置的一结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
本实施例提供了一种训练样本的获取方法。以下结合图1对训练样本的获取方法进行说明。
请参照图1,本实施例提供训练样本的获取方法包括以下步骤:
步骤S110,获取多个原始样本。
在本实施例中,知识蒸馏由在完整数据集上训练好的教师模型指导初始化的学生模型训练。但在实际知识蒸馏的过程中,由于敏感数据无法获取、数据访问不便、数据意外丢失等各种原因,用于训练教师模型的完整数据集在知识蒸馏的过程中可能无法访问或使用,导致大量数据丢失,所以本实施例获取的多个原始样本来自样本量较少的不完整的数据集。在一种实施方式中,所述原始样本为图像样本。若只用现有数量的原始样本对学生模型进行知识蒸馏,学生模型训练效果不佳。
在现有的知识蒸馏方法中,虽然存在少样本或零样本情况下的知识蒸馏方法,但普遍只适用于教师模型与学生模型的网络结构差异不大的情况,而随着深度学习模型结构研究的发展,需要训练的学生模型与传统的教师模型结构相差较大。现有的知识蒸馏方法不适用于训练新的学生模型,不利于在实际工程中使用。所以本实施例从数据增强的角度出发,通过少量样本获取大量样本,以达到通过大量样本训练与教师模型的网络结构相差较大的学生模型,实现较好的训练效果的目的。
步骤S120,将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据。
在一种实施方式中,所述原始样本为图像样本,这代表一个原始样本包括三个维度:高度,宽度,深度。高度和宽度为图像样本的高度和宽度,深度则为色彩通道的数量,如RGB图像样本的深度为3,而灰度图像样本的深度为1。而在计算机中,图像样本以多个二维矩阵的形式存储,以RGB图像为例,图像样本以三个二维矩阵的形式存储,分别对应所述图像样本的红色(Red)通道,绿色(Green)通道,蓝色(Blue)通道,而二维矩阵中的每一个点的元素值代表着所述图像样本的像素强度。
在本实施例中,训练良好的教师模型,若用于检测图像样本中的目标,如:一张图中存在多个待检测目标,所述目标可以是但不限于人像、物体、动植物等,待检测目标所在的区域为目标区域。教师模型可以很好地把待检测目标区域和背景区域区分开。即训练良好的教师模型具有较强的目标区域感知能力,对图像样本中的目标区域会产生较高的激活反应,这种激活反应会在原始样本上生成对应的注意力反应数据。所述注意力反应数据,以矩阵的形式存储在计算机设备中。
在一种实施方式中,获取各所述原始样本对应的注意力反应数据的步骤,包括:
对所述教师模型的预设卷积层输入激活张量,输出一个C×H×W的特征层,其中C为所述特征层的层数,所述特征层包括C个特征图,各所述特征图的尺寸为H×W;
计算各所述特征图中处于相同位置的特征点的平均值;
根据所述平均值获取尺寸为H×W的初始空间注意力图;
将所述初始空间注意力图进行归一化处理,得到修正空间注意力图;
通过平均池化函数将所述修正空间注意力图映射到各所述原始样本上的维度上,得到所述注意力反应数据。
在一种实施方式中,所述预设卷积层为教师模型的深层卷积层,激活张量是一个维度为C×H×W的多维矩阵。输出的特征层包括C个特征图,特征图为一个尺寸为H×W的矩阵,特征图中的每一个元素为特征点。计算各所述特征图中处于相同位置的特征点的平均值,如在C个特征图中,都位于第x行第y列的元素的平均值,将得到的平均值赋予一个新的尺寸为H×W的矩阵的第x行第y列,当所有特征点的平均值计算完毕后,最后得到每一个元素都被赋值的矩阵,即初始空间注意力图。
初始空间注意力图中的元素值尺度可能不同,如一个元素的取值范围可能是[100,200],另一个元素的取值范围可能是[−0.1,0.2],在进行计算时,尺度的不同会导致计算结果的不同,尺度大的元素会起决定性作用,而尺度小的元素作用可能会被忽略,为了减小尺度差异的影响,需要对初始空间注意力图进行归一化处理。将初始空间注意力图归一化到预设尺度,如0到1之间,得到修正空间注意力图,具体归一化方式可以将初始空间注意力图中的每一个元素减去均值再除以方差,在此不做限制。
所述平均池化函数的数据处理流程如下:为在矩阵的预设范围内求所述范围内所有元素的平均值,再用平均值取代所有元素的数值,用于改变所述修正空间注意力图的维度,将所述修正空间注意力图放大或缩小到原始样本的维度上。放大或缩小根据所述修正空间注意力图与原始样本的大小决定。
步骤S130,根据各所述注意力反应数据获取对应原始样本的关键特征信息。
通过教师模型良好的目标区域感知能力,可以较准确地确定原始样本的目标区域,并在原始样本上生成对应的注意力反应数据,对注意力反应数据进行计算得到注意力反应遮罩,并将原始原本与注意力反应遮罩相乘得到关键特征信息。
在一种实施方式中,根据各所述注意力反应数据获取对应原始样本的关键特征信息的步骤,包括:
根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩;将各所述注意力反应遮罩与对应原始样本相乘,得到各所述关键特征信息。
在一种实施方式中,根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩的步骤,包括:
计算所述注意力反应数据的所有元素的元素均值;
从所述注意力反应数据的各元素中确定小于所述元素均值的第一目标元素,将所述注意力反应数据中的第一目标元素的元素值设置为0,从所述注意力反应数据的各元素中确定大于等于所述元素均值的第二目标元素,将所述注意力反应数据中的第二目标元素的元素值设置为1,以得到所述注意力反应遮罩。
请参照图2A-2H,图2A、2C、2E、2G为原始样本,图2B、2D、2F、2H为注意力反应遮罩处理样本,即带注意力反应遮罩的原始样本。图2B中的201为图2A对应的注意力反应遮罩,图2D中的202为图2C对应的注意力反应遮罩,图2F中的203、204、205部分为图2E对应的注意力反应遮罩,图2H中的206为图2G对应的注意力反应遮罩。所述注意力反应遮罩以矩阵的形式存储在计算机设备中。
在一实施方式中,可以由公式1确定注意力反应遮罩:
公式1:
Figure DEST_PATH_IMAGE002
其中,MAR表示注意力反应遮罩对应位置的元素值,AR表示注意力反应数据对应位置的各元素值,mean(AR)表示注意力反应数据各元素的均值。
以图2A、图2B为例,教师模型检测到图2A中存在目标:狮子,所以对目标所在的区域生成了注意力反应数据,所述注意力反应数据以矩阵的形式储存在计算机设备中,对所述注意力反应数据的所有元素取平均值,得到mean(AR);制作一个新的尺寸为H×W的矩阵,再将所述注意力反应数据的每一个元素值AR与mean(AR)对比,如:将位于注意力反应数据第m行第n列的元素值AR与mean(AR)对比,若AR小于mean(AR),则赋予新的矩阵第m行第n列的元素值为0;若AR大于等于mean(AR),则赋予新的矩阵第m行第n列的元素值为1 ;最后得到每一个元素都被赋值的矩阵,即注意力反应遮罩。
步骤S140,根据各所述关键特征信息生成多个增强样本。
本实施例提取了原始样本的关键特征信息后,和多个干扰噪声信息组合后得到了多个增强样本。由一个原始样本生成了大量增强样本,极大扩充了用于训练学生模型的样本量。
在一种实施方式中,根据各所述关键特征信息生成多个增强样本的步骤,包括:
将所述注意力反应数据中的所述第一目标元素的元素值设置为1,所述第二目标元素的元素值设置为0,得到干扰参数;从多个所述原始样本中随机抽取至少两个原始样本作为多个目标样本,将各所述目标样本分别与所述干扰参数相乘得到多个干扰噪声信息;将各所述关键特征信息分别与各所述干扰噪声信息进行组合,得到多个增强样本。
请参照图3A-3C,图3A为原始样本,图3B为随机抽取的目标样本,图3C为组合后的增强样本,图3C中的302为关键特征信息,301则为干扰噪声信息。所述关键特征信息、干扰噪声信息以矩阵的形式存储在计算机设备中。虽然图3中只给出了一个示例,但在实际应用中,一个关键特征信息可以和多个干扰噪声信息组合,得到多个增强样本,图3在此仅用来说明关键特征信息与干扰噪声信息的组合方式,不能视为对一个关键特征信息只能和一个干扰噪声信息组合的限定。
在一种实施方式中,可以由公式2确定所述增强样本:
公式2:
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE006
表示增强样本,
Figure DEST_PATH_IMAGE008
表示原始样本,
Figure DEST_PATH_IMAGE010
表示从数 据集中随机抽取的目标样本,
Figure DEST_PATH_IMAGE012
表示一个所有元素值都为1的矩阵。所述数据集可 以为CIFAR-100数据集,在此不做限定。
该实施方式可以在少量的原始样本中保留关键特征信息,并在此基础上和多个干扰噪声信息结合,获取大量的增强样本。干扰噪声信息具有明显的语义信息,可以有效地提高学生模型的泛化能力,解决了由于训练样本数量少而导致学生模型学习泛化能力不足的问题。
在一种实施方式中,所述根据各所述关键特征信息生成多个增强样本的步骤,还包括:生成多个随机值,将各所述关键特征信息分别与所述多个随机值进行组合,得到多个增强样本。
该实施方式相对另一实施方式计算量小,实施简单,但生成的增强样本语义信息不足,训练效果略差于另一实施方式。
在一种实施方式中,将多个所述原始样本与多个所述增强样本输入所述教师模型,得到第一输出结果;将多个所述原始样本与多个所述增强样本输入学生模型,得到第二输出结果;通过预设损失函数计算第一输出结果和第二输出结果的蒸馏损失;将所述蒸馏损失反向梯度传递给所述学生模型,对所述学生模型进行调整。
所述预设损失函数根据实际工程中采用的知识蒸馏方法而定,不同的知识蒸馏方法对应的损失函数也不同,在此不做限制。
现有的小样本知识蒸馏方法包括:(1)使用随机噪声输入生成器模型,生成模拟样本作为知识来源;(2)从教师模型的输出softmax空间中合成伪数据,作为原始训练样本的替代品。(3)通过对教师模型剪枝获得学生模型,在学生模型每个块的末尾添加一个1×1卷积层;(4)对教师模型的每一层剪枝并优化,得到学生模型。(5)将学生模型拆解为不同的块并替换教师模型中的某一部分,然后进行优化训练,逐步调整。其中,现有的小样本知识蒸馏方法(1)、(2)均存在着知识的传递只来自于模型的输出分类概率分布,传递的知识量和指导信息不足,且只适用于网络结构差异小的教师模型和学生模型。现有的小样本知识蒸馏方法(3)、(4)严格限定了学生模型需由教师模型剪枝得到,网络结构相似。现有的小样本知识蒸馏方法(5)依然需要教师模型和学生模型网络结构相似,且实施过程复杂。
与前述的现有的5种小样本知识蒸馏方法相比,本实施方式不要求教师模型和学生模型具有相似结构,更适合在实际工程中使用,而且可以和不同的知识蒸馏方法结合使用,适用性高。本实施方式通过少量样本获取大量样本,通过大量样本训练与教师模型的网络结构相差较大的学生模型,训练效果较好。
本实施例提供的训练样本的获取方法,获取训练集中的原始样本并输入教师模型,通过教师模型获取各原始样本对应的注意力反应数据,根据各所述注意力反应数据获取对应原始样本的关键特征信息,并将所述关键特征信息与干扰噪声信息组合,得到多个增强样本,极大地扩充了样本量。使用大量增强样本对学生模型进行训练,提升了学生模型的训练效果,增强了学生模型的泛化性能。
实施例2
本实施例还提供一种训练样本的获取装置,请参照图4,该训练样本的获取装置400包括第一获取模块410,输入模块420,第二获取模块430,生成模块440。
在本实施例中,所述第一获取模块410用于:获取多个原始样本;
所述输入模块420用于:将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据;
所述第二获取模块430用于:根据各所述注意力反应数据获取对应的原始样本的关键特征信息;
所述生成模块440用于:根据各所述关键特征信息生成多个增强样本。
在一实施方式中,所述输入模块420具体用于:对所述教师模型的预设卷积层输入激活张量,输出一个C×H×W的特征层,其中C为所述特征层的层数,所述特征层包括C个特征图,各所述特征图的尺寸为H×W;
计算各所述特征图中处于相同位置的特征点的平均值;
根据所述平均值获取尺寸为H×W的初始空间注意力图;
将所述初始空间注意力图进行归一化处理,得到修正空间注意力图;
通过平均池化函数将所述修正空间注意力图映射到各所述原始样本上的维度上,得到所述注意力反应数据。
在一实施方式中,所述第二获取模块430具体用于:根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩;
将各所述注意力反应遮罩与对应原始样本相乘,得到各所述关键特征信息。
在一实施方式中,所述第二获取模块430具体还用于:计算所述注意力反应数据的所有元素的元素均值;
从所述注意力反应数据的各元素中确定小于所述元素均值的第一目标元素,将所述注意力反应数据中的第一目标元素的元素值设置为0,从所述注意力反应数据的各元素中确定大于等于所述元素均值的第二目标元素,将所述注意力反应数据中的第二目标元素的元素值设置为1,以得到所述注意力反应遮罩。
在一实施方式中,所述生成模块440具体用于:将所述注意力反应数据中的所述第一目标元素的元素值设置为1,所述第二目标元素的元素值设置为0,得到干扰参数;
从多个所述原始样本中随机抽取至少两个原始样本作为多个目标样本,将各所述目标样本分别与所述干扰参数相乘得到多个干扰噪声信息;
将各所述关键特征信息分别与各所述干扰噪声信息进行组合,得到多个增强样本。
在一实施方式中,所述生成模块440,还用于生成多个随机值,将各所述关键特征信息分别与所述多个随机值进行组合,得到多个增强样本。
在一实施方式中,所述生成模块440,还用于将多个所述原始样本与多个所述增强样本输入所述教师模型,得到第一输出结果;
将多个所述原始样本与多个所述增强样本输入学生模型,得到第二输出结果;
通过预设损失函数计算第一输出结果和第二输出结果的蒸馏损失;
将所述蒸馏损失反向梯度传递给所述学生模型,对所述学生模型进行调整。
本实施例提供的训练样本的获取装置400的具体功能,可以参见实施例1中训练样本的获取方法的具体实施过程,在此不再一一赘述。
本实施例提供的训练样本的获取装置,获取训练集中的原始样本并输入教师模型,通过教师模型获取各原始样本对应的注意力反应数据,根据各所述注意力反应数据获取对应原始样本的关键特征信息,并将所述关键特征信息与干扰噪声信息组合,得到多个增强样本,极大地扩充了样本量。使用大量增强样本对学生模型进行训练,提升了学生模型的训练效果,增强了学生模型的泛化性能。
实施例3
本实施例提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行实施例1所述的训练样本的获取方法。
本实施例提供的计算机设备可以实现执行实施例1所述的训练样本的获取方法,为避免重复,在此不再赘述。
实施例4
本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的训练样本的获取方法。
本实施例提供的计算机可读存储介质可以实现执行实施例1所述的训练样本的获取方法,为避免重复,在此不再赘述。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种训练样本的获取方法,其特征在于,所述方法包括:
获取多个原始样本;
将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据;
根据各所述注意力反应数据获取对应原始样本的关键特征信息;
根据各所述关键特征信息生成多个增强样本。
2.根据权利要求1所述的训练样本的获取方法,其特征在于,所述通过所述教师模型获取各所述原始样本对应的注意力反应数据的步骤,包括:
对所述教师模型的预设卷积层输入激活张量,输出一个C×H×W的特征层,其中C为所述特征层的层数,所述特征层包括C个特征图,各所述特征图的尺寸为H×W;
计算各所述特征图中处于相同位置的特征点的平均值;
根据所述平均值获取尺寸为H×W的初始空间注意力图;
将所述初始空间注意力图进行归一化处理,得到修正空间注意力图;
通过平均池化函数将所述修正空间注意力图映射到各所述原始样本上的维度上,得到所述注意力反应数据。
3.根据权利要求1所述的训练样本的获取方法,其特征在于,所述根据各所述注意力反应数据获取对应原始样本的关键特征信息的步骤,包括:
根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩;
将各所述注意力反应遮罩与对应原始样本相乘,得到各所述关键特征信息。
4.根据权利要求3所述的训练样本的获取方法,其特征在于,所述根据各所述注意力反应数据生成尺寸与所述原始样本的尺寸相等的注意力反应遮罩的步骤,包括:
计算所述注意力反应数据的所有元素的元素均值;
从所述注意力反应数据的各元素中确定小于所述元素均值的第一目标元素,将所述注意力反应数据中的第一目标元素的元素值设置为0,从所述注意力反应数据的各元素中确定大于等于所述元素均值的第二目标元素,将所述注意力反应数据中的第二目标元素的元素值设置为1,以得到所述注意力反应遮罩。
5.根据权利要求1-4任一项所述的训练样本的获取方法,其特征在于,所述根据各所述关键特征信息生成多个增强样本的步骤,包括:
将所述注意力反应数据中的所述第一目标元素的元素值设置为1,所述第二目标元素的元素值设置为0,得到干扰参数;
从多个所述原始样本中随机抽取至少两个原始样本作为多个目标样本,将各所述目标样本分别与所述干扰参数相乘得到多个干扰噪声信息;
将各所述关键特征信息分别与各所述干扰噪声信息进行组合,得到多个增强样本。
6.根据权利要求1所述的训练样本的获取方法,其特征在于,所述根据各所述关键特征信息生成多个增强样本的步骤,包括:
生成多个随机值,将各所述关键特征信息分别与所述多个随机值进行组合,得到多个增强样本。
7.根据权利要求1所述的训练样本的获取方法,其特征在于,所述方法还包括:
将多个所述原始样本与多个所述增强样本输入所述教师模型,得到第一输出结果;
将多个所述原始样本与多个所述增强样本输入学生模型,得到第二输出结果;
通过预设损失函数计算第一输出结果和第二输出结果的蒸馏损失;
将所述蒸馏损失反向梯度传递给所述学生模型,对所述学生模型进行调整。
8.一种训练样本的获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个原始样本;
输入模块,用于将多个所述原始样本输入教师模型,通过所述教师模型获取各所述原始样本对应的注意力反应数据;
第二获取模块,用于根据各所述注意力反应数据获取对应的原始样本的关键特征信息;
生成模块,用于根据各所述关键特征信息生成多个增强样本。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1-7所述的训练样本的获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的训练样本的获取方法。
CN202210254735.1A 2022-03-16 2022-03-16 训练样本的获取方法、装置、计算机设备及存储介质 Pending CN114332567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210254735.1A CN114332567A (zh) 2022-03-16 2022-03-16 训练样本的获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210254735.1A CN114332567A (zh) 2022-03-16 2022-03-16 训练样本的获取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114332567A true CN114332567A (zh) 2022-04-12

Family

ID=81033929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210254735.1A Pending CN114332567A (zh) 2022-03-16 2022-03-16 训练样本的获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114332567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417942A (zh) * 2022-03-28 2022-04-29 成都数之联科技股份有限公司 一种杂波识别方法及系统及装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633406A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于知识蒸馏的少样本目标检测方法
CN112819090A (zh) * 2021-02-22 2021-05-18 武汉工程大学 一种基于生成对抗网络的知识蒸馏数据增强方法与系统
CN113807215A (zh) * 2021-08-31 2021-12-17 贵州大学 一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633406A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于知识蒸馏的少样本目标检测方法
CN112819090A (zh) * 2021-02-22 2021-05-18 武汉工程大学 一种基于生成对抗网络的知识蒸馏数据增强方法与系统
CN113807215A (zh) * 2021-08-31 2021-12-17 贵州大学 一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHENGZHAO TIAN等: "Attention Based Data Augmentation for Knowledge Distillation with Few Data", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417942A (zh) * 2022-03-28 2022-04-29 成都数之联科技股份有限公司 一种杂波识别方法及系统及装置及介质
CN114417942B (zh) * 2022-03-28 2022-06-07 成都数之联科技股份有限公司 一种杂波识别方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN111523546B (zh) 图像语义分割方法、系统及计算机存储介质
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN107016415A (zh) 一种基于全卷积网络的彩色图像色彩语义分类方法
CN110246181A (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN107491793B (zh) 一种基于稀疏散射全卷积的极化sar图像分类方法
CN112257741B (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN107862680B (zh) 一种基于相关滤波器的目标跟踪优化方法
CN109146061A (zh) 神经网络模型的处理方法和装置
CN113361546A (zh) 融合非对称卷积和注意力机制的遥感图像特征提取方法
CN113837191A (zh) 基于双向无监督域适应融合的跨星遥感图像语义分割方法
CN114332567A (zh) 训练样本的获取方法、装置、计算机设备及存储介质
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
CN115017773A (zh) 一种三维网格模型的降维方法、电子设备和介质
CN118096922A (zh) 一种基于风格迁移和遥感影像生成地图的方法
CN112508273B (zh) 一种基于生成对抗网络的剩余油预测方法
CN115760603A (zh) 一种基于大数据技术的干涉阵列宽带成像方法
CN110992245B (zh) 一种高光谱图像降维方法及装置
CN114913382A (zh) 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法
CN111881030B (zh) 基于可理解特征变异的智能交通数据测试样本生成方法
CN114972062A (zh) 一种基于平行自适应引导网络的图像修复模型及其方法
Kolesenkov et al. Automatic scaling method of aerospace images using spectral transformation
CN111402121A (zh) 图像风格的转换方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220412