CN114492793A - 一种模型训练和样本生成方法、装置、设备及存储介质 - Google Patents
一种模型训练和样本生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114492793A CN114492793A CN202210102787.7A CN202210102787A CN114492793A CN 114492793 A CN114492793 A CN 114492793A CN 202210102787 A CN202210102787 A CN 202210102787A CN 114492793 A CN114492793 A CN 114492793A
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- noise
- model
- decoding network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 196
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000010586 diagram Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims description 66
- 238000004821 distillation Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000012545 processing Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013140 knowledge distillation Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种模型训练和样本生成方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习和计算机视觉技术领域,可用于图像处理和图像检测等场景。具体实现方案为:根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图;将所述第一噪声特征图输入至解码网络,得到预测图像;根据所述预测图像和所述样本图像,确定训练损失,并根据所述训练损失,对所述解码网络进行训练;其中,训练后的解码网络用于生成训练样本。根据本公开的技术,提供了一种在样本数据较少的情况下,获取丰富的训练样本的解决方案。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及深度学习和计算机视觉技术领域,可应用于图像处理和图像检测等场景。
背景技术
随着人工智能技术的发展,神经网络模型的应用越来越广泛。其中,在对模型进行训练时,需要采用大量的训练样本。那么,在样本数据较少的情况下,如何获取大量的训练样本对于模型训练而言至关重要。
发明内容
本公开提供了一种模型训练方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种模型训练方法,该方法包括:
根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图;
将所述第一噪声特征图输入至解码网络,得到预测图像;
根据所述预测图像和所述样本图像,确定训练损失,并根据所述训练损失,对所述解码网络进行训练;其中,训练后的解码网络用于生成训练样本。
根据本公开的另一方面,提供了一种样本生成方法,该方法包括:
将第二噪声数据输入至第二高斯函数,得到第二噪声特征图;
将所述第二噪声特征图输入至训练后的解码网络,得到训练样本;其中,所述训练后的解码网络为采用本公开所提供的用于对解码网络进行训练的模型训练方法训练得到。
根据本公开的另一方面,提供了一种模型训练方法,该方法包括:
分别将训练样本输入至老师模型和学生模型,得到第一输出特征和第二输出特征;其中,所述训练样本为采用本公开所提供的样本生成方法生成;
根据所述第一输出特征和所述第二输出特征,确定蒸馏损失;
根据所述蒸馏损失,对所述学生模型进行训练。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述模型训练方法,或者样本生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任一实施例所述的模型训练方法,或者样本生成方法。
根据本公开的技术,提供了一种在样本数据较少的情况下,获取丰富的训练样本的解决方案。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种模型训练方法的流程图;
图2是根据本公开实施例提供的另一种模型训练方法的流程图;
图3是根据本公开实施例提供的一种样本生成方法的流程图;
图4是根据本公开实施例提供的又一种模型训练方法的流程图;
图5是根据本公开实施例提供的一种对学生模型进行训练的原理框图;
图6是根据本公开实施例提供的一种模型训练装置的结构示意图;
图7是根据本公开实施例提供的一种样本生成装置的结构示意图;
图8是根据本公开实施例提供的另一种模型训练装置的结构示意图;
图9是用来实现本公开实施例的模型训练和/或样本生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本公开实施例中所涉及的“第一”和“第二”只是为了便于区分所引入的,两者之间没有明确的先后之分,也没有数量之分等。
图1是根据本公开实施例提供的一种模型训练方法的流程图,该方法适用于在样本数据较少的情况下,如何获取大量的训练样本的情况。该方法可以由模型训练装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于承载模型训练功能的电子设备中。如图1所示,本实施例的模型训练方法可以包括:
S101,根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图。
其中,样本图像可以是模型训练时使用的图像,比如人脸图像;样本特征图可以是对样本图像进行特征提取得到的,其可以通过矩阵的形式来表示。
第一噪声数据可以是随机生成的噪声数据,比如可以根据预先设定的随机噪声生成逻辑来随机生成第一噪声数据。可选的,在本实施中,第一噪声数据的维度,与样本特征图的维度相同。例如,样本特征图的维度为W*H*C,则第一噪声数据的维度为W*H*C。
第一噪声特征图可以是基于第一噪声数据和样本特征图生成的,其也可以通过矩阵的形式来表示。可选的,本实施例基于不同的第一噪声数据,可生成不同的第一噪声特征图;进一步的,第一噪声特征图的维度,也与样本特征图的维度相同。例如,样本特征图的维度为W*H*C,则第一噪声特征图的维度也为W*H*C。
在一可实施方式中,可以将样本特征图输入至数据拟合网络,得到一个拟合函数;将第一噪声数据输入至拟合函数,即可得到第一噪声特征图。
或者,可以将第一噪声数据和样本特征图输入至预先训练好的特征图生成模型中,由特征图生成模型生成第一噪声特征图。
S102,将第一噪声特征图输入至解码网络,得到预测图像。
其中,解码网络为待训练的神经网络,用于对第一噪声特征图进行上采样,以放大第一噪声特征图;即此处的解码网络也可称为上采样网络。需要说明的是,解码网络对第一噪声特征图进行处理得到预测图像的过程,是对样本图像进行处理得到样本特征图的过程的逆过程。
可选的,经过解码网络处理后的第一噪声特征图,即预测图像的维度,与样本图像的维度相同。
具体的,在生成第一噪声特征图之后,可以直接将第一噪声特征图输入至解码网络,由解码网络对第一噪声特征图进行处理,并输出预测图像。
S103,根据预测图像和样本图像,确定训练损失,并根据训练损失,对解码网络进行训练。
可选的,在得到预测图像之后,可以直接将预测图像和样本图像输入到预先设定的损失函数中,得到训练损失。其中,损失函数可以是交叉熵损失函数,或者平方损失函数(即L2损失函数)等。
进一步的,在确定训练损失之后,可以采用训练损失,对解码网络进行训练,不断优化解码网络中的网络参数。具体的,本实施例需要基于多组样本图像和第一噪声数据,基于上述方法对解码网络进行多次迭代训练,直至达到预设的训练停止条件,则停止调整解码提取网络的网络参数,得到经训练的解码网络。训练停止条件可以包括:训练次数达到预设次数,或者训练损失收敛等。
示例性的,本实施例中训练后的解码网络可用于生成训练样本。具体的,在样本数据较少的情况下,可以基于解码网络生成丰富的训练样本。例如,可以通过不同的随机噪声数据,基于解码网络来生成训练样本。
本公开实施例提供的技术方案,通过将基于第一噪声数据和样本图像的样本特征图生成的第一噪声特征图输入至解码网络,可得到预测图像,进而根据预测图像和样本图像确定训练损失,并基于训练损失来对解码网络进行训练。上述方案,训练后的解码网络能够用于生成训练样本,为在样本数据较少的情况下,获取丰富的训练样本提供了一种的解决方案。
可选的,在本公开实施例的基础上,样本图像的样本特征图还可以通过如下方式获得:将样本图像输入至老师模型,得到样本图像的样本特征图。其中,老师模型即为预先训练好的结构复杂的神经网络模型,可具有特征提取功能,可运用到人脸识别、目标物体检测等场景中。可以理解的是,本实施例采用老师模型来提取样本图像的样本特征图,提高了特征提取的精准度,为后续基于精准确第一噪声特征图,以及精准训练解码网络提供了保障。
图2是根据本公开实施例提供的另一种模型训练方法的流程图,本实施例在上述实施例的基础上,进一步对如何生成第一噪声特征图进行详细解释说明。如图2所示,本实施例的模型训练方法可以包括:
S201,根据样本图像的样本特征图,构建第一高斯函数。
可选的,可以按照设定的处理逻辑,对样本图像的样本特征图进行统计分析,以构建第一高斯函数。
在一可实施方式中,可以基于数据拟合网络,根据样本图像的样本特征图,确定方差和均值,并根据方差和均值,来构建第一高斯函数。其中,数据拟合网络可以是用于对不同样本特征图进行数据拟合的神经网络;进一步的,数据拟合网络可以包括全连接层。
具体可以是,将样本图像的样本特征图输入至数据拟合网络,由数据拟合网络基于已有参数来确定并输出样本特征图中每一位置处的方差和均值;之后可以根据样本特征图中每一位置处的方差和均值,构建对应的第一高斯函数。
例如样本特征图的维度是W*H*C,由于样本特征图具有W*H个位置,那么可以确定W*H个方差和均值对,进而可构建W*H个第一高斯函数。进一步的,本实施例中,每一位置在C维度上共用一个第一高斯函数,例如样本特征图的维度是6*6*5,那么在1*1这一位置处,5个维度上具有相同的第一高斯函数等。
需要说明的是,数据拟合网络的已有参数是通过对之前的样本图像的样本特征图进行处理得到的;进一步的,数据拟合网络基于已有参数来对本次输入的样本特征图进行处理,实质为基于本次输入的样本特征图来调整之前的拟合结果,即包括对方差和均值的调整。
可以理解的是,本实施例中采用数据拟合网络来构建第一高斯函数,充分考虑了不同样本特征图之间的数据分布,保证了所构建的第一高斯函数的合理性,进而为后续生成合理的训练样本奠定了基础。
S202,将第一噪声数据输入至第一高斯函数,得到第一噪声特征图。
可选的,在确定第一高斯函数之后,可以将第一噪声数据输入至第一高斯函数,可得到第一噪声特征图。具体可以是,将第一噪声数据中每一维度的噪声数据输入至对应的第一高斯函数,可以得到每一维度的噪声数据所对应的输出数据;进而基于输出数据,即可构成一个第一噪声特征图。
S203,将第一噪声特征图输入至解码网络,得到预测图像。
S204,根据预测图像和样本图像,确定训练损失,并根据训练损失,对解码网络进行训练。
可选的,本实施例在基于训练损失对解码网络进行训练的同时,还可以基于训练损失对数据拟合网络进行训练,即基于训练损失联合训练解码网络和数据拟合网络,不断优化解码网络和数据拟合网络中的网络参数,直至达到训练停止条件,如训练次数达到预设次数等。可以理解的是,本实施例将解码网络与数据拟合网络进行联合训练,进一步提高了模型训练的准确性。
可选的,在数据拟合网络训练好之后,数据拟合网络输出的方差和均值将固定。
本公开实施例提供的技术方案,通过基于样本特征图构建第一高斯函数,并基于第一噪声数据和所构建的高斯函数,可得到第一噪声特征图;之后将第一噪声特征图输入至解码网络,可得到预测图像,进而根据预测图像和样本图像确定训练损失,并基于训练损失来对解码网络进行训练。上述方案,通过基于样本特征图来构建第一高斯函数,使得所确定的第一噪声特征图更加合理,进而保证了解码网络的合理性,为后续基于解码网络生成合理的训练样本提供了数据支撑。
图3是根据本公开实施例提供的一种样本生成方法的流程图,本实施例适用于采用训练后的解码网络生成训练样本的情况。其中,训练后的解码网络基于上述任一实施例所提供的模型训练方法训练得到。该方法可以由样本生成装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于承载样本生成功能的电子设备中。如图3所示,本实施例的样本生成方法可以包括:
S301,将第二噪声数据输入至第二高斯函数,得到第二噪声特征图。
其中,与第一噪声数据相对应,第二噪声数据也可以是随机生成的噪声数据。可选的,本实施例中第二噪声数据的维度与第一噪声数据的维度相同,即第二噪声数据的维度,也与样本图像的维度相同。
第二高斯函数可以是标准的高斯函数,即均值为0、方差为1的高斯函数;或者,可以是基于训练好的数据拟合网络输出的均值和方差所构建的高斯函数。
第二噪声特征图可以是基于第二噪声数据和第二高斯函数生成的,其也可以通过矩阵的形式来表示。进一步的,与第一噪声特征图相对应,本实施例中的第二噪声特征图的维度,也与样本图像的样本特征图的维度相同。
可选的,可以基于实际场景中对训练样本的需求数量,确定第二噪声数据的生成数量;并基于所确定的生成数量,进行第二噪声数据的生成。在生成第二噪声数据之后,可以将每一个第二噪声数据输入至第二高斯函数,可得到每一个第二噪声数据对应的第二噪声特征图。
S302,将第二噪声特征图输入至训练后的解码网络,得到训练样本。
其中,训练后的解码网络为采用上述任一实施例所提供的模型训练方法训练得到。
具体的,在得到第二噪声特征图之后,可以将每一个第二噪声特征图输入至训练后的解码网络,可得到每一个第二噪声特征图对应的预测图像;将所得到的所有预测图像一并作为训练样本。进一步的,可以将所得到的所有预测图像,以及样本图像一并作为训练样本。
需要说明的是,在对模型进行训练时,通常需要采用大量的训练样本,然而在实际应用中,大批量的训练样本获取代价昂贵,且不易获得。因此,在样本数据较少的情况下,现有技术的模型训练精度较低。而本实施例通过基于训练后的解码网络,可生成丰富的训练样本,为高精度的训练模型提供了保障。
本公开实施例提供的技术方案,通过将第二噪声数据输入至第二高斯函数,得到第二噪声特征图,进而通过训练后的解码网络对第二噪声特征图进行处理,可得到训练样本。上述方案,通过第二噪声数据,基于训练后的解码网络,可生成丰富的训练样本,为高精度的训练模型提供了保障。
图4是根据本公开实施例提供的又一种模型训练方法的流程图,该方法适用于如何基于知识蒸馏技术,对学生模型进行训练的情况。该方法可以由模型训练装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于承载模型训练功能的电子设备中。如图4所示,本实施例的模型训练方法可以包括:
S401,分别将训练样本输入至老师模型和学生模型,得到第一输出特征和第二输出特征。
本实施例中,老师模型即为预先训练好的结构复杂的神经网络模型,学生模型即为未训练的结构简单的神经网络模型。可选的,通过知识蒸馏技术,对学生模型进行训练,最终可使得学生模型具有与老师模型相同的功能。
训练样本为采用上述实施例所提供的样本生成方法生成。对训练样本进行特征提取可得到输出特征,所谓输出特征可采用矩阵形式来表示。
可选的,分别将训练样本输入至老师模型和学生模型中,可得到老师模型输出的第一输出特征,以及学生模型输出的第二输出特征。
S402,根据第一输出特征和第二输出特征,确定蒸馏损失。
具体可以是,将第一输出特征和第二输出特征输入至预先设定的损失函数中,得到蒸馏损失。其中,损失函数可以是交叉熵损失函数,或者平方损失函数(即L2损失函数)等。
S403,根据蒸馏损失,对学生模型进行训练。
具体的,采用蒸馏损失,对学生模型进行训练,不断优化学生模型中的网络参数直到模型收敛。具体的,本实施例需要基于多组训练样本,基于上述方法对学生模型进行多次迭代训练,直至达到预设的训练停止条件,则停止调整学生模型的网络参数,得到经训练的学生模型。训练停止条件可以包括:训练次数达到预设次数,或者蒸馏损失收敛等。
本公开实施例提供的技术方案,通过分别将采用样本生成方法所生成的训练样本输入至老师模型和学生模型,可得到老师模型输出的第一输出特征和学生模型输出的第二输出特征;进而基于第一输出特征和第二输出特征,确定蒸馏损失,并采用蒸馏损失对学生模型进行训练。上述方案,在基于知识蒸馏技术训练学生模型时,通过使用丰富的训练样本,使得学生模型具有较高的训练精度。
图5是根据本公开实施例提供的一种对学生模型进行训练的原理框图。如图5所示,本实施例可以包括对解码网络进行训练的过程、生成训练样本的过程、以及对学生模型进行训练的过程三部分。具体如下:
将样本图像输入老师模型,得到老师模型输出的样本特征图;将样本特征图输入数据拟合网络,由数据拟合网络输出方差和均值;根据数据拟合网络输出的方差和均值,构建第一高斯函数;将第一噪声数据输入至第一高斯函数,得到第一噪声特征图;之后将第一噪声特征图输入解码网络,得到预测图像,进而根据预测图像和样本图像可确定训练损失,并采用训练损失对解码网络和数据拟合网络进行训练。
在解码网络和数据拟合网络训练好之后,随机生成第二噪声数据,将第二噪声数据输入至第二高斯函数,得到第二噪声特征图;将第二噪声特征图输入至训练后的解码网络,可得到训练样本。
最后,分别将训练样本输入至老师模型和学生模型,可得到老师模型输出的第一输出特征,以及学生模型输出的第二输出特征;根据第一输出特征和第二输出特征,可确定蒸馏损失,并采用蒸馏损失对学生模型进行训练。
图6是根据本公开实施例提供的一种模型训练装置的结构示意图。本公开实施例适用于在样本数据较少的情况下,如何获取大量的训练样本的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开实施例所述的用于对解码网络进行训练的模型训练方法。如图6所示,该模型训练装置包括:
第一噪声特征图生成模块601,用于根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图;
预测图像确定模块602,用于将第一噪声特征图输入至解码网络,得到预测图像;
第一训练模块603,用于根据预测图像和样本图像,确定训练损失,并根据训练损失,对解码网络进行训练;其中,训练后的解码网络用于生成训练样本。
本公开实施例提供的技术方案,通过将基于第一噪声数据和样本图像的样本特征图生成的第一噪声特征图输入至解码网络,可得到预测图像,进而根据预测图像和样本图像确定训练损失,并基于训练损失来对解码网络进行训练。上述方案,训练后的解码网络能够用于生成训练样本,为在样本数据较少的情况下,获取丰富的训练样本提供了一种的解决方案。
示例性的,第一噪声特征图生成模块601包括:
高斯函数构建单元,用于根据样本图像的样本特征图,构建第一高斯函数;
第一噪声特征图生成单元,用于将第一噪声数据输入至第一高斯函数,得到第一噪声特征图。
示例性的,高斯函数构建单元具体用于:
基于数据拟合网络,根据样本图像的样本特征图,确定方差和均值;
根据方差和均值,构建第一高斯函数。
示例性的,上述装置还包括:
样本特征图确定模块,用于将样本图像输入至老师模型,得到样本图像的样本特征图。
图7是根据本公开实施例提供的一种样本生成装置的结构示意图。本公开实施例适用于采用训练后的解码网络生成训练样本的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开实施例所述的样本生成方法。如图7所示,该样生成装置包括:
第二噪声特征图确定模块701,用于将第二噪声数据输入至第二高斯函数,得到第二噪声特征图;
训练样本确定模块702,用于将第二噪声特征图输入至训练后的解码网络,得到训练样本;其中,训练后的解码网络为采用本公开实施例所述的用于对解码网络进行训练的模型训练方法训练得到。
本公开实施例提供的技术方案,通过将第二噪声数据输入至第二高斯函数,得到第二噪声特征图,进而通过训练后的解码网络对第二噪声特征图进行处理,可得到训练样本。上述方案,通过第二噪声数据,基于训练后的解码网络,可生成丰富的训练样本,为高精度的训练模型提供了保障。
图8根据本公开实施例提供的另一种模型训练装置的结构示意图。本公开实施例适用于如何基于知识蒸馏技术,对学生模型进行训练的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开实施例所述的用于对学生模型进行训练的模型训练方法。如图8所示,该模型训练装置包括:
输出特征确定模块801,用于分别将训练样本输入至老师模型和学生模型,得到第一输出特征和第二输出特征;其中,训练样本为采用本公开实施例提供的样本生成方法生成;
蒸馏损失确定模块802,用于根据第一输出特征和第二输出特征,确定蒸馏损失;
第二训练模块803,用于根据蒸馏损失,对学生模型进行训练。
本公开实施例提供的技术方案,通过分别将采用样本生成方法所生成的训练样本输入至老师模型和学生模型,可得到老师模型输出的第一输出特征和学生模型输出的第二输出特征;进而基于第一输出特征和第二输出特征,确定蒸馏损失,并采用蒸馏损失对学生模型进行训练。上述方案,在基于知识蒸馏技术训练学生模型时,通过使用丰富的训练样本,使得学生模型具有较高的训练精度。
本公开的技术方案中,所涉及的样本图像等的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如模型训练和/或样本生成方法。例如,在一些实施例中,模型训练和/或样本生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM903并由计算单元901执行时,可以执行上文描述的模型训练和/或样本生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练和/或样本生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种模型训练方法,包括:
根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图;
将所述第一噪声特征图输入至解码网络,得到预测图像;
根据所述预测图像和所述样本图像,确定训练损失,并根据所述训练损失,对所述解码网络进行训练;其中,训练后的解码网络用于生成训练样本。
2.根据权利要求1所述的方法,其中,所述根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图,包括:
根据样本图像的样本特征图,构建第一高斯函数;
将第一噪声数据输入至所述第一高斯函数,得到第一噪声特征图。
3.根据权利要求2所述的方法,其中,所述根据样本图像的样本特征图,构建第一高斯函数,包括:
基于数据拟合网络,根据样本图像的样本特征图,确定方差和均值;
根据所述方差和均值,构建第一高斯函数。
4.根据权利要求1所述的方法,还包括:
将样本图像输入至老师模型,得到样本图像的样本特征图。
5.一种样本生成方法,包括:
将第二噪声数据输入至第二高斯函数,得到第二噪声特征图;
将所述第二噪声特征图输入至训练后的解码网络,得到训练样本;其中,所述训练后的解码网络为采用权利要求1-4中任一所述的模型训练方法训练得到。
6.一种模型训练方法,包括:
分别将训练样本输入至老师模型和学生模型,得到第一输出特征和第二输出特征;其中,所述训练样本为采用权利要求5所述的样本生成方法生成;
根据所述第一输出特征和所述第二输出特征,确定蒸馏损失;
根据所述蒸馏损失,对所述学生模型进行训练。
7.一种模型训练装置,包括:
第一噪声特征图生成模块,用于根据第一噪声数据和样本图像的样本特征图,生成第一噪声特征图;
预测图像确定模块,用于将所述第一噪声特征图输入至解码网络,得到预测图像;
第一训练模块,用于根据所述预测图像和所述样本图像,确定训练损失,并根据所述训练损失,对所述解码网络进行训练;其中,训练后的解码网络用于生成训练样本。
8.根据权利要求7所述的装置,其中,所述第一噪声特征图生成模块包括:
高斯函数构建单元,用于根据样本图像的样本特征图,构建第一高斯函数;
第一噪声特征图生成单元,用于将第一噪声数据输入至所述第一高斯函数,得到第一噪声特征图。
9.根据权利要求8所述的装置,其中,所述高斯函数构建单元具体用于:
基于数据拟合网络,根据样本图像的样本特征图,确定方差和均值;
根据所述方差和均值,构建第一高斯函数。
10.根据权利要求7所述的装置,还包括:
样本特征图确定模块,用于将样本图像输入至老师模型,得到样本图像的样本特征图。
11.一种样本生成装置,包括:
第二噪声特征图确定模块,用于将第二噪声数据输入至第二高斯函数,得到第二噪声特征图;
训练样本确定模块,用于将所述第二噪声特征图输入至训练后的解码网络,得到训练样本;其中,所述训练后的解码网络为采用权利要求1-4中任一所述的模型训练方法训练得到。
12.一种模型训练装置,包括:
输出特征确定模块,用于分别将训练样本输入至老师模型和学生模型,得到第一输出特征和第二输出特征;其中,所述训练样本为采用权利要求5所述的样本生成方法生成;
蒸馏损失确定模块,用于根据所述第一输出特征和所述第二输出特征,确定蒸馏损失;
第二训练模块,用于根据所述蒸馏损失,对所述学生模型进行训练。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的模型训练方法,或权利要求5所述的样本生成方法,或权利要求6所述的模型训练方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-4中任一项所述的模型训练方法,或权利要求5所述的样本生成方法,或权利要求6所述的模型训练方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的模型训练方法,或权利要求5所述的样本生成方法,或权利要求6所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102787.7A CN114492793A (zh) | 2022-01-27 | 2022-01-27 | 一种模型训练和样本生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102787.7A CN114492793A (zh) | 2022-01-27 | 2022-01-27 | 一种模型训练和样本生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492793A true CN114492793A (zh) | 2022-05-13 |
Family
ID=81477293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210102787.7A Pending CN114492793A (zh) | 2022-01-27 | 2022-01-27 | 一种模型训练和样本生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492793A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373163A (zh) * | 2016-08-29 | 2017-02-01 | 东南大学 | 一种基于三维投影图区别性特征表示的低剂量ct成像方法 |
CN109711544A (zh) * | 2018-12-04 | 2019-05-03 | 北京市商汤科技开发有限公司 | 模型压缩的方法、装置、电子设备及计算机存储介质 |
CN111639744A (zh) * | 2020-04-15 | 2020-09-08 | 北京迈格威科技有限公司 | 学生模型的训练方法、装置及电子设备 |
CN112418305A (zh) * | 2020-11-19 | 2021-02-26 | 北京紫光展锐通信技术有限公司 | 一种训练样本的生成方法、装置、计算机设备和存储介质 |
CN113255441A (zh) * | 2021-04-13 | 2021-08-13 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及介质 |
CN113705492A (zh) * | 2021-08-31 | 2021-11-26 | 杭州艾芯智能科技有限公司 | 人脸训练样本图像的生成方法、系统、计算机设备及存储介质 |
-
2022
- 2022-01-27 CN CN202210102787.7A patent/CN114492793A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373163A (zh) * | 2016-08-29 | 2017-02-01 | 东南大学 | 一种基于三维投影图区别性特征表示的低剂量ct成像方法 |
CN109711544A (zh) * | 2018-12-04 | 2019-05-03 | 北京市商汤科技开发有限公司 | 模型压缩的方法、装置、电子设备及计算机存储介质 |
CN111639744A (zh) * | 2020-04-15 | 2020-09-08 | 北京迈格威科技有限公司 | 学生模型的训练方法、装置及电子设备 |
CN112418305A (zh) * | 2020-11-19 | 2021-02-26 | 北京紫光展锐通信技术有限公司 | 一种训练样本的生成方法、装置、计算机设备和存储介质 |
CN113255441A (zh) * | 2021-04-13 | 2021-08-13 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及介质 |
CN113705492A (zh) * | 2021-08-31 | 2021-11-26 | 杭州艾芯智能科技有限公司 | 人脸训练样本图像的生成方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343803A (zh) | 模型训练方法、装置、设备和存储介质 | |
CN113407850B (zh) | 一种虚拟形象的确定和获取方法、装置以及电子设备 | |
CN114187459A (zh) | 目标检测模型的训练方法、装置、电子设备以及存储介质 | |
US20220374678A1 (en) | Method for determining pre-training model, electronic device and storage medium | |
KR20230139296A (ko) | 포인트 클라우드 처리 모델의 훈련과 포인트 클라우드 인스턴스 분할 방법 및 장치 | |
US20230066021A1 (en) | Object detection | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN114449343A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN114494776A (zh) | 一种模型训练方法、装置、设备以及存储介质 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN113641804A (zh) | 预训练模型获取方法、装置、电子设备及存储介质 | |
CN113592932A (zh) | 深度补全网络的训练方法、装置、电子设备及存储介质 | |
CN112528995A (zh) | 用于训练目标检测模型的方法、目标检测方法及装置 | |
CN113641829A (zh) | 图神经网络的训练与知识图谱的补全方法、装置 | |
CN114861059A (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
CN114581732A (zh) | 一种图像处理及模型训练方法、装置、设备和存储介质 | |
CN114547252A (zh) | 文本识别方法、装置、电子设备和介质 | |
CN114120454A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
CN115840867A (zh) | 数学解题模型的生成方法、装置、电子设备和存储介质 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
US20230111511A1 (en) | Intersection vertex height value acquisition method and apparatus, electronic device and storage medium | |
CN113408304B (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN113362218B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113361575B (zh) | 模型训练方法、装置和电子设备 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |