CN114627331A

CN114627331A - 模型训练方法和装置

Info

Publication number: CN114627331A
Application number: CN202210223406.0A
Authority: CN
Inventors: 杨一博; 陈亚鑫; 马本腾; 陶大程
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-14

Abstract

本发明公开了一种模型训练方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型。该实施方式能够增强模型对小众类别和/或图像细节信息的表达能力。

Description

模型训练方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练方法和装置。

背景技术

语义分割是当今计算机视觉领域的关键问题之一，广泛应用在自动驾驶、虚拟现实、智能诊疗、遥感等领域，其能够通过对每一像素所属类别的推理和预测实现场景的完整理解。由于语义分割任务需要在像素级别理解复杂场景，因此往往需要更大规模的复杂模型来学习强大的特征表示能力以确保预测精度并使得模型拥有较好的泛化性，由于模型尺寸大以及计算成本高，容易导致资源占用高、响应速度慢等问题，同时不适合部署在终端设备。

目前，可以采用知识蒸馏方法解决以上问题，即通过复杂的教师模型来训练轻量的学生模型，并将轻量的学生模型部署在终端设备。实际的语义分割任务中，这种方法存在以下问题：第一，受到主要类别(像素占比较大的类别，类别指的是像素所属类别，即标签含有的类别)的影响，模型对小众类别(像素占比较小的类别)的表达能力较弱；第二，模型对图像中的局部信息和细节信息的表达能力较弱，特别是当关注的目标仅占据图像的较小范围而背景占据较大范围时，容易忽视目标。

发明内容

有鉴于此，本发明实施例提供一种模型训练方法和装置，能够在知识蒸馏过程中通过提取联合特征和/或分离特征来增强模型对小众类别和/或图像细节信息的表达能力。

为实现上述目的，根据本发明的一个方面，提供了一种模型训练方法。

本发明实施例的模型训练方法包括：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据；使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

可选地，任一类别的联合特征根据以下步骤确定：获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据；将各像素属于该类别的概率数据合并为该类别的联合特征。

可选地，所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成；经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括：该切分空间的像素属于该类别的概率数据。

可选地，在所述学生模型形成联合特征的情况下，所述教师模型形成联合特征；在所述教师模型形成联合特征的情况下，所述学生模型形成联合特征；在所述学生模型形成分离特征的情况下，所述教师模型形成分离特征；在所述教师模型形成分离特征的情况下，所述学生模型形成分离特征；以及，所述使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数，包括：将第一差异和第二差异的加权和确定为所述损失函数；或者，将第一差异和第三差异的加权和确定为所述损失函数；或者，将第一差异、第二差异和第三差异的加权和确定为所述损失函数。

可选地，每一类别的联合特征在进入所述广义归一化层之后，执行该联合特征内部的归一化，形成该类别的第一归一化特征；以及，第二差异根据以下步骤确定：计算所述学生模型与所述教师模型对应于同一类别的第一归一化特征的KL散度；将各类别的KL散度的平均值确定为第二差异。

可选地，经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征在进入所述广义归一化层之后，执行该分离特征内部的归一化，形成该切分空间和该类别的第二归一化特征；以及，第三差异根据以下步骤确定：计算所述学生模型与所述教师模型对应于同一位置切分空间以及同一类别的第二归一化特征的KL散度；将各位置切分空间以及各类别的KL散度的平均值确定为第三差异。

可选地，所述学生模型的特征图进入狭义归一化层进行计算，所述预测结果是基于所述狭义归一化层的计算结果确定的；以及，狭义归一化层包括温度参数等于1的Softmax层，广义归一化层包括温度参数不等于1的Softmax层。

为实现上述目的，根据本发明的另一方面，提供了一种模型训练装置。

本发明实施例的模型训练装置可以包括：有监督训练单元，用于：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据；蒸馏训练单元，用于：使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

可选地，任一类别的联合特征根据以下步骤确定：获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据；将各像素属于该类别的概率数据合并为该类别的联合特征；所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成；经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括：该切分空间的像素属于该类别的概率数据；在所述学生模型形成联合特征的情况下，所述教师模型形成联合特征；在所述教师模型形成联合特征的情况下，所述学生模型形成联合特征；在所述学生模型形成分离特征的情况下，所述教师模型形成分离特征；在所述教师模型形成分离特征的情况下，所述学生模型形成分离特征；以及，蒸馏训练单元进一步用于：将第一差异和第二差异的加权和确定为所述损失函数；或者，将第一差异和第三差异的加权和确定为所述损失函数；或者，将第一差异、第二差异和第三差异的加权和确定为所述损失函数。

为实现上述目的，根据本发明的又一方面，提供了一种电子设备。

本发明的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的模型训练方法。

为实现上述目的，根据本发明的再一方面，提供了一种计算机可读存储介质。

本发明的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明所提供的模型训练方法。

根据本发明的技术方案，上述发明中的实施例具有如下优点或有益效果：

在基于知识蒸馏的模型训练过程中，为学生模型建立主体网络之后的第一路径、以及第二路径和/或第三路径，为教师模型建立主体网络之后的第四路径和/或第五路径，其中，第二路径和第四路径同时使用或同时不使用，同时使用时形成第二差异；第三路径和第五路径同时使用或同时不使用，同时使用时形成第三差异；学生模型的损失函数可以由第一路径的输出结果与标签之间的第一差异结合第二差异和/或第三差异得到。

在使用第二路径和第四路径时，在学生模型和教师模型，可以分别将主体网络输出的特征图转换为每一类别的联合特征后输入归一化层再执行对齐(对齐指的是利用交叉熵、KL散度等函数计算概率分布差异)，联合特征由对应于样本集中各图像的特征图中各像素针对同一类别的概率数据所组成，即表示像素概率在类别维度的跨图像合并。这样，通过构建针对不同类别的联合特征，小众类别有了独立的特征表达渠道，有利于规避同一图像中主要类别对小众类别的影响，强化学生模型对小众类别的表达能力，从而避免现有的语义分割知识蒸馏方法中容易弱化小众类别的缺陷。

在使用第三路径和第五路径时，在学生模型和教师模型，可以分别将主体网络输出的特征图按照一致的切分规则在高度和宽度维度切分为多个分离特征后输入归一化层再执行对齐，以上分离特征能够体现训练图像的局部信息和细节信息，基于分离特征的对齐方式能够使学生模型增强对于图像细节和小范围目标的表达能力，特别是当目标占据图像中的较小范围而背景占据较大范围时，以上基于分离特征的对齐方式有可能使小范围目标在模型中具有独立的表达渠道，从而最大程序降低被忽视的可能。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例中模型训练方法的主要步骤示意图；

图2是本发明实施例的训练过程中的教师模型和学生模型的结构示意图；

图3是本发明实施例的教师模型和学生模型的具体使用步骤示意图；

图4是本发明实施例中模型训练装置的组成部分示意图；

图5是根据本发明实施例可以应用于其中的示例性系统架构图；

图6是用来实现本发明实施例中模型训练方法的电子设备结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语义分割是计算机视觉中的一个基本主题，旨在为输入图像中的每个像素分配一个唯一的类别，以上类别例如人、天空、草地、车辆等，由于语义分割任务需要在像素级别理解复杂场景，因此往往需要更大规模的复杂模型来学习强大的特征表示能力以确保预测精度并使得模型拥有较好的泛化性，由于模型尺寸大以及计算成本高，容易导致资源占用高、响应速度慢等问题，同时不适合部署在终端设备，目前可以通过知识蒸馏方法加以解决，通过复杂的、训练完成的教师模型(Teacher Model)来训练轻量的学生模型(StudentModel)。

知识蒸馏(Knowledge Distillation)是一种模型压缩方法，是一种基于“教师-学生”的训练方法，其将已经训练好的教师模型包含的知识(Knowledge)蒸馏(Distill)提取到学生模型里，其思路为：首先建立一个结构相对复杂、尺寸较大的教师模型和一个轻量、参数量较少、结构相对简单的学生模型，此后由教师模型完成学习标注有语义分割标签(可以是人工标注)的训练样本，由学生模型同时学习以上训练样本以及教师模型的输出结果(损失函数为这两部分之和)，从而将教师模型的知识表达转移到学生模型，最终将学生模型部署上线。

知识蒸馏涉及到温度参数T，其是广义归一化层(例如广义Softmax函数)的参数，广义Softmax函数如下式：

其中，z_i是输入向量的第i分量，q_i是z_i的输出，j表示输入向量中的任一分量的序号。

可以看到，传统的Softmax函数是T＝1的特例，T越高，函数输出的概率分布越趋于平滑，其分布的熵越大，负标签(即正标签之外的其它标签)携带的信息会被放大，模型训练会更加关注负标签。实际训练过程中，可以在学生模型学习教师模型输出结果时提高学生模型和教师模型中广义归一化层的温度参数T，在训练结束之后在将T降低。在本发明实施例中，狭义归一化层包括温度参数等于1的Softmax层(采用传统的Softmax函数)，广义归一化层包括温度参数T不等于1的Softmax层(一般采用T大于1的以上广义Softmax函数)，二者统称为归一化层。

在实际的语义分割任务中，这种方法存在以下问题：第一，受到主要类别的影响，模型对小众类别的表达能力较弱；第二，模型对图像中的局部信息和细节信息的表达能力较弱，特别是当关注的目标仅占据图像的较小范围而背景占据较大范围时，容易忽视目标。本发明可以通过以下技术方案予以解决，通过基于联合特征的知识表达解决第一个问题，通过基于分离特征的知识表达解决第二个问题。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

图1是根据本发明实施例中模型训练方法的主要步骤示意图。

如图1所示，本发明实施例的模型训练方法可具体按照如下步骤执行：

步骤S101：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将学生模型对训练图像中像素所属类别的预测结果与语义分割标签之间的概率分布差异确定为第一差异。

在本步骤中，样本集指的是含有多个训练样本(在语义分割领域为图像样本)的样本集合，其含有的样本数量用B表示，其可以是一个批次(batch)，也可以是多个批次。语义分割标签可以是通过人工标注的真值标签(即ground truth)，也可以是通过其它非人工方法得到的真值标签，一幅训练图像的语义分割标签包括其中每一像素所属的类别。

图2是本发明实施例的训练过程中的教师模型和学生模型的结构示意图，参见图2，学生模型包括主体网络和连接在该主体网络之后的多条输出路径，教师模型包括主体网络和连接在该主体网络之后的至少一条输出路径，以上主体网络可以是学生模型和教师模型在归一化层之前的模型结构，在语义分割领域，学生模型和教师模型的主体网络可以CNN(Convolutional Neural Networks，卷积神经网络)为主体，也可以其它适用的现有模型为主体。在学生模型和教师模型中，以上主体网络向后输出特征图(即Feature Map)，其尺寸为B*H*W，其中B也可表示通道数，等于样本集中训练图像的数量，H为高度(即高度维度的像素数量)，W为宽度(即宽度维度的像素数量)，H和W为不小于1的整数。

例如，如果以上特征图的尺寸为10*64*64，则相当于以上特征图中包含10个通道，每一通道都是64*64的图像，每一图像包括64*64个像素，整个特征图包括10*64*64个像素。可以理解，各像素的像素值为该像素属于各类别的概率数据(与像素属于某类别的概率相关，但是可以不处在零与1之间)，形式上为长度等于类别数量(表示为C)的向量。

需要说明的是，以上特征图的各通道与样本集中的各训练图像一一对应，H和W可以分别等于训练图像的高度和宽度，也可以分别小于训练图像的高度和宽度以加快运算速度，如果是后者，在输出预测结果时，可以通过内插值方法将H*W的图像还原到训练图像尺寸。

以上输出路径包括归一化层等模型结构以及基于该模型结构的模型输出方式。学生模型的输出路径中包括第一路径，第一路径包括狭义归一化层、输出层等结构，还可以包括用于还原图像尺寸的结构。在学生模型的训练过程中，基于第一路径的输出结果是学生模型对训练图像中像素所属类别的预测结果，在步骤S101中，可以通过已知的交叉熵、KL散度等方式计算学生模型基于第一路径的输出结果与预先标注的语义分割标签之间的概率分布差异，并将其确定为第一差异。可以理解，第一差异表示学生模型从真实样本中学习知识表达。此后，可以在第一差异的基础上构建学生模型的损失函数。

学生模型的输出路径中进一步包括第二路径和/或第三路径，教师模型的输出路径中包括第四路径和/或第五路径，以上路径都具有广义归一化层，可以理解，以上路径用于实现教师模型的知识到学生模型的传递。在本发明实施例中，针对以上路径有三种选取方式：第一，同时选取第二路径和第四路径，不选取第三路径和第五路径；第二，同时选取第三路径和第五路径，不选取第二路径和第四路径；第三，既选取第二路径和第四路径，又选取第三路径和第五路径。

学生模型的第二路径和教师模型的第四路径均对应于基于联合特征的知识表达，在这两条路径中，相应主体网络(对于第二路径是学生模型的主体网络，对于第四路径是教师模型的主体网络)输出的以上特征图可以转换为每一类别的联合特征之后进入广义归一化层，任何一个类别的联合特征由特征图中所有通道的像素(即特征图中的所有像素)属于该类别的概率数据所组成。

也就是说，在第二路径和第四路径中，得到主体网络输出的特征图之后，可以分别针对每一类别，从特征图中提取各像素属于该类别的概率数据(即像素值)并按照固定顺序排列，由此合并为一个向量，该向量即为该类别的联合特征。承接上例，对于尺寸为10*64*64的特征图，如果类别数量C为19，则其中每一像素的像素值为长度等于19的向量(各分量依次对应类别1到类别19)，在计算某类别(以类别5)的联合特征时，按照基于通道、高度、宽度的预设固定顺序遍历各通道图像的每一像素，提取像素值中对应于类别5的概率数据，将各概率数据按照相应像素的固定排列位置进行合并，从而形成类别5的联合特征。各类别的联合特征此后进入后方连接的广义归一化层，在联合特征内部执行归一化，形成各类别的第一归一化特征。最后，可以通过KL散度等方法计算学生模型基于第二路径的输出结果与教师模型基于第四路径的输出结果之间的概率分布差异(称为第二差异)，并可以选择第二差异来构造学生模型的损失函数。示例性地，可以计算学生模型与教师模型对应于同一类别的第一归一化特征的KL散度，并将各类别的KL散度的平均值确定为第二差异。

学生网络的广义归一化层对联合特征的计算过程如下式：

U_i＝(u_i,1,u_i,2,…,u_i,j,…,u_i,B×H×W)

其中，U_i是学生网络中类别i的第一归一化特征，u_i,j是U_i中的第j个分量，

是学生网络中类别i的联合特征的第j个分量，

是学生网络中类别i的联合特征的第k个分量(表示遍历每一分量)，T_u是第二路径的广义归一化层的温度参数。

教师网络的广义归一化层对联合特征的计算过程如下式：

V_i＝(v_i,1,v_i,2,…,v_i,j,…,v_i,B×H×W)

其中，V_i是教师网络中类别i的第一归一化特征，v_i,j是V_i中的第j个分量，

是教师网络中类别i的联合特征的第j个分量，

是教师网络中类别i的联合特征的第k个分量(表示遍历每一分量)，T_v是第四路径的广义归一化层的温度参数，T_v可以等于T_u，也可以不等于T_u。

第二差异的计算可以如下式：

其中，L_U表示第二差异，KL(||)表示KL散度函数。

如果选择第二差异来构造学生模型的损失函数，则通过以上基于联合特征的知识表达，能够实现各像素的概率数据在类别维度的跨图像聚合，如此，小众类别有了独立的特征表达渠道(即独立的联合特征)，在其独立渠道中不存在其它类别，由此有利于规避同一图像中主要类别对小众类别的影响，强化学生模型对小众类别的表达能力，从而避免现有的语义分割知识蒸馏方法中容易弱化小众类别的缺陷。特别是在某些训练图像中，某些小众类别可能不会出现，使用这样的训练图像会严重影响小众类别的预测，而使用本发明的联合特征知识表达可以通过该小众类别的跨图像联合解决这一问题。

学生模型的第三路径和教师模型的第五路径均对应于基于联合特征的知识表达，在这两条路径中，相应主体网络(对于第三路径是学生模型的主体网络，对于第五路径是教师模型的主体网络)输出的以上特征图基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入广义归一化层，每一分离特征包括特征图处在同一切分空间(可以是高度维度和宽度维度的二维空间，也可以是高度维度、宽度维度、通道维度的三维空间)的像素属于以上类别的概率数据。以上切分规则可以执行在高度维度和宽度维度，还可以进一步执行在通道维度和类别维度，在各维度的切分都为平均切分。以下说明几种切分规则：

第一，仅在高度维度和宽度维度进行切分，例如2×2(高度和宽度都均分为2)或者4×4(高度和宽度都均分为4)，则以2×2为例，承接上例，对于尺寸为10*64*64的特征图，形成4个切分空间，每一切分空间的尺寸为10*32*32，则每一切分空间对应一个分离特征，每一分离特征为相应切分空间的每一像素属于每一类别的概率数据，即，如果将分离特征展平，其长度为10*32*32*19，分离特征的总数为4。

第二，在高度维度、宽度维度和通道维度进行切分，例如高度和宽度如前采用2×2，通道切分为10(即按照不同图像切分)，则对于尺寸为10*64*64的特征图，形成2×2×10个切分空间，每一切分空间的尺寸为32*32，每一分离特征为相应切分空间的每一像素属于每一类别的概率数据，即，如果将分离特征展平，其长度为32*32*19，分离特征的总数为2×2×10。

第三，在高度维度、宽度维度和通道维度进行切分，并且在类别维度聚合。例如高度和宽度如前采用2×2，通道如前切分为10，分别按照每一类别聚合，则对于尺寸为10*64*64的特征图，形成2×2×10个切分空间，每一切分空间的尺寸为32*32，聚合到每一类别之后，对应于任一切分空间和任一类别的分离特征为该切分空间的每一像素属于该类别的概率数据，即，如果将分离特征展平，其长度为32*32，分离特征的总数为2×2×10×19。

需要说明的是，学生模型和教师模型需要采用一致的切分规则来保证数据一致，以上切分也可以复用，例如高度维度和宽度维度可以一方面采用2×2切分，另一方面采用4×4切分，最后对两方面的数据融合，当然，学生模型和教师模型在复用时也需要保证一致性。

各分离特征形成之后，进入后方连接的广义归一化层执行分离特征内部的归一化，每一分离特征形成第二归一化特征。以第三种切分规则为例，经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征在进入广义归一化层之后，执行该分离特征内部的归一化，形成该切分空间和该类别的第二归一化特征。最后，可以通过KL散度等方法计算学生模型基于第三路径的输出结果与教师模型基于第五路径的输出结果之间的概率分布差异(称为第三差异)，并可以选择第三差异来构造学生模型的损失函数。示例性地，可以首先计算学生模型与教师模型对应于同一位置切分空间以及同一类别的第二归一化特征的KL散度，之后将各位置切分空间以及各类别的KL散度的平均值确定为第三差异。

以第三种切分规则为例，学生网络的广义归一化层对分离特征的计算过程如下式：

其中，m表示宽度维度和高度维度的切分数量(即切分为m份)，此例中将特征图的宽度和高度切分为相同数量；D_x是学生网络中序号为x的第二归一化特征，x的最大值为B×C×m²；d_x,j是D_x中的第j个分量，一个第二归一化特征中的分量总数为

是学生网络中序号为x的分离特征的第j个分量，

是该分离特征的第k个分量(表示遍历每一分量)，T_d是第三路径的广义归一化层的温度参数。

教师网络的广义归一化层对分离特征的计算过程如下式：

其中，F_x是教师网络中序号为x的第二归一化特征，f_x,j是F_x中的第j个分量，

是教师网络中序号为x的分离特征的第j个分量，

是该分离特征的第k个分量(表示遍历每一分量)，T_f是第五路径的广义归一化层的温度参数，T_f可以等于T_d，也可以不等于T_d。

第三差异L_D的计算可以如下式：

如果选择第三差异来构造学生模型的损失函数，则通过以上基于分离特征的知识表达，能够体现训练图像的局部信息和细节信息，例如，所关注的目标如果在原图像中仅占据20％或者更小的范围，则在经过切分之后可能占据切分图像80％以上的范围，因此其目标信息能够充分体现在此后形成的分离特征中(等同于为小范围目标增加了独立的模型表达渠道)，避免被大范围背景所淹没，从而大大增强学生模型增强对于图像细节信息和局部信息的表达能力。

步骤S102：使用第一差异结合第二差异和/或第三差异构造学生模型的损失函数。

如前述，可以采用三种选取方式选取路径：第一，同时选取第二路径和第四路径，不选取第三路径和第五路径；第二，同时选取第三路径和第五路径，不选取第二路径和第四路径；第三，既选取第二路径和第四路径，又选取第三路径和第五路径。在第一种选取方式之下，可以使用基于第二路径和第四路径的第二差异与第一差异构造损失函数；在第二种选取方式之下，可以使用基于第三路径和第五路径的第三差异与第一差异构造损失函数；在第三种选取方式之下，可以使用第一差异、第二差异和第三差异构造损失函数。实际应用中，一般通过加权和方式来构造损失函数。

图3是本发明实施例的教师模型和学生模型的具体使用步骤示意图，参见图3，在步骤S301中，使用有监督方法通过样本集来训练教师模型。在步骤S302中，在学生模型结构中增加基于联合特征的知识表达。在步骤S303中，在学生模型结构中增加基于分离特征的知识表达。步骤S301和步骤S302可以选择其一，也可以全部选择。在步骤S304中，根据需要将学生模型和教师模型的各广义归一化层的温度参数T调高进行训练。在步骤S305中，训练结束时可以仅使用学生模型的一条输出路径，如果保留的输出路径中含有广义归一化层时，需要将其温度参数设置为固定值。在步骤S306中，将轻量的学生模型部署到计算资源较低的设备(如终端设备)上，这样，既可以满足终端设备对模型参数量的要求，又可以使部署的学生模型具有教师模型的知识表达能力。

在本发明实施例的技术方案中，基于联合特征和分离特征的知识表达可以用于语义分割领域的超大模型到轻量化模型的知识蒸馏，并且具有明确的物理含义，可解释性强。具体来说，联合特征的知识表达从类别维度对多幅训练图像进行聚合，以强化学生模型对小众类别的表达能力；分离特征的知识表达通过将特征图切块并分别对齐，以加强学生模型对图像中局部信息和细节信息的表达能力，如此，解决了语义分割知识蒸馏领域的长期痛点。

需要说明的是，对于前述的各方法实施例，为了便于描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，某些步骤事实上可以采用其它顺序进行或者同时进行。此外，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是实现本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4所示，本发明实施例提供的模型训练装置400可以包括：有监督训练单元401和蒸馏训练单元402。

有监督训练单元401可用于：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据。

蒸馏训练单元402可用于：使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

在本发明实施例中，任一类别的联合特征根据以下步骤确定：获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据；将各像素属于该类别的概率数据合并为该类别的联合特征；所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成；经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括：该切分空间的像素属于该类别的概率数据；在所述学生模型形成联合特征的情况下，所述教师模型形成联合特征；在所述教师模型形成联合特征的情况下，所述学生模型形成联合特征；在所述学生模型形成分离特征的情况下，所述教师模型形成分离特征；在所述教师模型形成分离特征的情况下，所述学生模型形成分离特征；以及，所述蒸馏训练单元402可进一步用于：将第一差异和第二差异的加权和确定为所述损失函数；或者，将第一差异和第三差异的加权和确定为所述损失函数；或者，将第一差异、第二差异和第三差异的加权和确定为所述损失函数。

作为一个优选方案，每一类别的联合特征在进入所述广义归一化层之后，执行该联合特征内部的归一化，形成该类别的第一归一化特征；以及，蒸馏训练单元402可进一步用于：计算所述学生模型与所述教师模型对应于同一类别的第一归一化特征的KL散度；将各类别的KL散度的平均值确定为第二差异。

较佳地，经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征在进入所述广义归一化层之后，执行该分离特征内部的归一化，形成该切分空间和该类别的第二归一化特征；以及，蒸馏训练单元402可进一步用于：计算所述学生模型与所述教师模型对应于同一位置切分空间以及同一类别的第二归一化特征的KL散度；将各位置切分空间以及各类别的KL散度的平均值确定为第三差异。

此外，在本发明实施例中，所述学生模型的特征图进入狭义归一化层进行计算，所述预测结果是基于所述狭义归一化层的计算结果确定的；狭义归一化层包括温度参数等于1的Softmax层，广义归一化层包括温度参数不等于1的Softmax层。

根据本发明实施例的技术方案，在基于知识蒸馏的模型训练过程中，为学生模型建立主体网络之后的第一路径、以及第二路径和/或第三路径，为教师模型建立主体网络之后的第四路径和/或第五路径，其中，第二路径和第四路径同时使用或同时不使用，同时使用时形成第二差异；第三路径和第五路径同时使用或同时不使用，同时使用时形成第三差异；学生模型的损失函数可以由第一路径的输出结果与标签之间的第一差异结合第二差异和/或第三差异得到。

在使用第二路径和第四路径时，在学生模型和教师模型，可以分别将主体网络输出的特征图转换为每一类别的联合特征后输入归一化层再执行对齐，联合特征由对应于样本集中各图像的特征图中各像素针对同一类别的概率数据所组成，即表示像素概率在类别维度的跨图像合并。这样，通过构建针对不同类别的联合特征，小众类别有了独立的特征表达渠道，有利于规避同一图像中主要类别对小众类别的影响，强化学生模型对小众类别的表达能力，从而避免现有的语义分割知识蒸馏方法中容易弱化小众类别的缺陷。

图5示出了可以应用本发明实施例的模型训练方法或模型训练装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505(此架构仅仅是示例，具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用，例如训练模型的应用等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所操作的训练模型的应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的模型训练请求进行处理，并将处理结果(例如模型是否训练完成--仅为示例)反馈给终端设备501、502、503。

需要说明的是，本发明实施例所提供的模型训练方法一般由服务器505执行，相应地，模型训练装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本发明还提供了一种电子设备。本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的模型训练方法。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括有监督训练单元和蒸馏训练单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，有监督训练单元还可以被描述为“向蒸馏训练单元提供第一差异的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该设备执行时，使得该设备执行的步骤包括：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据；使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

根据本发明实施例的技术方案，能够在知识蒸馏过程中通过提取联合特征和/或分离特征来增强模型对小众类别和/或图像细节信息的表达能力。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，

所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据；

使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

2.根据权利要求1所述的方法，其特征在于，任一类别的联合特征根据以下步骤确定：

获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据；

将各像素属于该类别的概率数据合并为该类别的联合特征。

3.根据权利要求1所述的方法，其特征在于，所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成；

经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括：该切分空间的像素属于该类别的概率数据。

4.根据权利要求1所述的方法，其特征在于，在所述学生模型形成联合特征的情况下，所述教师模型形成联合特征；在所述教师模型形成联合特征的情况下，所述学生模型形成联合特征；在所述学生模型形成分离特征的情况下，所述教师模型形成分离特征；在所述教师模型形成分离特征的情况下，所述学生模型形成分离特征；以及，所述使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数，包括：

将第一差异和第二差异的加权和确定为所述损失函数；或者，

将第一差异和第三差异的加权和确定为所述损失函数；或者，

将第一差异、第二差异和第三差异的加权和确定为所述损失函数。

5.根据权利要求2所述的方法，其特征在于，每一类别的联合特征在进入所述广义归一化层之后，执行该联合特征内部的归一化，形成该类别的第一归一化特征；以及，第二差异根据以下步骤确定：

计算所述学生模型与所述教师模型对应于同一类别的第一归一化特征的KL散度；

将各类别的KL散度的平均值确定为第二差异。

6.根据权利要求3所述的方法，其特征在于，经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征在进入所述广义归一化层之后，执行该分离特征内部的归一化，形成该切分空间和该类别的第二归一化特征；以及，第三差异根据以下步骤确定：

计算所述学生模型与所述教师模型对应于同一位置切分空间以及同一类别的第二归一化特征的KL散度；

将各位置切分空间以及各类别的KL散度的平均值确定为第三差异。

7.根据权利要求1-6任一所述的方法，其特征在于，所述学生模型的特征图进入狭义归一化层进行计算，所述预测结果是基于所述狭义归一化层的计算结果确定的；以及，

狭义归一化层包括温度参数等于1的Softmax层，广义归一化层包括温度参数不等于1的Softmax层。

8.一种模型训练装置，其特征在于，包括：

有监督训练单元，用于：将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型，将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异；以及，所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层；对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图：转换为所述类别的联合特征后进入所述广义归一化层，和/或，基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层；其中，每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据；每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据；

蒸馏训练单元，用于：使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型；其中，第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的，第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。

9.根据权利要求8所述的装置，其特征在于，任一类别的联合特征根据以下步骤确定：获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据；将各像素属于该类别的概率数据合并为该类别的联合特征；

所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成；经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括：该切分空间的像素属于该类别的概率数据；

在所述学生模型形成联合特征的情况下，所述教师模型形成联合特征；在所述教师模型形成联合特征的情况下，所述学生模型形成联合特征；在所述学生模型形成分离特征的情况下，所述教师模型形成分离特征；在所述教师模型形成分离特征的情况下，所述学生模型形成分离特征；以及，蒸馏训练单元进一步用于：

将第一差异和第二差异的加权和确定为所述损失函数；或者，将第一差异和第三差异的加权和确定为所述损失函数；或者，将第一差异、第二差异和第三差异的加权和确定为所述损失函数。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。