CN111368788B

CN111368788B - 图像识别模型的训练方法、装置及电子设备

Info

Publication number: CN111368788B
Application number: CN202010189326.9A
Authority: CN
Inventors: 王彬
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-10-27
Anticipated expiration: 2040-03-17
Also published as: CN111368788A

Abstract

本发明提供了一种图像识别模型的训练方法、装置及电子设备，涉及深度学习技术领域，该方法包括：将预先标注有样本标签的训练样本输入图像识别模型；在图像识别模型的迭代训练过程中，基于图像识别模型的网络层确定训练样本对应的细粒度特征图，将细粒度特征图输入至预设的深度学习网络，以使深度学习网络从细粒度特征图中学习到细粒度特征信息，并将学习到的细粒度特征信息蒸馏至图像识别模型中；其中，细粒度特征图为标注有样本标签对应的判别性区域的图像；重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型。本发明能够提升训练后的图像识别模型的图像识别效率。

Description

图像识别模型的训练方法、装置及电子设备

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种图像识别模型的训练方法、装置及电子设备。

背景技术

现有的人体动作识别任务中，在进行图像识别模型的训练时，为了获取到训练样本的细节特征，需要精确地定位到样本图像中的判别性区域(即动作发生区域)，传统的图像识别模型训练方式中主要依靠人工标注判别性区域，费时费力，为了节省人工标注判别性区域的时间，研究人员开始采用自监督注意力机制挖掘判别性区域的方式定位样本图像中的判别性区域，从而获取细粒度特征，然而，采用注意力机制挖掘判别性区域进行模型训练时，需要使用多个模型，且使用训练后的模型进行图像识别时也需要使用多个模型进行分阶段识别，计算量较大。因此，现有的模型训练方式得到的图像识别模型还存在因图像识别计算量较大而导致的图像识别效率较低的问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像识别模型的训练方法、装置及电子设备，能够提升训练后的图像识别模型的图像识别效率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种图像识别模型的训练方法，包括：将预先标注有样本标签的训练样本输入图像识别模型；在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图，将所述细粒度特征图输入至深度学习网络，以使所述深度学习网络从所述细粒度特征图中学习到细粒度特征信息，并将学习到的所述细粒度特征信息蒸馏至所述图像识别模型中；其中，所述细粒度特征图为标注有所述样本标签对应的判别性区域的图像；重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型。

进一步，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述图像识别模型包括卷积神经网络；所述在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图的步骤，包括：基于所述训练样本及所述细粒度特征信息对所述图像识别模型进行迭代训练，并在迭代训练中基于所述图像识别模型的最后一层卷积层获取所述训练样本的掩码图像；基于所述掩码图像确定所述训练样本对应的细粒度特征图。

进一步，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述基于所述训练样本及所述细粒度特征信息对所述图像识别模型进行迭代训练，并在迭代训练中基于所述图像识别模型的最后一层卷积层获取所述训练样本的掩码图像的步骤，包括：基于所述图像识别模型的各个卷积层及所述细粒度特征信息从所述训练样本中提取特征；基于提取的特征及所述样本标签对所述训练样本进行预设次数的下采样，直至所述训练样本达到预设尺寸；在所述图像识别模型的最后一层卷积层中，利用弱监督目标检测算法对下采样得到的预设尺寸的训练样本进行检测，得到所述训练样本的掩码图像；其中，所述掩码图像为各像素点上标有预测得分的图像，所述掩码图像的大小为所述预设尺寸。

进一步，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述基于所述掩码图像确定所述训练样本对应的细粒度特征图的步骤，包括：将所述掩码图像上采样至目标尺寸，得到目标掩码图像；其中，所述目标尺寸为所述训练样本进行目标次数的下采样后得到的目标图像的尺寸；将所述目标掩码图像中所述预测得分大于预设分数的各像素点作为所述样本标签对应的判别性区域；分别将所述目标掩码图像的各像素点与所述目标图像中对应位置的像素点相乘，得到标注有所述判别性区域的细粒度特征图。

进一步，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述深度学习网络用于对接收到的所述细粒度特征图进行特征提取并分类，将分类过程中得到的特征相似性信息作为细粒度特征信息蒸馏至所述图像识别模型，以使所述图像识别模型在迭代训练时学习所述细粒度特征信息。

进一步，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述方法还包括：在所述图像识别模型的迭代训练过程中基于交叉熵损失函数更新所述图像识别模型的参数，基于KL散度损失函数监督所述图像识别模型学习所述细粒度特征信息的效果。

进一步，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述深度学习网络为卷积神经网络。

进一步，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述方法还包括：将待检测图像输入所述训练后的图像识别模型，基于所述训练后的图像识别模型对所述待检测图像进行动作识别，得到动作识别结果。

第二方面，本发明实施例还提供了一种图像识别模型的训练装置，包括：样本输入模块，用于将预先标注有样本标签的训练样本输入图像识别模型；模型训练模块，用于在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图，将所述细粒度特征图输入至预设的深度学习网络，以使所述深度学习网络从所述细粒度特征图中学习到细粒度特征信息，并将学习到的所述细粒度特征信息蒸馏至所述图像识别模型中；其中，所述细粒度特征图为标注有所述样本标签对应的判别性区域的图像；训练结束模块，用于重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型。

第三方面，本发明实施例提供了一种电子设备，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如上述第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种图像识别模型的训练方法、装置及电子设备，通过将预先标注有样本标签的训练样本输入图像识别模型；在图像识别模型的迭代训练过程中，基于图像识别模型的网络层确定训练样本对应的细粒度特征图(标注有样本标签对应的判别性区域的图像)，将细粒度特征图输入至预设的深度学习网络，以使深度学习网络从细粒度特征图中学习到细粒度特征信息，并将学习到的细粒度特征信息蒸馏至图像识别模型中；重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型。通过上述方式，一方面，可以通过图像识别模型确定标注有判别性区域的细粒度特征图，无需人工标注判别性区域，节省了人力成本；另一方面，通过将深度学习网络学习到的细粒度特征信息蒸馏到图像识别模型中，提升了图像识别模型的识别精度，因此仅使用训练后的图像识别模型就可以对待检测图像进行动作识别，无需使用多个模型进行分阶段识别，减小了图像识别的计算量，提升了图像识别效率。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种图像识别模型的训练方法流程图；

图3示出了本发明实施例所提供的一种细粒度特征图的确定流程图；

图4示出了本发明实施例所提供的一种细粒度图像识别框架训练过程示意图；

图5示出了本发明实施例所提供的一种图像识别模型的训练装置结构示意图；

图6示出了本发明实施例所提供的另一种图像识别模型的训练装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

考虑到现有的模型训练方式得到的图像识别模型还存在因图像识别计算量较大而导致的图像识别效率较低的问题，为改善此问题，本发明实施例提供的一种图像识别模型的训练方法、装置及电子设备，该技术可应用于提升训练后的图像识别模型的图像识别效率。以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种图像识别模型的训练方法、装置及电子设备的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像识别模型的训练方法、装置及电子设备的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

本实施例提供了一种图像识别模型的训练方法，该方法可以由诸如前述电子设备执行，参见图2所示的图像识别模型的训练方法流程图，该方法主要包括以下步骤S202～步骤S206：

步骤S202，将预先标注有样本标签的训练样本输入图像识别模型。

由于本实施例提供的图像识别模型的训练方法可以利用图像识别模型确定训练样本图像中的判别性区域，因此，在对图像识别模型的训练样本进行标注时，只需标注样本图像的样本标签，无需标记出该样本标签对应的判别性区域，大大降低了训练样本的标注工作，节省了人力成本。上述样本标签为样本图像中的动作类型，诸如，该样本标签可以是玩手机、打电话等人物动作。

步骤S204，在图像识别模型的迭代训练过程中，基于图像识别模型的网络层确定训练样本对应的细粒度特征图，将细粒度特征图输入至预设的深度学习网络，以使深度学习网络从细粒度特征图中学习到细粒度特征信息，并将学习到的细粒度特征信息蒸馏至图像识别模型中。

在图像识别模型的每一轮迭代中，基于图像识别模型的网络层图像识别模型确定每一个样本图像对应的细粒度特征图，其中，上述细粒度特征图为标注有样本标签对应的判别性区域的图像，在对图像中的人体动作进行识别时，需要提取图像中判别性区域(诸如人物的手部、脸部等可以提现人物动作的重点部位)的细粒度特征进行判断，由于图像中的判别性区域一般都比较小，通过确定判别性区域后的细粒度特征图，可以使深度学习网络更好地学习到样本图像中的细粒度特征。通过在每一轮迭代中将深度学习网络学习到的细粒度特征信息蒸馏至图像识别模型中，可以使图像识别模型基于不断学习样本图像的细粒度特征，进而基于学习到的细粒度特征信息进行模型训练。

步骤S206，重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型。

对上述图像识别模型重复执行步骤S204中的迭代训练步骤，当上述图像识别模型满足预设的训练结束条件时，结束图像识别模型的迭代训练。其中，上述预设的训练结束条件可以是达到预设的迭代次数、达到预设的训练时间和图像识别模型中的参数达到预设值(诸如损失函数的值达到预设值)中的任意一种。通过上述训练方式训练得到的图像识别模型，在进行图像识别时，既可以定位到待识别图像中的判别性区域，又可以提取判别性区域中的细粒度特征，从而可以提升图像识别结果的准确率。

本实施例提供的上述图像识别模型的训练方法，一方面，可以通过图像识别模型确定标注有判别性区域的细粒度特征图，无需人工标注判别性区域，节省了人力成本；另一方面，通过将深度学习网络学习到的细粒度特征信息蒸馏到图像识别模型中，提升了图像识别模型的识别精度，因此仅使用训练后的图像识别模型就可以对待检测图像进行动作识别，无需使用多个模型进行分阶段识别，减小了图像识别的计算量，提升了图像识别效率。

为了准确定位样本图像中的判别性区域，本实施例提供了在图像识别模型的迭代训练过程中，基于图像识别模型的网络层图像识别模型确定训练样本对应的细粒度特征图的实施方式，参见如图3所示的一种细粒度特征图的确定流程图，具体可参照如下步骤S302～步骤S304执行：

步骤S302，基于训练样本及细粒度特征信息对图像识别模型进行迭代训练，并在迭代训练中基于图像识别模型的最后一层卷积层获取训练样本的掩码图像。

其中，上述图像识别模型可以包括卷积神经网络，该卷积神经网络可以包括诸如Xception145、ResNet等网络结构。在对图像识别模型进行训练前，可以首先使用ImageNet数据库对图像识别模型和深度学习网络进行预训练，以初始化图像识别模型和深度学习网络。在基于训练样本及细粒度特征信息对图像识别模型进行迭代训练时，通过如下步骤(1)～步骤(3)获取训练样本的掩码图像：

步骤(1)：基于图像识别模型的各个卷积层及细粒度特征信息从训练样本中提取特征。

上述细粒度特征信息是由深度学习网络从上述细粒度特征图中的判别性区域学习到的，在每一轮迭代训练中通过将深度学习网络学习到的细粒度特征信息蒸馏至图像识别模型，可以使图像识别模型学习该细粒度特征信息。图像识别模型基于自身的各个卷积层以及上一轮迭代训练蒸馏的细粒度特征信息从训练样本的样本图像中提取特征，即图像识别模型在依据自身的特征分类方式对训练样本图像进行特征提取分类时，也会学习深度学习网络的特征分类方式，提升了特征分类的准确性，从而可以使图像识别模型从训练样本图像中获取更加细粒度的特征，减小样本图像细节特征的损失。

步骤(2)：基于提取的特征及样本标签对训练样本进行预设次数的下采样，直至训练样本达到预设尺寸。

图像识别模型在训练过程中会对训练样本图像进行下采样，即根据提取的特征将训练样本图像中与样本标签无关的背景区域去除，确定与样本标签相关的区域，从而逐渐缩小判别性区域的所在范围。在实际应用中，并不是每个卷积层都会对训练样本图像进行下采样，可以每隔几层卷积层对训练样本图像进行一次下采样，下采样次数和每次下采样的倍数可以根据实际情况设定。诸如，训练样本图像的大小为224*224，上述预设次数为5，预设尺寸为7*7，样本标签为玩手机，图像识别模型在对训练样本图像进行特征提取分类的同时，对样本图像进行下采样，根据提取的特征逐步在该图像中锁定与玩手机相关的特征区域，该下采样过程可以使将大小为224*224下采样为112*112，第二次下采样得到的样本图像大小为56*56，第三次下采样得到的样本图像大小为28*28，第四次下采样得到的样本图像大小为14*14，第五次下采样得到的样本图像大小为7*7。

步骤(3)在图像识别模型的最后一层卷积层中，利用弱监督目标检测算法对下采样得到的预设尺寸的训练样本进行检测，得到训练样本的掩码图像。

其中，上述掩码图像为各像素点上标有预测得分的图像，掩码图像的大小为预设尺寸，该预测得分的取值范围为[0，1]，用于表征像素点为判别性区域的概率，当像素点的预测得分越接近于1时，表明该像素点处于判别性区域的概率越大，在实际应用中可以将各像素点的预测得分均大于预设得分的区域作为判别性区域。由于图像中的判别性区域一般比较小，通过对样本图像进行下采样可以逐步缩小判别性区域的范围，通过对下采样得到的预设尺寸的样本进行目标检测，可以更加精确地定位到判别性区域，且可以减少目标检测中的计算量，提升检测速度，进而提升图像识别模型的训练效率。

在另一种实施方式中，还可以采用注意力机制基于下采样得到的预设尺寸的训练样本，确定训练样本对应的掩码图像，并在掩码图像中标注出样本标签对应的判别性区域。

步骤S304，基于掩码图像确定训练样本对应的细粒度特征图。

由于上述掩码图像是通过预设次数的下采样后的样本图像得到的，为了避免细节特征的损失，本实施例提供了根据掩码图像确定细粒度特征的实施方式，具体可参照如下步骤1)～步骤3)执行：

步骤1)：将掩码图像上采样至目标尺寸，得到目标掩码图像。

其中，上述目标尺寸为训练样本进行目标次数的下采样后得到的目标图像的尺寸，目标次数为1至预设次数的中间值。图像识别模型在对训练样本进行下采样时，随着下采样的次数增加，样本图像丢失的细节特征会越来越多。上述下采样过程的目的是精确定位判别性区域，在定位到样本图像中的判别性区域后，还需要使深度学习网络学习该判别性区域的细粒度特征，因此，为了避免上述下采样过程可能会丢失样本标签对应的重要细节特征的问题，对上述掩码图像进行上采样，同时为了减少后续的计算量，可以按照下采样的逆过程将掩码图像上采样至目标尺寸，得到目标掩码图像，该目标尺寸可以与训练样本进行目标次数的下采样后得到目标图像的尺寸相同，该目标次数可以是1至预设次数之间的任意中间值，也可以是上述预设次数的中值。诸如，上述预设次数为5，可以将上述目标次数设置为3，即将上述掩码图像上采样至28*28。

步骤2)：将目标掩码图像中预测得分大于预设分数的各像素点作为样本标签对应的判别性区域。

上述预设得分可以根据实际情况人为设定，在实际应用中，该预设得分可以是[0.5，1]之间的任意数值。诸如，上述样本图像的样本标签为玩手机，预设得分为0.7，将该目标掩码图像中预测得分大于0.7的各个像素点作为判别性区域，即该目标掩码图像中判别性区域(人物手持手机的区域)的中心区域像素点的预测得分为1，判别性区域的边缘区域像素点的预测得分为0.7。

步骤3)：分别将目标掩码图像的各像素点与目标图像中对应位置的像素点相乘，得到标注有判别性区域的细粒度特征图。

上述目标掩码图像是与目标图像相对应的图像，即上述目标掩码图像与目标图像的像素点一一对应，将目标掩码图像中各个像素点的预测得分与目标图像进行结合，可以从目标图像中标注出判别性区域。在实际应用中，上述目标掩码图像可以是用不同颜色表示预测得分大小的图像，通过将目标掩码图像与目标图像的像素点结合相乘，得到标注有判别性区域的细粒度特征图。

在一种实施方式中，可以在细粒度特征图中用设定的颜色标注出判别性区域，且该设定颜色可以是具有一定透明度的颜色，既可以显示判别性区域也可以显示训练样本图像，诸如，可以将上述预测得分为1的像素点设置为具有一定透明度的红色，将上述预测得分为0的像素点设置为具有一定透明度的蓝色，则上述判别性区域为像素点趋近于红色的像素点区域；在另一种实施方式中，可以在细粒度特征图中绘制出判别性区域的轮廓。

为了提升训练得到的图像识别模型的图像识别准确性，图像识别模型在上述细粒度特征图中标注出训练样本的判别性区域后，将细粒度特征图输入深度学习网络，使深度学习网络基于接收到的细粒度特征图进行同步训练，上述深度学习网络用于对接收到的细粒度特征图进行特征提取并分类，将分类过程中得到的特征相似性信息作为细粒度特征信息蒸馏至图像识别模型图像识别模型，以使图像识别模型在迭代训练时学习细粒度特征信息。上述深度学习网络可以为卷积神经网络。在图像识别模型的每一轮训练中，图像识别模型(也可以称为主网络)将细粒度特征图输入深度学习网络(也可以称为老师网络)，深度学习网络将基于细粒度特征图训练学习到的细粒度特征信息蒸馏至图像识别模型，使图像识别模型在下一轮训练中基于该细粒度特征信息进行训练。由于深度学习网络接收到的细粒度特征图中包括图像识别模型训练过程中得到的判别性区域提取到的特征(也可以称为浅层特征)，通过使深度学习网络复用图像识别模型提取得到的浅层特征，可以加速深度学习网络的同步训练过程。

上述细粒度特征信息是基于标注有判别性区域的细粒度特征图得到的，通过使用蒸馏技术可以将深度学习网络中的细粒度特征信息转移至图像识别模型中，使图像识别模型在训练中学习到该细粒度特征信息，在图像识别模型中即实现了判别性区域的定位，又实现了基于判别性区域对图像识别模型的训练。

在一种具体的实施方式中，本实施例提供的图像识别模型的训练方法还包括：在图像识别模型的迭代训练过程中基于交叉熵损失函数更新图像识别模型的参数，基于KL散度损失函数监督图像识别模型学习细粒度特征信息的效果。图像识别模型在迭代训练的前向传播过程中基于交叉熵损失函数计算训练样本的损失值，再基于计算得到的损失值更新图像识别模型的参数，诸如更新各个网络层的权重。图像识别模型在对样本图像进行特征提取时即有自己的“思考方式”，也会学习深度学习网络中的细粒度特征信息，因此图像识别模型还会通过KL散度损失函数监督图像识别模型学习细粒度特征信息的学习效果。

在一种具体的实施方式中，本实施例提供的图像识别模型的训练方法还包括：将待检测图像输入训练后的图像识别模型，基于训练后的图像识别模型对待检测图像进行动作识别，得到动作识别结果。上述深度学习网络通过将基于细粒度特征图训练学习到的细粒度特征信息蒸馏至图像识别模型，使图像识别模型中既可以对判别性区域进行定位，又可以基于判别性区域进行训练。上述深度学习网络仅参与图像识别模型的训练，当图像识别模型训练结束时，实现了图像识别模型与深度学习网络的功能融合，形成了一个端到端的图像识别模型，在图像识别阶段，仅使用图像识别模型就可以对待检测图像进行图像识别，极大地降低了图像识别时的计算量。将待检测图像输入训练后的图像识别模型，图像识别模型可以输出动作识别结果，该动作识别结果可以是诸如玩手机等人物动作，还可以以图像的形式输出动作识别结果，输出的图像中标注有动作区域。

本实施例提供的上述图像识别模型的训练方法，在图像识别模型的迭代训练过程中，通过使用弱监督检测算法确定掩码图像，可以根据掩码图像中的数值分布更加准确地定位到图像中的判别性区域，提升了图像识别的准确率，通过将深度学习网络学习到的细粒度特征信息蒸馏至图像识别模型中，形成一个端到端的图像识别模型，提升了图像识别效率。

实施例三：

在前述实施例的基础上，本实施例提供了一种应用前述图像识别模型的训练方法对细粒度图像识别框架进行训练的示例，其中，该细粒度图像识别框架(Fine-GrainFeature Mining Network，FGFMNet)包括主网络(Main Network，MNet)和老师网络(Teacher Network，TNet)，主网络中设置有判别性区域发现模块(Discriminate RegionMining Module，DRMM)，具体可参照如下步骤a～步骤f执行：

步骤a：使用ImageNet数据库对主网络和老师网络进行预训练，以初始化主网络和老师网络，并将预先标注有样本标签的训练样本输入初始化后的主网络中。其中，上述主网络和老师网络均为卷积神经网络。

步骤b：通过主网络提取训练样本的特征，并在主网络的最后一层卷积层使用判别性区域发现模块获取判别性区域的掩码图像。其中，该掩码图像与最后一层卷积层上的训练样本图像的尺寸相同。

参见如图4所示的细粒度图像识别框架训练过程示意图，主网络在基于训练样本图像进行训练时，会利用各个卷积层对训练样本图像进行预设次数的下采样，以逐步缩小判别性区域的检测范围，并基于交叉熵损失函数(CE Loss)更新各个网络层的权重。在训练样本传递到最后一层卷积层时，利用判别性区域发现模块获取标注有判别性区域的掩码图像。

步骤c：主网络将掩码图像上采样至与主网络下采样目标次数之后得到的目标图像相同的尺寸，得到目标掩码图像，并将目标掩码图像与目标图像的像素点逐点相乘，得到细粒度特征图。

步骤d：主网络将细粒度特征图输入老师网络，通过老师网络对细粒度特征图进行特征提取并分类，并将从细粒度特征图学习到的细粒度特征信息蒸馏至图像识别模型，使图像识别模型在训练时学习到训练样本图像中判别性区域的细粒度特征。

如图4所示，基于细粒度特征图对老师网络进行训练，并在训练时基于交叉熵损失函数(CE Loss)更新各个网络层的权重，老师网络完成一轮训练后将学习到的细粒度特征信息蒸馏至图像识别模型，图像识别模型在训练时还会基于KL散度损失函数(KL loss)监督细粒度特征信息的学习。

步骤e：重复执行上述步骤b～步骤d，直至达到预设的迭代次数，得到训练后的细粒度图像识别框架。

步骤f：将待检测图像输入训练后的细粒度图像识别框架的主网络中，基于主网络对待检测图像进行图像识别，得到图像识别结果。

本实施例提供的上述细粒度图像识别框架训练方法，通过将老师网络学习到的细粒度特征信息蒸馏到主网络中，提升了主网络的图像识别精度，仅使用训练后的主网络就可以对待检测图像进行动作识别，无需使用多个模型进行分阶段识别，减小了图像识别的计算量，提升了图像识别效率。

实施例四：

对于实施例二中所提供的图像识别模型的训练方法，本发明实施例提供了一种图像识别模型的训练装置，参见图5所示的一种图像识别模型的训练装置结构示意图，该装置包括以下模块：

样本输入模块51，用于将预先标注有样本标签的训练样本输入图像识别模型。

模型训练模块52，用于在图像识别模型的迭代训练过程中，基于图像识别模型的网络层确定训练样本对应的细粒度特征图，将细粒度特征图输入至预设的深度学习网络，以使深度学习网络从细粒度特征图中学习到细粒度特征信息，并将学习到的细粒度特征信息蒸馏至图像识别模型中；其中，细粒度特征图为标注有样本标签对应的判别性区域的图像。

训练结束模块53，用于经过上述模型训练模块，直至训练结束，得到训练后的图像识别模型。

本实施例提供的上述图像识别模型的训练装置，一方面，可以通过图像识别模型确定标注有判别性区域的细粒度特征图，无需人工标注判别性区域，节省了人力成本；另一方面，通过将深度学习网络学习到的细粒度特征信息蒸馏到图像识别模型中，提升了图像识别模型的识别精度，因此仅使用训练后的图像识别模型就可以对待检测图像进行动作识别，无需使用多个模型进行分阶段识别，减小了图像识别的计算量，提升了图像识别效率。

在一种实施方式中，上述图像识别模型包括卷积神经网络；上述模型训练模块52，进一步用于基于训练样本及细粒度特征信息对图像识别模型进行迭代训练，并在迭代训练中基于图像识别模型的最后一层卷积层获取训练样本的掩码图像；基于掩码图像确定训练样本对应的细粒度特征图。

在一种实施方式中，上述模型训练模块52，进一步用于基于图像识别模型的各个卷积层及细粒度特征信息从训练样本中提取特征；基于提取的特征及样本标签对训练样本进行预设次数的下采样，直至训练样本达到预设尺寸；在图像识别模型的最后一层卷积层中，利用弱监督目标检测算法对下采样得到的预设尺寸的训练样本进行检测，得到训练样本的掩码图像；其中，掩码图像为各像素点上标有预测得分的图像，掩码图像的大小为预设尺寸。

在一种实施方式中，上述模型训练模块52，进一步用于将掩码图像上采样至目标尺寸，得到目标掩码图像；其中，目标尺寸为训练样本进行目标次数的下采样后得到的目标图像的尺寸，目标次数为1至预设次数的中间值；将目标掩码图像中预测得分大于预设分数的各像素点作为样本标签对应的判别性区域；分别将目标掩码图像的各像素点与目标图像中对应位置的像素点相乘，得到标注有判别性区域的细粒度特征图。

在一种实施方式中，上述深度学习网络用于对接收到的细粒度特征图进行特征提取并分类，将分类过程中得到的特征相似性信息作为细粒度特征信息蒸馏至图像识别模型图像识别模型，以使图像识别模型在迭代训练时学习细粒度特征信息。

在一种实施方式中，参见图6所示的另一种图像识别模型的训练装置结构示意图，上述装置还包括：

训练监督模块64，用于在图像识别模型的迭代训练过程中基于交叉熵损失函数更新图像识别模型的参数，基于KL散度损失函数监督图像识别模型学习细粒度特征信息的效果。

在一种实施方式中，上述深度学习网络为卷积神经网络。

在一种实施方式中，如图6所示，上述装置还包括：

图像识别模块65，用于将待检测图像输入训练后的图像识别模型，基于训练后的图像识别模型对待检测图像进行动作识别，得到动作识别结果。

本实施例提供的上述图像识别模型的训练装置，在图像识别模型的迭代训练过程中，通过使用弱监督检测算法确定掩码图像，可以根据掩码图像中的数值分布更加准确地定位到图像中的判别性区域，提升了图像识别的准确率，通过将深度学习网络学习到的细粒度特征信息蒸馏至图像识别模型中，形成一个端到端的图像识别模型，提升了图像识别效率。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

本发明实施例提供了一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现上述实施例所述的图像识别模型的训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的图像识别模型的训练方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

将预先标注有样本标签的训练样本输入图像识别模型；

在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图，将所述细粒度特征图输入至深度学习网络，以使所述深度学习网络从所述细粒度特征图中学习到细粒度特征信息，并将学习到的所述细粒度特征信息蒸馏至所述图像识别模型中；其中，所述细粒度特征图为标注有所述样本标签对应的判别性区域的图像；

重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型；

其中，所述图像识别模型包括卷积神经网络；

所述在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图的步骤，包括：

基于所述训练样本及所述细粒度特征信息对所述图像识别模型进行迭代训练，并在迭代训练中基于所述图像识别模型的最后一层卷积层获取所述训练样本的掩码图像；

基于所述掩码图像确定所述训练样本对应的细粒度特征图。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本及所述细粒度特征信息对所述图像识别模型进行迭代训练，并在迭代训练中基于所述图像识别模型的最后一层卷积层获取所述训练样本的掩码图像的步骤，包括：

基于所述图像识别模型的各个卷积层及所述细粒度特征信息从所述训练样本中提取特征；

基于提取的特征及所述样本标签对所述训练样本进行预设次数的下采样，直至所述训练样本达到预设尺寸；

在所述图像识别模型的最后一层卷积层中，利用弱监督目标检测算法对下采样得到的预设尺寸的训练样本进行检测，得到所述训练样本的掩码图像；其中，所述掩码图像为各像素点上标有预测得分的图像，所述掩码图像的大小为所述预设尺寸。

3.根据权利要求2所述的方法，其特征在于，所述基于所述掩码图像确定所述训练样本对应的细粒度特征图的步骤，包括：

将所述掩码图像上采样至目标尺寸，得到目标掩码图像；其中，所述目标尺寸为所述训练样本进行目标次数的下采样后得到的目标图像的尺寸；

将所述目标掩码图像中所述预测得分大于预设分数的各像素点作为所述样本标签对应的判别性区域；

分别将所述目标掩码图像的各像素点与所述目标图像中对应位置的像素点相乘，得到标注有所述判别性区域的细粒度特征图。

4.根据权利要求1所述的方法，其特征在于，所述深度学习网络用于对接收到的所述细粒度特征图进行特征提取并分类，将分类过程中得到的特征相似性信息作为细粒度特征信息蒸馏至所述图像识别模型，以使所述图像识别模型在迭代训练时学习所述细粒度特征信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述图像识别模型的迭代训练过程中基于交叉熵损失函数更新所述图像识别模型的参数，基于KL散度损失函数监督所述图像识别模型学习所述细粒度特征信息的效果。

6.根据权利要求4所述的方法，其特征在于，所述深度学习网络为卷积神经网络。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

将待检测图像输入所述训练后的图像识别模型，基于所述训练后的图像识别模型对所述待检测图像进行动作识别，得到动作识别结果。

8.一种图像识别模型的训练装置，其特征在于，包括：

样本输入模块，用于将预先标注有样本标签的训练样本输入图像识别模型；

模型训练模块，用于在所述图像识别模型的迭代训练过程中，基于所述图像识别模型的网络层确定所述训练样本对应的细粒度特征图，将所述细粒度特征图输入至预设的深度学习网络，以使所述深度学习网络从所述细粒度特征图中学习到细粒度特征信息，并将学习到的所述细粒度特征信息蒸馏至所述图像识别模型中；其中，所述细粒度特征图为标注有所述样本标签对应的判别性区域的图像；

训练结束模块，用于重复执行上述训练步骤，直至训练结束，得到训练后的图像识别模型；

其中，所述图像识别模型包括卷积神经网络；所述模型训练模块还用于：基于所述训练样本及所述细粒度特征信息对所述图像识别模型进行迭代训练，并在迭代训练中基于所述图像识别模型的最后一层卷积层获取所述训练样本的掩码图像；基于所述掩码图像确定所述训练样本对应的细粒度特征图。

9.一种电子设备，其特征在于，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。