CN113505820B

CN113505820B - 图像识别模型训练方法、装置、设备及介质

Info

Publication number: CN113505820B
Application number: CN202110701766.2A
Authority: CN
Inventors: 宋丽; 刘利
Original assignee: Beijing Yueshi Intelligent Technology Co ltd
Current assignee: Beijing Yueshi Intelligent Technology Co ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-02-06
Anticipated expiration: 2041-06-23
Also published as: CN113505820A

Abstract

本申请公开了一种图像识别模型训练方法、装置、设备及介质。其中，图像识别模型训练方法，包括：建立初始图像识别模型；初始图像识别模型中具有损失函数；初始图像识别模型包括特征提取网络与分类网络，其中，特征提取网络用于接收携带标签的样本图像，并输出特征图；分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果；在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数；并在损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型。本申请实施例可以有效提高训练完成的图像识别模型的识别能力。

Description

图像识别模型训练方法、装置、设备及介质

技术领域

本申请属于机器学习技术领域，尤其涉及一种图像识别模型训练方法、装置、设备及介质。

背景技术

众所周知，在医疗、教育等领域中，具有对真菌、细菌或者动植物细胞等对象的识别需求。该识别过程可以是通过人工直接观察来识别，也可以是基于拍摄得到的显微图像进行识别。

为了提高对显微图像的识别效率，现有技术中存在使用神经网络对显微图像进行识别的方案。然而，由于微生物等类型的对象的种类和形态多样，现有技术难以准确地对显微图像中的对象进行识别。

发明内容

本申请实施例提供一种图像识别模型训练方法、装置、设备及介质，能够解决现有技术难以准确地对显微图像中的对象进行识别的问题。

第一方面，本申请实施例提供一种图像识别模型训练方法，方法包括：

建立初始图像识别模型；初始图像识别模型中具有损失函数；初始图像识别模型包括特征提取网络与分类网络，其中，特征提取网络用于接收携带标签的样本图像，并输出特征图；分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数；以及，

在损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；

其中，训练样本集包括多个携带标签的样本图像，损失函数的损失值为根据标签与初始识别结果确定。

第二方面，本申请实施例提供了一种图像识别模型训练装置，装置包括：

建立模块，用于建立初始图像识别模型；初始图像识别模型中具有损失函数；初始图像识别模型包括特征提取网络与分类网络，其中，特征提取网络用于接收携带标签的样本图像，并输出特征图；分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

更新模块，用于在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数；以及，

第一获取模块，用于在损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；

第三方面，本申请实施例提供了一种电子设备，设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现上述的图像识别模型训练方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述的图像识别模型训练方法。

本申请实施例提供的图像识别模型训练方法，建立初始图像识别模型，该初始图像识别模型包括特征提取网络与分类网络，特征提取网络用于接收携带标签的样本图像，并输出特征图，分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果；在使用包括多个携带标签的样本图像对初始图像识别模型进行训练的过程中，可以按照预设衰减规则更新K的值，并在初始图像识别模型中损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型。本实施例在训练初始图像识别模型的过程中，可以对K的值进行衰减，可以使得初始图像识别模型能够从粗到细逐步聚焦到样本图像中主体目标的特征学习，一方面，可以有效提高训练完成的图像识别模型的识别能力；另一方面，也可能有效避免模型崩塌的情况出现，提升模型训练的稳定性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像识别模型训练方法的流程示意图；

图2是在一个具体应用例中初始图像识别模型的训练过程的原理图；

图3是本申请实施例提供的图像识别模型训练装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种图像识别模型训练方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的图像识别模型训练方法进行介绍。

图1示出了本申请一个实施例提供的图像识别模型训练方法的流程示意图。如图1所示，该方法包括：

步骤101，建立初始图像识别模型；初始图像识别模型中具有损失函数；初始图像识别模型包括特征提取网络与分类网络，其中，特征提取网络用于接收携带标签的样本图像，并输出特征图；分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

步骤102，在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数；以及，

步骤103，在损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；

本实施例中，初始图像识别模型可以认为是未经训练，或者是未得到充分训练的图像识别模型。

该图像识别模型可以包括特征提取网络与分类网络。在初始图像识别模型进行训练的过程，可以对特征提取网络与分类网络中的网络参数，例如权重参数等进行调整，而网络参数的具体调整方式，将在下文中进行详细说明。

特征提取网络可以用于接收样本图像，并对样本图像进行特征提取，以得到特征图。

比如，若将上述的样本图像记为I，特征提取网络记为特征图f记为，则特征提取网络/>对样本图像I进行处理，得到特征图f的过程可以记为：

其中，f∈R^m*n表示特征图f的分辨率为m*n。

本实施例中，对特征提取网络的具体类型可以不做具体限定，能够用于特征的提取以获得特征图即可。

分类网络可以用于接收特征图，并根据特征图得到对样本图像的识别结果，一般来说，该识别结果指示样本图像所包括的对象属于某一类别的识别概率。

若将分类网络记为θ，概率记为p，则分类网络θ对特征图f进行处理，得到识别概率的过程可以记为：

p＝θ(f),p∈(0,1)

容易理解的是，对于特征图f，通常包括多个像素点。例如特征图f的分辨率为m*n时，特征图f包括了m*n个像素点，每一个像素点可以认为是一个特征点。

本实施例中，分类网络θ对特征图f进行处理时，可以是从特征图f中选取K个特征点，也就是上述的K个目标特征点，并根据这K个目标特征点输出初始识别结果。

从另一个角度来说，分类网络θ选取K个目标特征点，可以认为是激活这K个目标特征点，以根据这些目标特征点来进行分类与识别，得到初始识别结果。

举例来说，上述的样本图像可以是对真菌拍摄得到的显微图像，也就是说，样本图像中可以包括真菌这一对象。

特征提取网络可以接收样本图像，对样本图像进行处理，得到特征图。一般来说，特征提取网络在得到充分训练的情况下，特征图中各个特征点的响应值的大小，可以反映各特征点对应图像区域为真菌所在图像区域的可能性。而在特征提取网络未得到充分训练的情况下，训练的目的则可以认为需要使得特征提取网络能够达到这一处理效果。

分类网络则可以根据特征图，确定最有可能属于真菌的图像区域，并根据这些图像区域实现对真菌的识别。

确定真菌最有可能存在的图像区域的过程，可以对应了选取K个目标特征点的过程。K的值可以认为是一个超参数，可以在建立初始图像识别模型时手动设置，或者设定为默认值。

分类网络对真菌的识别结果，可以用于指示是真菌的概率，或者也可以用于指示具体为某一预设类型真菌的概率等等。

通常来说，对于真菌等类型的待识别对象，往往属于非刚性物体，外观差异较大，而且在各生长周期中会呈现不同的生长形态。相应地，在确定最有可能属于真菌的图像区域(以下可以称为显著性区域)的过程中，可能比较难以把握该显著性区域的选择范围。

具体地，当显著性区域的选择范围较广，也就是K的值设定得较大时，可能图像识别模型的学习能力较差，难以针对性地学习到真菌相关的图像特征。而当显著性区域的选择范围较窄，也就是K的值设定得较小时，在训练过程中，可能导致一些真菌有关的图像特征被遗漏而无法被学习到。

可见，使用包括真菌的样本图像对图像识别模型进行训练时，设置固定的K值，容易导致训练完成的图像识别模型，难以准确地对待识别图像中的真菌进行的识别。

当然，以上将真菌作为待识别的对象，仅仅是一种举例说明。在实际应用中，图像识别模型也是也可以是用于对细菌等微生物，或者动植物细胞等进行识别的。或者，在一些应用场景下，图像识别模型也可以是用于对动植物或者道路障碍物进行识别的，此处不作具体限定。

这些需要使用图像识别模型进行识别的对象，下文中可以统称为主体目标。相应地，在对初始图像识别模型进行训练时，所采用的样本图像，可以是包括了主体目标的图像。

为了简化描述，下文中将主要以主体目标为真菌为例进行说明。

本实施例中，为了克服因固定K值的选取带来的图像识别模型识别效果不佳的问题，可以在对初始图像识别模型进行训练的过程中调整K的值。

具体地，在步骤102中，在使用训练样本集对初始图像识别模型进行训练的过程中，可以按照预设衰减规则更新K的值。

这里的训练样本集，可以包括了多个携带标签的样本图像。

比如，如上文所示的，当图像识别模型用于对真菌进行识别时，样本图像可以是对真菌进行拍摄得到的图像。而在将样本图像用于模型的训练时，通常会对样本图像中的真菌进行标注，相应地，可以得到样本图像的标签。至于标注的具体方式，可以是人工标注，也可以是自动标注，此处不作具体限定。

训练样本集中存在多个携带标签的样本图像，在一个示例中，针对这些样本图像，可以是分批对初始图像识别模型进行训练。每使用一批样本图像对初始图像识别模型进行训练，可以调低一次K的值。

该示例中，调低K的值的方式，可以认为对应了预设衰减规则的一种举例。在实际应用中，预设衰减规则，也可以是在每使用预设数量的样本图像对初始图像识别模型进行训练后，调低一次K的值；或者，也可以是每当损失函数的损失值到达某一个预设值时，调低一次K的值等。

换而言之，此处的预设衰减规则，可以根据实际需要进行选用。此外，预设衰减规则，还可以限制每次调低K的值的具体数值等。

总的来说，在步骤102中，随着训练的进行，可以不断对K的值进行更新。该更新的过程，可以认为是对K的值的衰减过程。

通过按照预设衰减规则更新K的值，可以在训练过程中，使得初始图像识别模型能够从粗到细的逐步聚焦到主体目标的特征学习。

具体地，在训练的初期，可以使用较大的K值，使得初始图像识别模型能够具有一定的对主体目标的特征进行学习的能力。随着训练的进行，可以降低K的值，此时，由于初始图像识别模型已经有了一定的学习能力，因此可以在逐步聚焦到主体目标的特征的同时，有效避免主体目标的特征被遗漏或者被错误选取的情况出现。

如上文所示的，K在一定程度上可以理解为初始图像识别模型中的超参数。在初始图像识别模型训练过程中，除了可以存在对超参数进行调整的过程，还会存在对权重等网络参数进行调整的过程。

容易理解的是，权重等网络参数，图像识别模型可以是根据中损失函数的损失值自动进行调整的。

本实施例中，初始图像识别模型的损失函数可以根据实际需要进行选择，此处不作具体限定。而损失函数的损失值，可以是根据样本对象的标签、以及初始图像识别模型对样本对象的初始识别结果进行确定的。

在一个示例中，初始识别结果与标签越接近，损失函数的损失值越小，网络参数的设定更加合理，反之亦然。因此，在对初始图像识别模型进行训练的过程中，可以基于损失函数的损失值，不断更新初始图像识别模型的网络参数。

在步骤103中，当损失函数的损失值小于损失阈值时，可以认为初始图像识别模型得到了充分训练，进而得到训练完成的图像识别模型(以下可以简称目标图像识别模型)。

在实际应用中，目标图像识别模型可以用于对输入的待识别图像进行识别，得到相应的识别结果。

比如，待识别图像为真菌的图像时，此处的识别结果可以是待识别图像中是否包括真菌，或者真菌的具体类型等等。当然，这些识别结果通常包括相应的概率，例如，识别结果可以对应“是真菌的概率为0.8”，或者对应“是A类型真菌的概率为0.75”等等。

当然，目标图像识别模型同样可以从特征图中确定出目标特征点，这些目标特征点在待识别图像中具有对应的图像区域。相应地，目标图像识别模型还可以将目标特征点映射至待识别图像，输出真菌的显著性区域。

换而言之，上述的训练完成的图像识别模型，即目标图像识别模型，可以用于对待识别图像中的主体目标进行识别，和/或，用于输出待识别图像中的主体目标的显著性区域。

在一个示例中，上述预设衰减规则，可以包括：

每在使用预设数量的样本图像对初始图像识别模型进行训练的情况下，将K的值减小预设值，直至K的值等于预设的数值阈值时，停止减少K的值。

举例来说，K的初始值可以是10，在对初始图像识别模型进行训练的过程中，每使用500个样本图像对初始图像识别模型进行训练后，将K的值减小1。当K的值减小到3后，可以不再对其进一步减小。

这里的500可以对应为预设数量，1可以对应为预设值，3可以对应为预设的数值阈值。

当然，此处的具体数值仅仅是为了说明预设衰减规则进行的举例说明，在实际应用中，可以根据需要进行调整。

在另一些示例中，预设衰减规则，也可以包括每在使用一批(batch)样本图像对初始图像识别模型进行训练的情况，将K的值减小预设值，直至K的值等于预设的数值阈值时，停止减少K的值。

或者，预设衰减规则，还可以包括每在损失函数的损失值降低一定值的情况下，将K的值减小预设值，直至K的值等于预设的数值阈值时，停止减少K的值等等。

在一个示例中，上述K为大于1的正整数的描述，可以认为是K的初始值为大于1的整数，衰减以后的K的值，可以大于1，也可以等于1。也就是说，上述的预设的数值阈值，可以是大于或等于1的。

可选地，特征图包括L个初始特征点，L为大于或等于K的整数；

根据特征图中的K个目标特征点输出初始识别结果，包括：

获取L个初始特征点中各个初始特征点的响应值；

根据各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点；以及，

根据K个目标特征点输出初始识别结果。

结合上文中的举例，特征图的分辨率可以是m*n，也就是说，特征图可以包括m*n个像素，此时，L＝m*n，每一个像素均对应了一个初始特征点。

一般来说，特征提取网络输出的特征图中，每一个初始特征点均具有相应的响应值。这些响应值可以体现特征提取网络对上述主体目标的学习结果。

比如，在经过归一化处理后的特征图，各个初始特征点的响应值的取值范围为0～1。在特征提取网络得到充分训练的情况下，某个初始特征点的响应值约接近1，则代表该初始特征点对应的样本图像的图像区域，越有可能是主体目标所在的图像区域，反之亦然。

在一个示例中，分类网络在根据特征图输出初始识别结果的过程中，可以选择响应值较大的初始特征点进行激活，以进一步实现特征分类与识别。从模型训练的角度来说，分类网络需要激活若干初始特征点，以参与到初始图像识别模型的训练中。

至于需要激活的初始特征点的数量，可以是由K的值决定的。在本示例中，可以是将响应值按从大到小的顺序进行排序，并取前K个初始特征点作为上述的K个目标特征点。

分类网络可以根据这K个目标特征点输出初始识别结果。而如上文所示的，基于初始识别结果与标签可以确定损失函数的损失值，并将损失值反馈至特征提取网络与分类网络进行网络参数的调整，以实现对初始图像识别模型的训练。

本示例可以简单地描述将特征图中响应值为topK的初始特征点确定为目标特征点，以用于分类网络的训练。如此，可以使得分类网络能够有效对主体目标的特征进行学习，提高训练得到的图像识别模型的识别能力。

当然，实际应用中，上述K个目标特征点的选取，可以并非是直接由响应值的大小来决定的。

比如，在一个实施方式中，根据各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点，包括：

根据各个初始特征点的响应值，对特征图进行插值处理，得到插值图像，插值图像的分辨率与样本图像的分辨率相同，每一初始特征点在插值图像中具有对应的初始图像区域；

根据各个初始图像区域的特征值确定各个初始图像区域对应的初始特征点的显著性得分；

按照显著性得分从大到小的顺序，从L个初始特征点中确定出K个目标特征点。

举例来说，若样本图像的分辨率为1000*1000，而特征图的分辨率为20*20。则基于本实施方式的实施，可以对特征图进行插值，得到一分辨率为的1000*1000的插值图像。

此处插值的方式，可以是线性插值，或者非线性插值等等，此处不做具体限定。

容易理解的是，特征图上的每一个初始特征点，在插值图像中可以对应有一分辨率为50*50的初始图像区域。而在插值之后，插值图像中每一个特征点，也可以具有相应的特征值。

在一个示例中，针对每一个初始图像区域，可以将其中的特征点的特征值进行相加，得到该初始图像区域对应的初始特征点的显著性得分。

当然，在实际应用中，也可以对初始图像区域中的不同位置的特征点设置相应的权重，基于权重与特征值，来计算显著性得分等等。

也就是说，本实施方式中，对于显著性得分的具体的计算方式可以根据实际需要进行选择，此处不做具体限定。

在得到特征图中各个初始特征点的显著性得分的基础上，可以对显著性得分按照从大到小的方式进行排序，并取排序在前的K个显著性得分对应的初始特征点，作为K个目标特征点。

本实施方式中，将特征图进行插值得到插值图像，在一定程度上可以认为是将特征图映射至样本图像的过程。基于插值图像中各初始图像区域的特征值确定出的初始特征点的显著性得分，可以较好地反映出样本图像中主体目标的分布情况，而将显著性得分作为确定目标特征点的依据，可以使得分类网络能够更有效地对主体目标的特征进行学习，进一步提高训练得到的图像识别模型的识别能力。

为了增强训练得到的图像识别模型的鲁棒性，在一个实施方式中，上述根据各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点，包括：

在特征图中添加目标噪声，以更新各个初始特征点的响应值；

根据更新后的各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点。

如上文所示的，一般情况下，特征图中一个初始特征点的响应值越大，则代表该初始特征点对应的样本图像的图像区域，越有可能是主体目标所在的图像区域。然而，在初始图像识别模型未得到充分训练的情况下，该结论可能会存在一定的不确定性。

因此，在模型训练过程中，对于一些响应值较小的初始特征点，也可以使其能够以一定的概率被确定为目标特征点，增大初始图像识别模型对特征的学习范围，提高训练完成的图像识别模型的鲁棒性。

本实施方式中，可以通过添加目标噪声的方式来使得各个初始特征点均有一定的概率被确定为目标特征点。

举例来说，假设特征图包括4个初始特征点，分别记为特征点A、特征点B、特征点C以及特征点D。各个初始特征点的响应值分别为0.8、0.7、0.6以及0.2，确定的K值为2，则确定出的目标特征点为特征点A与特征点B。

若在特征图中加入目标噪声，在一个可能的情况下，特征点A、特征点B、特征点C以及特征点D中加入的噪声值分别为0.1、0、1.5以及0.5。则依据目标噪声对各初始特征点进行响应值的更新，得到更新后的响应值分别为0.9、0.8、0.85以及0.25。此时确定出的目标特征点为特征点A与特征点C。

本实施方式中，在特征图中添加噪声，模拟适合的采样分布，使得模型在特征间的交流更加充分。

在一个示例中，上述的目标噪声为服从均匀分布的噪声。

比如，目标噪声可以是耿贝尔(Gumbel)分布的噪声。对于Gumbel分布的噪声，通常满足以下公式：

G_i＝-log(-log(∈_i)),∈_i∈U(0,1)

其中，设特征图为一s维的向量，则针对该s维的向量可以生成s个服从均匀分布U(0,1)的独立样本∈₁,∈₂,…,∈_i,…,∈_s。根据以上计算公式，可以计算出加入到s维的向量中每一维度的值G_i。

当然，在另一些示例中，上述的目标噪声，也可以是服从正态分布的噪声等等，可以根据实际需要进行选择。

如图2所示，结合一个具体应用例，初始图像识别模型的训练过程可以是按如下方式进行的。

获取样本图像I，将取样本图像I输入到特征提取网络(Backbone)得到特征图f。

在特征图f中可以激活K个特征点(可以是响应值最高的K个特征点，记为topK)输入到分类网络θ中。

在训练过程中，K的值是不断衰减的，因此，可以将按照衰减次数，对K的值进行编号，记为K_j，相应地，上述的topK可以记为topK_j。K的值的衰减存在一个阈值，即到达该阈值后，不再对K进行衰减，该阈值记为K_n。

在模型训练过程中，每一样本图像I对应的特征图f中均可以添加噪声noise G，该噪声一般是随机的，满足均匀分布U(0,1)即可。为了简化描述，可以认为是在每一特征图f中加入了G_i(add G_i)。实际应用中，不同的特征图中，该G_i的值可能是存在不同的。

激活的K个特征点，可以输入到分类网络θ中，输出概率p，该概率p可以结合样本图像携带的标签共同计算初始图像训练模型中损失函数的损失值。该损失值可以反馈到特征提取网络与分类网络θ中，以调整其中的网络参数。

可选地，在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数之前，方法还包括：

获取P个第一样本图像，P为大于1的整数；

对P个第一样本图像进行标注，得到P个携带标签的第一样本图像；

对至少一个携带标签的第一样本图像进行数据增强处理，得到Q个携带标签的第二样本图像，Q为正整数；

根据P个携带标签的第一样本图像与Q个携带标签的第二样本图像，得到训练样本集。

本实施例中，P个第一样本图像可以认为是对例如真菌等主体目标进行拍摄得到的图像。针对这些第一样本图像，可以采用人工标注或自动标注的方式对其进行标注，以获得相应的标签。

在实际应用中，直接拍摄得到的第一样本图像的数量可能有限，而且一些特殊场景(例如对焦不准或者光线过暗等等)下得到的样本图像的数量可能较少。

为了丰富样本图像的内容，提高训练样本集的质量，可以对上述至少一个第一样本图像进行数据增强处理，得到对应的第二样本图像。一般来说，第二样本图像也可以是携带有上述的标签的。

将携带标签的第一样本图像与携带标签的第二样本图像进行合并，可以得到上述的训练样本集，以用于对初始图像识别模型进行训练。

举例来说，上述的数据增强处理，可以是对第一样本图像的亮度或者色调进行调整，以适应不同光线条件下的拍摄的样本图像。

或者，数据增强处理可以是在第一样本图像中加入噪声，以适应杂质、对焦等客观因素对样本图像的成像的影响。

或者，数量增强处理可以是模糊化处理，以适应对焦对样本图像的成像的影响。

或者，数据增强处理还可以是平移、旋转、翻转等等。在样本图像为显微图像的情况下，受涂片、保存、扫描采集等前序步骤的影响，所获取的显微图像的分布大多是不一致的；通过以上数据增强处理，可以主动适应这些前序步骤对显微图像的成像的影响。

当然，这里仅仅是对数据增强处理的方式的举例说明，在实际应用中，还可以根据需要选择其他类型的数据增强数量方式。

在一个示例中，在获得训练完成的图像识别模型(以下简称目标图像识别模型)的情况下，可以使用目标图像识别模型对输入的待识别图像进行识别。

具体来说，目标图像识别模型可用于接收包括主体目标的待识别图像，输出对待识别图像中的主体目标的识别结果，和/或，输出待识别图像中的与主体目标关联的显著性区域，显著性区域与目标特征点匹配。

例如，目标图像识别模型可以识别出待识别图像中的微生物的具体类型。

而结合上文中对图像识别模型训练过程的说明可知，目标图像识别模型实际上可以对待识别图像模型进行特征的提取，得到特征图，并在特征图中确定K个目标特征点。一般来说，每一目标特征点可以映射至待识别图像中的对应图像区域。因此，在应用过程中，图像识别模型还可以输出K个目标特征点对应的图像区域，即上述的显著性区域。这些显著性区域可以认为是与主体目标关联的，且与目标特征点匹配。

在使用目标图像识别模型的过程中，可以保留上述的特征提取网络与分类网络，并可以将K设置为一固定值。相应地，目标图像识别模型也可以输出K个显著性区域，并可以进一步将这些显著性区域中待识别图像中进行标识，以便为用户对主体目标的人工识别提供参考的图像区域。

另外，在一个举例中，在使用目标图像识别模型的过程中，可以无需再在特征图中加入噪声。

结合一个应用场景，目标图像识别模型可以对采集到的显微图像中的主体内容进行识别，并且有效提取主体的显著性区域的图像。目标图像识别模型的应用，可以实现辅助诊疗，诊断者根据识别结果和显著性图像能够采取相应的治疗手段，相比于通过手动扫描进行主体识别的方式，能够大大缩短时间并且提高准确度。

如图3所示，本申请实施例还提供了一种图像识别模型训练装置，包括：

建立模块301，用于建立初始图像识别模型；初始图像识别模型中具有损失函数；初始图像识别模型包括特征提取网络与分类网络，其中，特征提取网络用于接收携带标签的样本图像，并输出特征图；分类网络用于接收特征图，并根据特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

更新模块302，用于在使用训练样本集对初始图像识别模型进行训练的过程中，按照预设衰减规则更新K的值，按照损失函数的损失值更新初始图像识别模型的网络参数；以及，

第一获取模块303，用于在损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；

相应地，图像识别模型训练装置，还可以包括：

第二获取模块，用于获取L个初始特征点中各个初始特征点的响应值；

确定模块，用于根据各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点；以及，

输出模块，用于根据K个目标特征点输出初始识别结果。

可选地，确定模块，可以包括：

插值单元，用于根据各个初始特征点的响应值，对特征图进行插值处理，得到插值图像，插值图像的分辨率与样本图像的分辨率相同，每一初始特征点在插值图像中具有对应的初始图像区域；

第一确定单元，用于根据各个初始图像区域的特征值确定各个初始图像区域对应的初始特征点的显著性得分；

第二确定单元，用于按照显著性得分从大到小的顺序，从L个初始特征点中确定出K个目标特征点。

可选地，确定模块，可以包括：

添加单元，用于在特征图中添加目标噪声，以更新各个初始特征点的响应值；

第三确定单元，用于根据更新后的各个初始特征点的响应值，从L个初始特征点中确定出K个目标特征点。

可选地，目标噪声为服从均匀分布的噪声。

可选地，预设衰减规则，包括：

可选地，图像识别模型训练装置，还可以包括：

第三获取模块，用于获取P个第一样本图像，P为大于1的整数；

标注模块，用于对P个第一样本图像进行标注，得到P个携带标签的第一样本图像；

数据增强处理模块，用于对至少一个携带标签的第一样本图像进行数据增强处理，得到Q个携带标签的第二样本图像，Q为正整数；

第四获取模块，用于根据P个携带标签的第一样本图像与Q个携带标签的第二样本图像，得到训练样本集。

可选地，训练完成的图像识别模型用于接收包括主体目标的待识别图像，输出对待识别图像中的主体目标的识别结果，和/或，输出待识别图像中的与主体目标关联的显著性区域，显著性区域与目标特征点匹配。

需要说明的是，该图像识别模型训练装置是与上述图像识别模型训练方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

图4示出了本申请实施例提供的电子设备的硬件结构示意图。

在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的方法所描述的操作。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种图像识别模型训练方法。

在一个示例中，电子设备还可包括通信接口403和总线404。其中，如图4所示，处理器401、存储器402、通信接口403通过总线404连接并完成相互间的通信。

通信接口403，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线404包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线404可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的图像识别模型训练方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种图像识别模型训练方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种图像识别模型训练方法，其特征在于，包括：

建立初始图像识别模型；所述初始图像识别模型中具有损失函数；所述初始图像识别模型包括特征提取网络与分类网络，其中，所述特征提取网络用于接收携带标签的样本图像，并输出特征图；所述分类网络用于接收所述特征图，并根据所述特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

在使用训练样本集对所述初始图像识别模型进行训练的过程中，按照预设衰减规则更新所述K的值，按照所述损失函数的损失值更新所述初始图像识别模型的网络参数；所述预设衰减规则，包括：每在使用预设数量的所述样本图像对所述初始图像识别模型进行训练的情况下，将所述K的值减小预设值，直至K的值等于预设的数值阈值时，停止减少K的值；以及，

在所述损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；所述训练完成的图像识别模型用于接收包括主体目标的待识别图像，输出对所述待识别图像中的主体目标的识别结果，和/或，输出所述待识别图像中的与所述主体目标关联的显著性区域，所述显著性区域与所述目标特征点匹配；其中，所述训练样本集包括多个携带标签的样本图像，所述损失函数的损失值为根据所述标签与所述初始识别结果确定；

所述特征图包括L个初始特征点，L为大于或等于K的整数；所述根据所述特征图中的K个目标特征点输出初始识别结果，包括：

获取所述L个初始特征点中各个所述初始特征点的响应值；

根据各个所述初始特征点的响应值，从所述L个初始特征点中确定出K个目标特征点；以及，

根据所述K个目标特征点输出初始识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据各个所述初始特征点的响应值，从所述L个初始特征点中确定出K个目标特征点，包括：

根据各个所述初始特征点的响应值，对所述特征图进行插值处理，得到插值图像，所述插值图像的分辨率与所述样本图像的分辨率相同，每一所述初始特征点在所述插值图像中具有对应的初始图像区域；

根据各个所述初始图像区域的特征值确定各个所述初始图像区域对应的初始特征点的显著性得分；

按照所述显著性得分从大到小的顺序，从所述L个初始特征点中确定出K个目标特征点。

3.根据权利要求1所述的方法，其特征在于，所述根据各个所述初始特征点的响应值，从所述L个初始特征点中确定出K个目标特征点，包括：

在所述特征图中添加目标噪声，以更新各个所述初始特征点的响应值；

根据更新后的各个所述初始特征点的响应值，从所述L个初始特征点中确定出K个目标特征点。

4.根据权利要求1所述的方法，其特征在于，所述在使用训练样本集对所述初始图像识别模型进行训练的过程中，按照预设衰减规则更新所述K的值，按照所述损失函数的损失值更新所述初始图像识别模型的网络参数之前，所述方法还包括：

获取P个第一样本图像，P为大于1的整数；

对所述P个第一样本图像进行标注，得到P个携带标签的第一样本图像；

对至少一个所述携带标签的第一样本图像进行数据增强处理，得到Q个携带标签的第二样本图像，Q为正整数；

根据所述P个携带标签的第一样本图像与所述Q个携带标签的第二样本图像，得到训练样本集。

5.一种图像识别模型训练装置，其特征在于，所述装置包括：

建立模块，用于建立初始图像识别模型；所述初始图像识别模型中具有损失函数；所述初始图像识别模型包括特征提取网络与分类网络，其中，所述特征提取网络用于接收携带标签的样本图像，并输出特征图；所述分类网络用于接收所述特征图，并根据所述特征图中的K个目标特征点输出初始识别结果，K为大于1的整数；

更新模块，用于在使用训练样本集对所述初始图像识别模型进行训练的过程中，按照预设衰减规则更新所述K的值，按照所述损失函数的损失值更新所述初始图像识别模型的网络参数；所述预设衰减规则，包括：每在使用预设数量的所述样本图像对所述初始图像识别模型进行训练的情况下，将所述K的值减小预设值，直至K的值等于预设的数值阈值时，停止减少K的值；以及，

第一获取模块，用于在所述损失函数的损失值小于损失阈值的情况下，获得训练完成的图像识别模型；所述训练完成的图像识别模型用于接收包括主体目标的待识别图像，输出对所述待识别图像中的主体目标的识别结果，和/或，输出所述待识别图像中的与所述主体目标关联的显著性区域，所述显著性区域与所述目标特征点匹配；其中，所述训练样本集包括多个携带标签的样本图像，所述损失函数的损失值为根据所述标签与所述初始识别结果确定；

第二获取模块，用于获取所述L个初始特征点中各个所述初始特征点的响应值；

确定模块，用于根据各个所述初始特征点的响应值，从所述L个初始特征点中确定出K个目标特征点；以及，

输出模块，用于根据所述K个目标特征点输出初始识别结果。

6.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的图像识别模型训练方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的图像识别模型训练方法。