CN111563541A

CN111563541A - 图像检测模型的训练方法和装置

Info

Publication number: CN111563541A
Application number: CN202010318213.4A
Authority: CN
Inventors: 龙翔; 高原
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-21
Anticipated expiration: 2040-04-21
Also published as: CN111563541B

Abstract

本申请公开了图像检测模型的训练方法和装置，涉及计算机视觉技术领域。具体实施方式包括：获取目标图像的目标特征图，以及利用图像检测模型，预测该目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据该目标距离以及该区块的坐标，确定该边界的位置；基于该目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；基于该任意两个区块分别所在的对象的边界的位置的差，确定目标距离对应的损失值；基于该损失值，训练该图像检测模型，得到训练后的图像检测模型。本申请将两个区块所对应的边界位置一致作为训练目标，可以有效区别图像中不同的对象。

Description

图像检测模型的训练方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及计算机视觉技术领域，尤其涉及图像检测模型的训练方法和装置。

背景技术

目标检测是计算机视觉的基础能力之一，在各个领域都发挥了重要作用。通过目标检测可以对图像中的对象进行分类。在现有技术中，一般会将图像输入检测模型比如深度神经网络进行目标检测，从而利用深度神经网络，预测图像中的对象的类别。

普通的目标检测需要大量的带检测框的人工标注样本进行检测模型的训练，而检测框的人工标注成本非常高，标注大量数据的时间周期也很长。

发明内容

提供了图像检测模型的训练方法、装置、电子设备和存储介质。

根据第一方面，提供了一种图像检测模型的训练方法，包括：获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；基于任意两个区块分别所在的对象的边界的位置的差，确定目标距离对应的损失值；基于损失值，训练图像检测模型，得到训练后的图像检测模型。

根据第二方面，提供了一种图像检测模型的训练装置，包括：获取单元，被配置成获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；第一确定单元，被配置成基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；第二确定单元，被配置成基于任意两个区块分别所在的对象的边界的位置的差，确定目标距离对应的损失值；训练单元，被配置成基于损失值，训练图像检测模型，得到训练后的图像检测模型。

根据第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如图像检测模型的训练方法中任一实施例的方法。

根据第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图像检测模型的训练方法中任一实施例的方法。

根据本申请的通过同一类别的两个区块可以准确地预测该类别对象的边界位置，并且通过限定两个区块之间的距离，避免了对不同的对象中的两个区块进行操作。此外，本申请实施例将两个区块所对应的边界位置一致作为训练目标，从而可以实现训练后的图像检测模型对不同对象所预测的边界位置不同，有效区别图像中不同的对象，提升同时对多对象图像中每个对象的检测效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请一些实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的图像检测模型的训练方法的一个实施例的流程图；

图3是根据本申请的图像检测模型的训练方法的一个应用场景的示意图；

图4是根据本申请的图像检测模型的训练方法的又一个实施例的流程图；

图5是根据本申请的图像检测模型的训练装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的图像检测模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的图像检测模型的训练方法或图像检测模型的训练装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。

这里的终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的目标图像等数据进行分析等处理，并将处理结果(例如进行预测所得到的距离)反馈给终端设备。

需要说明的是，本申请实施例所提供的图像检测模型的训练方法可以由服务器105或者终端设备101、102、103执行，相应地，图像检测模型的训练装置可以设置于服务器105或者终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的图像检测模型的训练方法的一个实施例的流程200。该图像检测模型的训练方法，包括以下步骤：

步骤201，获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象。

在本实施例中，上述执行主体可以获取目标图像的目标特征图，之后，上述执行主体可以在图像检测模型中，预测该目标特征图中每个区块(patch)到该区块所在的对象的最远边界的距离，从而实现边框回归。这里的边界可以是对象在指定方向上的最远的区块所指示的边界比如所在的边界，或最远的像素点所在的边界，例如，可以包括上、下、左、右四个方向(其中至少一个方向)的边界。预设对象类别为已经确定的对象的类别。比如，预设对象类别可以包括人、马等等。

在实践中，上述执行主体可以采用各种方式获取目标特征图。比如，上述执行主体可以继续从原始特征图中提取特征，例如可以利用深度神经网络(比如卷积神经网络)的至少一个卷积层进行提取，所得到的提取结果为目标特征图。这里的原始特征图可以是目标图像经过深度神经网络的一个以上的卷积层(与上述至少一个卷积层不同)的卷积所得到的特征图，这里的深度神经网络可以是上述包括至少一个卷积层的深度神经网络。此外，上述执行主体还可以直接将该深度神经网络的一个以上的卷积层输出的特征图作为目标特征图。

在实践中，上述执行主体在预测出区块到边界的距离的情况下，利用该区块的坐标，得到边界的位置。这里的边界的位置可以采用各种方式表示，比如可以包括四个指定方向的边界组成的包围框(bounding box)的四个顶点的坐标，还可以包括(x,y,w,h)，即上述包围框的中心点的坐标(x,y)，和包围框的宽、高(w,h)。

图像检测模型可以是各种采用弱监督训练的方式来训练的、能够检测图像中对象的模型或者模型的组合。比如，可以是卷积神经网络、残差神经网络等等。

步骤202，基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块。

在本实施例中，上述执行主体可以基于指示该区块所属于的预设对象类别的伪标签(Pseudo-Labelling)，确定出属于相同预设对象类别并且距离在预设范围内的任意两个区块。上述执行主体或者其它电子设备可以对每个预设对象类别设定相应的伪标签，不同的预设对象类别所对应的伪标签可以是不同的。

在实践中，上述执行主体可以采用各种方式确定区块的伪标签。比如，上述执行主体可以利用能够进行弱监督检测的预设模型，确定区块的伪标签。

步骤203，基于任意两个区块分别所在的对象的边界的位置的差，确定上述距离对应的损失值。

在本实施例中，上述执行主体可以基于所确定的任意两个区块分别所在的对象的边界的位置的差，确定出图像检测模型的预测结果对应的损失值。

在实践中，上述执行主体可以采用各种方式确定损失值。比如，上述执行主体可以采用L1损失函数，得到平均绝对误差也即L1损失值，并作为预测结果对应的损失值，具体地，上述执行主体可以将上述位置的差的绝对值，确定为损失值。此外，上述执行主体还可以将上述位置的差输入其它损失函数，比如L2损失函数，得到最小化平方误差也即L2损失值。

步骤204，基于损失值，训练图像检测模型，得到训练后的图像检测模型。

在本实施例中，上述执行主体可以基于损失值，训练上述图像检测模型，从而得到训练后的图像检测模型。在实践中，上述执行主体可以采用各种方式基于损失值，训练图像检测模型。比如，上述执行主体可以直接将该损失值作为图像检测模型的总损失值，并利用该总损失值进行反向传播，以得到训练后的图像检测模型。此外，上述执行主体还可以对上述损失值进行预设处理，比如，获取该损失值与该图像检测模型的其它损失值的和，并利用上述和来训练图像检测模型。

在得到训练后的图像检测模型之后，上述执行主体可以预测出每个区块到该区块所在的对象的包围框的各个边的距离。上述执行主体可以利用该距离以及该区块的坐标，确定包围框的位置也即检测结果。可选地，到上、下两个边的距离相等，且到左、右两个边的距离相等的区块为中心区块，因而，在目标图像中，中心区块的数量即为目标图像中存在的对象的数量。上述执行主体可以利用预测的距离和中心区块的坐标，得到包围框的位置。

本申请的上述实施例提供的方法能够通过同一类别的两个区块准确地预测该类别的对象的边界位置，并且通过限定两个区块之间的距离，在一定程度上避免对不同的对象中的两个区块进行操作。此外，本申请的上述实施例将两个区块所对应的边界位置一致作为训练目标，从而可以实现训练后的图像检测模型对不同对象所预测的边界位置不同，有效区别图像中不同的对象，提升同时对多对象图像中每个对象的检测效果。

在本实施例的一些可选的实现方式中，图像检测模型还包括指定卷积层；利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，可以包括：将目标特征图输入指定卷积层进行预测，得到目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离。

在这些可选的实现方式中，上述执行主体可以利用图像检测模型中的指定卷积层进行距离的预测。具体地，指定卷积层为能够由特征图得到上述4个距离的卷积层，也即指定卷积层的输出的通道为4。具体地，指定卷积层可以包括级联的多个卷积层，比如包括3个级联的1×1卷积层。在实践中，指定卷积层中相邻的卷积层之间可以包括激活层，比如非线性激活层。

这些实现方式可以利用指定卷积层，高效地输出若干通道的距离预测结果。

继续参见图3，图3是根据本实施例的图像检测模型的训练方法的应用场景的一个示意图。在图3的应用场景中，执行主体301可以获取目标图像的目标特征图302，并利用图像检测模型预测目标特征图302中每个区块到该区块所在的对象在上、下、左、右四个方向上最远的边界的距离303，以及根据距离303以及该区块的坐标，确定边界的位置304，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象。执行主体301基于目标特征图中区块的伪标签305，确定属于相同预设对象类别且距离在预设范围内的任意两个区块，并基于上述任意两个区块分别所在的对象的边界的位置304的差，确定距离303对应的损失值306。执行主体301基于损失值306，训练图像检测模型，得到训练后的图像检测模型307。

进一步参考图4，其示出了图像检测模型的训练方法的又一个实施例的流程400。该图像检测模型的训练方法的流程400，包括以下步骤：

步骤401，在分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率，其中，原始特征图为生成目标特征图所基于的特征图。

在本实施例中，图像检测模型还可以包括分类网络。图像检测模型的训练方法的执行主体(例如图1所示的服务器或终端设备)可以在分类网络中，确定原始特征图中每个区块属于每个预设对象类别的概率。预设对象类别为在分类网络中已经确定的对象的类别。

具体地，上述执行主体可以利用能够生成目标图像的特征图的算法或网络，生成原始特征图。比如，上述执行主体可以利用图像检测模型中的分类网络，生成目标图像的特征图，并将该特征图作为原始特征图。

具体地，分类网络可以将图像中的对象分为多个预设对象类别中的一个。分类网络可以是各种可以对图像中的对象进行分类的深度神经网络，例如，残差神经网络(比如ResNet50)。此外，分类网络还可以是卷积神经网络等等。上述分类网络可以是完整的深度神经网络，也可以是深度神经网络的主框架，比如残差神经网络的主框架(ResNetBackbone)。在实践中，分类网络可以是经过预先训练得到的，也即在步骤401之前，已经对图像中的对象划分为预设对象类别。

步骤402，基于概率，确定指示该区块所属于的预设对象类别的伪标签。

在本实施例中，上述执行主体可以基于所确定的概率，确定指示该区块所属于的预设对象类别的伪标签。

步骤403，获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象。

在本实施例中，上述执行主体可以获取目标图像的目标特征图，之后，上述执行主体可以在图像检测模型中，预测该目标特征图中每个区块到该区块所在的对象的最远边界的距离，从而实现边框回归。这里的边界可以是对象在指定方向上的最远的区块所指示的边界比如所在的边界，或最远的像素点所在的边界。

步骤404，基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块。

在本实施例中，上述执行主体可以基于指示该区块所属于的预设对象类别的伪标签，确定出属于相同预设对象类别并且距离在预设范围内的任意两个区块。上述执行主体或者其它电子设备可以对每个预设对象类别设定相应的伪标签，不同的预设对象类别所对应的伪标签可以是不同的。

步骤405，基于任意两个区块分别所在的对象的边界的位置的差，确定上述距离对应的损失值。

步骤406，基于损失值，训练图像检测模型，得到训练后的图像检测模型。

在本实施例中，上述执行主体可以基于损失值，训练上述图像检测模型，从而得到训练后的图像检测模型。在实践中，上述执行主体可以采用各种方式基于损失值，训练图像检测模型。比如，上述执行主体可以直接将该损失值作为图像检测模型的总损失值，并利用该总损失值进行反向传播，以得到训练后的图像检测模型。

本实施例可以利用分类网络，准确地确定每个区块属于每个预设对象类别的概率，从而提高对该区块所得到的伪标签的准确度。

在本实施例的一些可选的实现方式中，图像检测模型还可以包括特征金字塔网络，步骤403中的获取目标图像的目标特征图，可以包括：将原始特征图输入特征金字塔网络，得到包含原始特征图的特征的至少两个特征图；将至少两个特征图中尺寸最大的特征图作为目标特征图。

在这些可选的实现方式中，上述执行主体可以将原始特征图输入特征金字塔网络(Feature Pyramid Networks，FPN)。由特征金字塔网络得到的尺寸最大的特征图中，融合了不同尺寸的、原始特征图中的特征，因此，由特征金字塔网络提取原始特征图的特征，可以提高所提取特征的准确度。

在本实施例的一些可选的实现方式中，步骤401可以包括：获取指示预设对象类别的预设向量，其中，不同的预设对象类别的预设向量不同。对于每个预设对象类别，确定该预设对象类别的预设向量与原始特征图中每个区块的特征向量的相似度；利用分类网络中的归一化层，将对该预设对象类别对应的各个相似度进行归一化，得到该预设对象类别对应的注意力图，其中，注意力图包括原始特征图中每个区块属于该预设对象类别的概率。

在这些可选的实现方式中，图像检测模型的训练方法的执行主体(例如图1所示的服务器或终端设备)可以获取指示预设对象类别的预设向量。每个预设对象类别都具有对应的预设向量，不同的预设对象类别所对应的预设向量不同。

区块的特征可以表现为特征向量的形式。上述执行主体可以对于每个预设对象类别，确定该预设对象类别的预设向量与原始特征图中每个区块的预设向量的相似度。具体地，该确定相似度的过程可以在分类网络中进行。在实践中，上述执行主体可以采用各种方式确定上述相似度。比如，上述执行主体可以将上述预设向量和特征向量输入预设模型，从而得到该预设模型输出的两者的相似度。该预设模型可以用于表征预设向量、特征向量，与两者的相似度之间的关系。

此外，上述执行主体还可以采用如下方式确定上述相似度：对于每个预设对象类别，确定该预设对象类别的预设向量与原始特征图中每个区块的特征向量的点乘运算结果，并将点乘运算结果作为上述相似度。具体地，上述执行主体可以对于每个预设对象类别，对该预设对象类别的预设向量与原始特征图中每个区块的特征向量进行点乘，从而得到点乘运算结果。具体地，点乘的结果可以判断向量之间的夹角，从而确定两个向量之间的相似度。这样，上述执行主体可以利用点乘运算结果，更加准确地确定指示预设对象类别的向量与特征向量之间的相似度。

上述执行主体还可以利用分类网络中的归一化层，将该预设对象类别对应的各个相似度进行归一化，得到原始特征图中每个区块属于该预设对象类别的概率，也即注意力图(Attention Map)。这样，对于每一种预设对象类别，都生成了该预设对象类别对应的注意力图。具体地，归一化层可以是深度神经网络中各种可以进行归一化处理的处理层，比如softmax处理层。

这些实现方式能够利用归一化层生成每个预设对象类别对应的注意力图，从而得到了每个区块属于每个预设对象类别的准确概率。

在本实施例的一些可选的实现方式中，步骤402可以包括：获取对每个预设对象类别的概率设定的阈值；基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别；确定指示每个区块所属于的预设对象类别的伪标签。

在这些可选的实现方式中，每个预设对象类别的概率都可以设定有至少一个阈值。上述执行主体可以获取对各个预设对象类别的概率设定的阈值，并确定原始特征图中每个区块属于每个预设对象类别的概率，与该预设对象类别的阈值之间的大小关系。这样，上述执行主体可以基于该大小关系，确定每个区块属于哪个预设对象类别，进而确定该预设对象类别的伪标签。每个预设对象类别都有其相对应的伪标签，不同的预设对象类别的伪标签不同。在实践中，上述执行主体对各个预设对象类别设定的概率的阈值可以是相同的，也可以是不同的。

在实践中，上述执行主体可以采用各种方式基于上述大小关系，确定区块所属于的预设对象类别。比如，上述执行主体可以将超过阈值的概率所对应的预设对象类别，作为该区块所属于的预设对象类别。

这些实现方式可以通过比较区块所属于预设对象类别的概率与阈值之间的大小关系，提高确定区块的预设对象类别的概率的准确度。

在这些实现方式的一些可选的应用场景中，这些实现方式中的阈值可以包括对象类阈值；这些实现方式中的基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别，包括：对于原始特征图中每个区块，若该区块属于一个预设对象类别的概率，大于该预设对象类别的对象类阈值，且该区块属于其它预设对象类别的概率，均小于其它预设对象类别的对象类阈值，则确定该区块属于该预设对象类别；对于原始特征图中每个区块，若该区块属于两个以上预设对象类别中每个预设对象类别的概率，均大于该预设对象类别的对象类阈值，则在该区块属于两个以上预设对象类别中各个预设对象类别的概率中，确定最大的概率；确定该区块属于最大的概率所对应的预设对象类别。

在这些可选的应用场景中，阈值可以包括对象类阈值。对象类阈值可以作为判断是否将区块划分为该预设对象类别的依据。在实践中，对于该区块，如果该区块属于某一个预设对象类别的概率较大，也即大于这个预设对象类别的对象类阈值，并且该区块属于其它的预设对象类别的概率都较小，则可以确定该区块属于上述的某一个预设对象类别。而如果该区块属于两个以上预设对象类别的概率都较大，则可以从这些概率中选择最大的概率，并将这个概率对应的预设对象类别，作为该区块所属于的预设对象类别。

这些实现方式可以基于预设对象类别的对象类阈值，准确地判断该区块是否属于该类别。

在这些应用场景的一些可选的情况下，上述阈值还可以包括背景类阈值，对象类阈值大于背景类阈值；这些实现方式中的基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别，还可以包括：对于原始特征图中每个区块，若该区块属于每个预设对象类别的概率，均小于该预设对象类别的背景类阈值，则确定该区块属于背景类别。

在这些可选的情况下，上述执行主体可以在区块属于每个预设对象类别的概率均较低的情况下，确定区块属于背景类别。背景类阈值可以用于指示该区块为图像中的背景区域。这样，可以避免将背景区域识别为对象，提高了确定背景的准确度。

在本实施例的一些可选的实现方式中，上述方法还可以包括：将目标图像，输入分类网络中级联的至少两个卷积层，得到目标图像的特征图，将该特征图作为原始特征图，其中，至少两个卷积层中，排列在最后的卷积层的下采样率小于其它卷积层的下采样率。

在这些可选的实现方式中，上述执行主体可以将目标图像输入分类网络中的卷积层中，从而得到目标图像的特征图，即原始特征图。具体地，这里的卷积层为级联的至少两个卷积层。在级联的卷积层中，由上一个(排列在前)卷积层的输出，可以确定下一个(排列在后且相邻的)卷积层的输入。原始特征图可以是从级联的卷积层的最后一个卷积层即排列在最后的卷积层输出的。这里的级联的卷积层之间可以存在激活层。举例来说，在其它卷积层的下采样率为2的情况下，最后的卷积层的下采样率可以为小于2的数值，比如1，或者1.5等等。

这些实现方式的分类网络中级联的至少两个卷积层中最后一个卷积层的下采样率较小，可以确保分类网络最终得到的原始特征图中有较为丰富的细节纹理信息，从而使图像检测模型预测出更加准确的距离。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种图像检测模型的训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的图像检测模型的训练装置500包括：获取单元501、第一确定单元502、第二确定单元503和训练单元504。其中，获取单元501，被配置成获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；第一确定单元502，被配置成基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；第二确定单元503，被配置成基于任意两个区块分别所在的对象的边界的位置的差，确定目标距离对应的损失值；训练单元504，被配置成基于损失值，训练图像检测模型，得到训练后的图像检测模型。

在本实施例中，图像检测模型的训练装置500的获取单元501、第一确定单元502、第二确定单元503和训练单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，图像检测模型还包括分类网络；装置还包括：概率确定单元，被配置成在分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率，其中，原始特征图为生成目标特征图所基于的特征图；伪标签确定单元，被配置成基于概率，确定指示该区块所属于的预设对象类别的伪标签。

在本实施例的一些可选的实现方式中，概率确定单元，进一步被配置成按照如下方式执行在分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率：获取指示预设对象类别的预设向量，其中，不同的预设对象类别的预设向量不同；对于每个预设对象类别，确定该预设对象类别的预设向量与原始特征图中每个区块的特征向量的相似度；利用分类网络中的归一化层，将对该预设对象类别对应的各个相似度进行归一化，得到该预设对象类别对应的注意力图，其中，注意力图包括原始特征图中每个区块属于该预设对象类别的概率。

在本实施例的一些可选的实现方式中，伪标签确定单元，进一步被配置成按照如下方式执行基于概率，确定指示该区块所属于的预设对象类别的伪标签：获取对每个预设对象类别的概率设定的阈值；基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别；确定指示每个区块所属于的预设对象类别的伪标签。

在本实施例的一些可选的实现方式中，阈值包括对象类阈值；伪标签确定单元，进一步被配置成按照如下方式执行基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别：对于原始特征图中每个区块，若该区块属于一个预设对象类别的概率，大于该预设对象类别的对象类阈值，且该区块属于其它预设对象类别的概率，均小于其它预设对象类别的对象类阈值，则确定该区块属于该预设对象类别；对于原始特征图中每个区块，若该区块属于两个以上预设对象类别中每个预设对象类别的概率，均大于该预设对象类别的对象类阈值，则在该区块属于两个以上预设对象类别中各个预设对象类别的概率中，确定最大的概率；确定该区块属于最大的概率所对应的预设对象类别。

在本实施例的一些可选的实现方式中，阈值还包括背景类阈值，对象类阈值大于背景类阈值；伪标签确定单元，进一步被配置成按照如下方式执行基于原始特征图中每个区块属于各个预设对象类别的概率与阈值之间的大小关系，确定每个区块所属于的预设对象类别：对于原始特征图中每个区块，若该区块属于每个预设对象类别的概率，均小于该预设对象类别的背景类阈值，则确定该区块属于背景类别。

在本实施例的一些可选的实现方式中，图像检测模型还包括指定卷积层；获取单元，进一步被配置成按照如下方式执行利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离：将目标特征图输入指定卷积层进行预测，得到目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离。

在本实施例的一些可选的实现方式中，装置还包括：特征图生成单元，被配置成将目标图像，输入分类网络中级联的至少两个卷积层，得到目标图像的特征图，将该特征图作为原始特征图，其中，至少两个卷积层中，排列在最后的卷积层的下采样率小于其它卷积层的下采样率。

在本实施例的一些可选的实现方式中，图像检测模型还包括特征金字塔网络；获取单元，进一步被配置成按照如下方式执行获取目标图像的目标特征图：将原始特征图输入特征金字塔网络，得到包含原始特征图的特征的至少两个特征图；将至少两个特征图中尺寸最大的特征图作为目标特征图。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的图像检测模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像检测模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像检测模型的训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像检测模型的训练方法对应的程序指令/模块(例如，附图5所示的获取单元501、第一确定单元502、第二确定单元503和训练单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像检测模型的训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像检测模型的训练电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至图像检测模型的训练电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像检测模型的训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与图像检测模型的训练电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、第一确定单元、第二确定单元和训练单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，训练单元还可以被描述为“基于损失值，训练图像检测模型，得到训练后的图像检测模型的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取目标图像的目标特征图，以及利用图像检测模型，预测目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据目标距离以及该区块的坐标，确定边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；基于目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；基于任意两个区块分别所在的对象的边界的位置的差，确定目标距离对应的损失值；基于损失值，训练图像检测模型，得到训练后的图像检测模型。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像检测模型的训练方法，所述方法包括：

获取目标图像的目标特征图，以及利用图像检测模型，预测所述目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据所述目标距离以及该区块的坐标，确定所述边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；

基于所述目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；

基于所述任意两个区块分别所在的对象的边界的位置的差，确定所述目标距离对应的损失值；

基于所述损失值，训练所述图像检测模型，得到训练后的图像检测模型。

2.根据权利要求1所述的方法，其中，所述图像检测模型还包括分类网络；所述方法还包括：

在所述分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率，其中，所述原始特征图为生成所述目标特征图所基于的特征图；

基于所述概率，确定指示该区块所属于的预设对象类别的伪标签。

3.根据权利要求2所述的方法，其中，所述在所述分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率，包括：

获取指示预设对象类别的预设向量，其中，不同的预设对象类别的预设向量不同；

对于每个预设对象类别，确定该预设对象类别的预设向量与所述原始特征图中每个区块的特征向量的相似度；

利用所述分类网络中的归一化层，将对该预设对象类别对应的各个相似度进行归一化，得到该预设对象类别对应的注意力图，其中，所述注意力图包括所述原始特征图中每个区块属于该预设对象类别的概率。

4.根据权利要求2所述的方法，其中，所述基于所述概率，确定指示该区块所属于的预设对象类别的伪标签，包括：

获取对每个预设对象类别的概率设定的阈值；

基于所述原始特征图中每个区块属于各个预设对象类别的概率与所述阈值之间的大小关系，确定每个区块所属于的预设对象类别；

确定指示每个区块所属于的预设对象类别的伪标签。

5.根据权利要求4所述的方法，其中，所述阈值包括对象类阈值；所述基于所述原始特征图中每个区块属于各个预设对象类别的概率与所述阈值之间的大小关系，确定每个区块所属于的预设对象类别，包括：

对于所述原始特征图中每个区块，若该区块属于一个预设对象类别的概率，大于该预设对象类别的对象类阈值，且该区块属于其它预设对象类别的概率，均小于其它预设对象类别的对象类阈值，则确定该区块属于该预设对象类别；

对于所述原始特征图中每个区块，若该区块属于两个以上预设对象类别中每个预设对象类别的概率，均大于该预设对象类别的对象类阈值，则在该区块属于所述两个以上预设对象类别中各个预设对象类别的概率中，确定最大的概率；确定该区块属于所述最大的概率所对应的预设对象类别。

6.根据权利要求5所述的方法，其中，所述阈值还包括背景类阈值，所述对象类阈值大于所述背景类阈值；所述基于所述原始特征图中每个区块属于各个预设对象类别的概率与所述阈值之间的大小关系，确定每个区块所属于的预设对象类别，还包括：

对于所述原始特征图中每个区块，若该区块属于每个预设对象类别的概率，均小于该预设对象类别的背景类阈值，则确定该区块属于背景类别。

7.根据权利要求1所述的方法，其中，所述图像检测模型还包括指定卷积层；所述利用图像检测模型，预测所述目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，包括：

将所述目标特征图输入所述指定卷积层进行预测，得到所述目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离。

8.根据权利要求2所述的方法，其中，所述方法还包括：

将所述目标图像，输入所述分类网络中级联的至少两个卷积层，得到所述目标图像的特征图，将该特征图作为原始特征图，其中，所述至少两个卷积层中，排列在最后的卷积层的下采样率小于其它卷积层的下采样率。

9.根据权利要求2所述的方法，其中，所述图像检测模型还包括特征金字塔网络；所述获取目标图像的目标特征图，包括：

将所述原始特征图输入所述特征金字塔网络，得到包含所述原始特征图的特征的至少两个特征图；

将所述至少两个特征图中尺寸最大的特征图作为所述目标特征图。

10.一种图像检测模型的训练装置，所述装置包括：

获取单元，被配置成获取目标图像的目标特征图，以及利用图像检测模型，预测所述目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离，以及根据所述目标距离以及该区块的坐标，确定所述边界的位置，其中，该区块所在的对象为该区块所属于的预设对象类别所指示的对象；

第一确定单元，被配置成基于所述目标特征图中区块的指示预设对象类别的伪标签，确定属于相同预设对象类别且距离在预设范围内的任意两个区块；

第二确定单元，被配置成基于所述任意两个区块分别所在的对象的边界的位置的差，确定所述目标距离对应的损失值；

训练单元，被配置成基于所述损失值，训练所述图像检测模型，得到训练后的图像检测模型。

11.根据权利要求10所述的装置，其中，所述图像检测模型还包括分类网络；所述装置还包括：

概率确定单元，被配置成在所述分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率，其中，所述原始特征图为生成所述目标特征图所基于的特征图；

伪标签确定单元，被配置成基于所述概率，确定指示该区块所属于的预设对象类别的伪标签。

12.根据权利要求11所述的装置，其中，所述概率确定单元，进一步被配置成按照如下方式执行在所述分类网络中，基于目标图像的原始特征图中每个区块的特征，确定该区块属于每个预设对象类别的概率：

13.根据权利要求11所述的装置，其中，所述伪标签确定单元，进一步被配置成按照如下方式执行所述基于所述概率，确定指示该区块所属于的预设对象类别的伪标签：

获取对每个预设对象类别的概率设定的阈值；

确定指示每个区块所属于的预设对象类别的伪标签。

14.根据权利要求13所述的装置，其中，所述阈值包括对象类阈值；所述伪标签确定单元，进一步被配置成按照如下方式执行所述基于所述原始特征图中每个区块属于各个预设对象类别的概率与所述阈值之间的大小关系，确定每个区块所属于的预设对象类别：

15.根据权利要求14所述的装置，其中，所述阈值还包括背景类阈值，所述对象类阈值大于所述背景类阈值；所述伪标签确定单元，进一步被配置成按照如下方式执行所述基于所述原始特征图中每个区块属于各个预设对象类别的概率与所述阈值之间的大小关系，确定每个区块所属于的预设对象类别：

16.根据权利要求10所述的装置，其中，所述图像检测模型还包括指定卷积层；所述获取单元，进一步被配置成按照如下方式执行所述利用图像检测模型，预测所述目标特征图中每个区块到该区块所在的对象在指定方向上最远的边界的距离并作为目标距离：

17.根据权利要求11所述的装置，其中，所述装置还包括：

特征图生成单元，被配置成将所述目标图像，输入所述分类网络中级联的至少两个卷积层，得到所述目标图像的特征图，将该特征图作为原始特征图，其中，所述至少两个卷积层中，排列在最后的卷积层的下采样率小于其它卷积层的下采样率。

18.根据权利要求11所述的装置，其中，所述图像检测模型还包括特征金字塔网络；所述获取单元，进一步被配置成按照如下方式执行所述获取目标图像的目标特征图：

19.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。