CN112784691A

CN112784691A - 一种目标检测模型训练方法、目标检测方法和装置

Info

Publication number: CN112784691A
Application number: CN202011625231.3A
Authority: CN
Inventors: 杨世才; 浦世亮; 陈伟杰; 过一路; 谢迪
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112784691B

Abstract

本申请实施例提供了一种目标检测模型训练方法、目标检测方法和装置，获取当前检测场景的未标注标签的第一样本图像；基于基线检测模型对第一样本图像进行检测，确定第一样本图像中置信度大于第一预设阈值的目标图像区域；基于第一样本图像中目标图像区域的图像特征，对第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合；针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签；针对第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对基线检测模型进行模型训练，得到目标检测模型，能够降低检测的成本，提高检测的效率。

Description

一种目标检测模型训练方法、目标检测方法和装置

技术领域

本申请涉及深度学习技术领域，特别是涉及一种目标检测模型训练方法、目标检测方法和装置。

背景技术

随着计算机技术的快速发展，基于深度学习对图像进行检测在各方面得到了广泛的应用。例如，在视频监控领域，基于训练得到的目标检测模型对监控图像进行目标检测，可以确定监控图像中包含的预设对象(例如，动物或人物等)，以及预设对象所占的图像区域。

相关技术中，为了提高目标检测的精确度，针对某一检测场景，需要获取大量该检测场景对应的人工标注了目标对象的标签的样本图像，进而，可以基于这些样本图像对预设结构的卷积神经网络模型进行训练，得到该检测场景对应的目标检测模型。

然而，基于人工对大量样本图像进行标注，会增大标注的复杂度和成本，进而，会增加检测的成本，降低检测的效率。

发明内容

本申请实施例的目的在于提供一种目标检测模型训练方法、目标检测方法和装置，以降低检测的成本，提高检测的效率。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种目标检测模型训练方法，所述方法包括：

获取当前检测场景的未标注标签的第一样本图像；

基于基线检测模型对各第一样本图像进行检测，确定各第一样本图像中置信度大于第一预设阈值的目标图像区域；其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；所述基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测所述预设对象的网络模型；

基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合；

针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签；

针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型，包括：

针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对所述基线检测模型进行模型训练，得到待选检测模型；

获取用户对备选图像区域集合进行标注的标签，作为所述备选图像区域集合包含的目标图像区域的硬标签；其中，所述备选图像区域集合包含的目标图像区域的软标签属于预设范围；

针对所述备选图像区域集合中的每一目标图像区域，将该目标图像区域的硬标签，作为该目标图像区域的真实标签，对所述待选检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述基线检测模型为快速区域卷积神经网络模型或YOLO模型。

可选的，所述基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合，包括：

基于各第一样本图像中目标图像区域的图像特征，按照K-means聚合算法，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。

可选的，该图像区域集合的置信度用于表示该图像区域集合包含的目标图像区域的置信度的平均水平。

第二方面，为了达到上述目的，本申请实施例公开了一种目标检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入至当前检测场景的目标检测模型，得到所述待检测图像的检测结果；其中，所述目标检测模型为采用上述第一方面任一项所述的目标检测模型训练方法获取的。

可选的，所述检测结果包括以下至少一项：表示所述待检测图像中是否包含预设对象的标识、所述待检测图像中各图像区域包含预设对象的概率、所述各图像区域的位置信息。

第三方面，为了达到上述目的，本申请实施例公开了一种目标检测模型训练装置，所述装置包括：

第一样本图像获取模块，用于获取当前检测场景的未标注标签的第一样本图像；

目标图像区域确定模块，用于基于基线检测模型对各第一样本图像进行检测，确定各第一样本图像中置信度大于第一预设阈值的目标图像区域；其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；所述基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测所述预设对象的网络模型；

聚类模块，用于基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合；

软标签计算模块，用于针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签；

模型训练模块，用于针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述模型训练模块，具体用于针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述模型训练模块，包括：

第一模型训练子模块，用于针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对所述基线检测模型进行模型训练，得到待选检测模型；

硬标签获取子模块，用于获取用户对备选图像区域集合进行标注的标签，作为所述备选图像区域集合包含的目标图像区域的硬标签；其中，所述备选图像区域集合包含的目标图像区域的软标签属于预设范围；

第二模型训练子模块，用于针对所述备选图像区域集合中的每一目标图像区域，将该目标图像区域的硬标签，作为该目标图像区域的真实标签，对所述待选检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述聚类模块，具体用于基于各第一样本图像中目标图像区域的图像特征，按照K-means聚合算法，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。

第四方面，为了达到上述目的，本申请实施例公开了一种目标检测装置，所述装置包括：

待检测图像获取模块，用于获取待检测图像；

检测模块，用于将所述待检测图像输入至当前检测场景的目标检测模型，得到所述待检测图像的检测结果；其中，所述目标检测模型为采用权利要求1至6任一项所述的目标检测模型训练方法获取的。

在本申请实施的另一方面，为了达到上述目的，本申请实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的目标检测模型训练方法，或，第二方面所述的目标检测方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，实现如上述第一方面所述的目标检测模型训练方法，或，第二方面所述的目标检测方法。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的目标检测模型训练方法，或，第二方面所述的目标检测方法。

本申请实施例提供了一种目标检测模型训练方法，可以获取当前检测场景的未标注标签的第一样本图像；基于基线检测模型对各第一样本图像进行检测，确定各第一样本图像中置信度大于第一预设阈值的目标图像区域；其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测预设对象的网络模型；基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合；针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签；针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

通过聚类分析，将目标图像区域划分为不同的图像区域集合，将每一图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签，能够对各目标图像区域的置信度进行矫正，提高目标图像区域的标签的准确度，进而，基于目标图像区域的软标签训练得到的当前检测场景的目标检测模型，能够准确地检测出图像中的预设对象，且本申请实施例中的第一样本图像并不需要标注，因此，能够降低检测的成本，提高检测的效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种目标检测模型训练方法的流程图；

图2为本申请实施例提供的另一种目标检测模型训练方法的流程图；

图3为本申请实施例提供的另一种目标检测模型训练方法的流程图；

图4为本申请实施例提供的另一种目标检测模型训练方法的流程图；

图5为本申请实施例提供的一种目标检测模型训练方法的原理示意图；

图6为本申请实施例提供的一种目标检测模型训练装置的结构图；

图7为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，针对某一检测场景，需要获取大量该检测场景对应的已标注标签的样本图像，进而，可以基于已标注标签的样本图像进行训练，得到该检测场景对应的目标检测模型。然而，基于人工对大量样本图像进行标注，会增大标注的复杂度和成本，进而，会增加检测的成本，降低检测的效率。

为了解决上述问题，本申请实施例提供了一种目标检测模型训练方法，参见图1，该方法可以包括以下步骤：

S101：获取当前检测场景的未标注标签的第一样本图像。

S102：基于基线检测模型对各第一样本图像进行检测，确定各第一样本图像中置信度大于第一预设阈值的目标图像区域。

其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率。基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测预设对象的网络模型。

S103：基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。

S104：针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签。

S105：针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

本申请实施例提供的目标检测模型训练方法，通过聚类分析，将目标图像区域划分为不同的图像区域集合，将每一图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签，能够对各目标图像区域的置信度进行矫正，提高目标图像区域的软标签的准确度，进而，基于目标图像区域的软标签训练得到的当前检测场景的目标检测模型，能够准确地检测出图像中的预设对象，且本申请实施例中的第一样本图像并不需要标注，因此，能够降低检测的成本，提高检测的效率。

在实际应用中，通常存在多种不同的检测场景。例如，针对公园入口处的监控视频进行检测的场景、针对商场入口处的监控视频进行检测的场景，以及针对路口处的监控视频进行检测的场景等。

针对每一检测场景，基于对应的目标检测模型可以对该检测场景的监控视频进行检测，确定监控视频中包含的预设对象，以及预设对象所占的图像区域。预设对象可以为动物，或者，预设对象也可以为人物。

由于不同的检测场景中的监控视频之间存在差异，因此，针对每一检测场景，可以基于该检测场景的样本图像进行模型训练，得到适用于该检测场景的目标检测模型(即该检测场景对应的目标检测模型)。

针对步骤101，可以获取海量的第一样本图像，例如，获取的第一样本图像的数量可以是10万，或者，也可以为20万，但并不限于此。

针对步骤102，当需要获取适用于当前检测场景的，用于检测预设对象的目标检测模型时，可以获取基线检测模型，也就是，获取基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的网络模型，且该网络模型也用于检测预设对象。

在一个实施例中，基线检测模型可以为快速区域卷积神经网络(Faster-RCNN，Faster-Region Convolutional Neural Networks)模型，或者，也可以为YOLO模型。

其中，Faster-RCNN可以包括：

特征提取网络：基于卷积层、线性整流函数层和池化层提取图像的图像特征。区域候选网络：通过softmax确定图像的前景和背景，利用边界框回归进行修正，得到图像中对象所占的图像区域的位置。目标区域池化网络：基于图像的图像特征和对象所占的图像区域的位置，得到对象所占的图像区域的图像特征。目标分类网络：利用对象所占的图像区域的图像特征，计算该图像区域包含预设对象的概率，同时进行边界框回归获得图像区域的精确位置。边界框用于表示图像区域的边界，在实际应用中，可以以框的形式表示图像区域。

YOLO模型可以包含24个卷积层和2个全连接层，卷积层用于提取图像的图像特征，全连接层用于预测图像中包含对象的图像区域的位置，以及图像区域包含预设对象的概率。

可以理解的是，由于基线检测模型为基于当前检测场景以外的其他检测场景的样本图像进行训练得到的，因此，基线检测模型并不能很好的适用于当前的检测场景，也就是说，基于基线检测模型确定出的置信度的准确度较低。

在一个实施例中，在基于基线检测模型对第一样本图像进行检测时，为了确定出第一样本图像中包含的所有预设对象，可以将第一预设阈值设置为一个较小的值。例如，第一预设阈值可以为0.2，或者，也可以为0.1，但并不限于此。

基于上述处理，确定出的目标图像区域中存在包含预设对象的图像区域，也可能存在包含非预设对象的图像区域。例如，预设对象为人物，则基于基线检测模型，确定出的目标图像区域中存在人物所占的图像区域，也存在非人物所占的图像区域。

针对步骤S103，基于基线检测模型确定出的置信度可能存在一些异常数值。一种方式中，基线检测模型用于检测图像中的人物，针对第一样本图像中包含动物的图像区域，确定出的置信度大多为较小的数值，例如，为0.2，或者，为0.1等。然而，由于目标抖动、噪声影响以及图像中对象的姿态变化等原因，针对第一样本图像中包含动物的图像区域，确定出的置信度也可能会出现较大的数值(即异常数值)，例如，可以为0.9，或者，为0.8。

在聚类时，可以将包含动物的目标图像区域划分为一个图像区域集合，进而，将每一图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签，能够去除上述异常数值，提高软标签的准确度，实现对目标图像区域的置信度矫正。

在一个实施例中，该图像区域集合的置信度用于表示该图像区域集合包含的目标图像区域的置信度的平均水平。

一种方式中，针对每一图像区域集合，可以计算该图像区域集合包含的目标图像区域的置信度的平均值，作为该图像区域集合的置信度。

或者，针对每一图像区域集合，也可以确定该图像区域集合包含的目标图像区域的置信度的中位数，作为该图像区域集合的置信度。

在一个实施例中，参见图2，在图1的基础上，步骤S103可以包括以下步骤：

S1031：基于各第一样本图像中目标图像区域的图像特征，按照K-means聚合算法，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。

在本申请实施例中，基于K-means聚合算法，可以根据预先设置的K值，将目标图像区域划分为K个图像区域集合。每一图像区域集合包含的目标图像区域之间的相似度较大。例如，可以将包含人物的目标图像区域划分为一个图像区域集合，将包含动物的目标图像区域划分为一个图像区域集合。

在一个实施例中，可以将目标图像区域划分为较多的图像区域集合，也就是说，可以设置较大的K值，例如，K可以为1000，或者，K也可以为2000，但并不限于此。

基于上述处理，可以按照更小的粒度对该目标图像区域进行划分。即，可以按照过聚类(Over Clustering)的方式，对各第一样本图像中的目标图像区域进行聚类。例如，可以将只包含人物头部的目标图像区域划分为一个图像区域集合、将只包含人物脚部的目标图像区域划分为一个图像区域集合、将包含人物整体的目标图像区域划分为一个图像区域集合。同时，还可以将只包含小狗头部的目标图像区域划分为一个图像区域集合，以及将只包含小狗脚部的目标图像区域划分为一个图像区域集合。进而，针对每一图像区域集合，能够进一步提高该图像区域集合包含的目标图像区域之间的相似度，得到更好的聚类效果。

在一个实施例中，参见图3，在图1的基础上，步骤S105可以包括以下步骤：

S1051：针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

在本申请实施例中，在确定出每一图像区域集合包含的目标图像区域的软标签后，针对每一目标图像区域，可以将该目标图像区域的软标签，作为该目标图像区域的真实标签，对基线检测模型进行模型训练。也就是说，在基于每一目标图像区域对基线检测模型进行训练的过程中，可以基于预测的该目标图像区域的标签与该目标图像区域的软标签之间的损失函数，对基线检测模型的模型参数进行调整。

在一个实施例中，为了进一步提高目标检测模型的检测精确度，还可以结合用户标记的标签进行训练，参见图4，在图1的基础上，步骤S105可以包括以下步骤：

S1052：针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对基线检测模型进行模型训练，得到待选检测模型。

其中，针对每一目标图像区域，软标签表示该目标图像区域包含预设对象的概率。

S1053：获取用户对备选图像区域集合进行标注的标签，作为备选图像区域集合包含的目标图像区域的硬标签。

其中，针对每一目标图像区域，硬标签表示该目标图像区域包含预设对象的概率。例如，目标图像区域包含预设对象，则人工标注的硬标签可以为1；目标图像区域未包含预设对象，则人工标注的硬标签可以为0。

S1054：针对备选图像区域集合中的每一目标图像区域，将该目标图像区域的硬标签，作为该目标图像区域的真实标签，对待选检测模型进行模型训练，得到当前检测场景的目标检测模型。

在本申请实施例中，上述步骤S1052可以参考上述步骤S1051的相关介绍。

另外，在确定出每一图像区域集合包含的目标图像区域的软标签后，可以判断是否存在包含的目标图像区域的软标签属于预设范围的图像区域集合(即本申请实施例中的备选图像区域集合)。

其中，一个目标图像区域的软标签属于预设范围，表示无法根据该目标图像区域的软标签，确定该目标图像区域是否包含预设对象。例如，预设范围可以为0.3-0.7，或者，预设范围也可以为0.4-0.6，但并不限于此。

若存在备选图像区域集合，也就是说，针对备选图像区域集合中的目标图像区域，无法根据软标签确定该目标图像区域是否包含预设对象。因此，可以通过人工对其所在的图像区域集合(即备选图像区域集合)进行标注，人工标注的标签也就是真实标签，以基于该真实标签进行模型训练，提高目标检测模型的精确度。

一种方式中，如果需要提高正检率，即，提高成功检测出预设对象的概率，则预设范围可以不小于0.5，例如，预设范围可以为0.5-0.7；若要降低误检率，即，降低将其他对象确定为预设对象的概率，则预设范围可以不大于0.5，例如，预设范围可以为0.3-0.5。

在一个实施例中，可以显示多个(例如，可以为不大于10个)备选图像区域集合包含的目标图像区域的图像画面，进而，用户可以根据显示的图像画面，对每一备选图像区域集合进行标注。进而，可以获取用户对备选图像区域集合进行标注的标签，作为备选图像区域集合包含的目标图像区域的硬标签。由于硬标签为用户标注的标签，因此，基于硬标签进行训练，能够提高目标检测模型的精确度。

可以理解的是，由于每一备选图像区域集合包含的目标图像区域之间的相似度较大，因此，用户只需要对每一备选图像区域集合标注标签即可，该标签可以作为该备选图像区域集合包含的所有目标图像区域的标签，使得用户并不需要对备选图像区域集合包含的每一目标图像区域进行标注，进而，能够在提高目标检测模型的检测精确度的前提下，降低用户标注的成本。

在一个实施例中，还提供了一种目标检测方法，可以获取待检测图像，采用上述实施例中的目标检测模型训练方法，获取当前检测场景的目标检测模型；将待检测图像输入至当前检测场景的目标检测模型，得到待检测图像的检测结果。

本申请实施例提供的目标检测方法，通过聚类分析，将目标图像区域划分为不同的图像区域集合，将每一图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签，能够对各目标图像区域的置信度进行矫正，提高目标图像区域的软标签的准确度，进而，基于目标图像区域的软标签训练得到的当前检测场景的目标检测模型，能够准确地检测出图像中的预设对象，且本申请实施例中的第一样本图像并不需要标注，因此，能够降低检测的成本，提高检测的效率。

在一个实施例中，检测结果可以包括以下至少一项：表示待检测图像中是否包含预设对象的标识、待检测图像中各图像区域包含预设对象的概率、各图像区域的位置信息。

在一个实施例中，目标检测模型用于对预设对象进行检测。具体的，通过设置目标检测模型的输出不同的参数，可以使得目标检测模型输出待检测图像中各图像区域包含预设对象的概率；也可以输出表示待检测图像是否包含预设对象的标识；还可以输出待检测图像中包含预设对象的图像区域的位置信息。

另外，如果预设对象为多个，则针对每一预设对象，可以得到待检测图像中各图像区域包含该预设对象的概率、表示待检测图像是否包含该预设对象的标识，以及待检测图像中包含该预设对象的图像区域的位置信息。

一种方式中，针对待检测图像中的每一图像区域，可以确定该图像区域包含预设对象的概率，也就是说，一个待检测图像可以对应多个概率，一个概率与该待检测图像中的一个图像区域对应。

若其中一个概率大于预设概率阈值，表明对应的图像区域包含预设对象，也就是说，该待检测图像包含预设对象。若多个概率均不大于预设概率阈值，表明各个图像区域均不包含预设对象，也就是说，该待检测图像不包含预设对象。

另外，还可以确定出包含预设对象的图像区域的位置信息。例如，可以确定包含预设对象的图像区域的最小外接矩形框顶点的坐标。

可以理解的是，目标检测模型输出的检测结果并不限于上述实施例中所示的数据，通过设置目标检测模型的输出参数，还可以得到其他不同类型的检测结果。例如，还可以得到待检测图像中包含预设对象的图像区域的数目、待检测图像中包含预设对象的图像区域的图像画面等。

示例性的，当前检测场景需要对商场入口处的监控图像进行检测，则可以获取预先训练的，用于检测公园入口处的监控图像中的人物的网络模型(即基线检测模型)。该基线检测模型为基于公园入口处的样本图像(即第二样本图像)进行训练得到的。第二样本图像可以具有表示该第二样本图像中的图像区域包含人物的概率的标签，以及表示各图像区域的位置信息的标签。也就是说，基于该基线检测模型可以确定出图像中的图像区域包含人物的概率。

然后，可以基于上述基线检测模型，对商场入口处的未标注标签的各样本图像(即第一样本图像)进行检测，得到各第一样本图像中各图像区域包含人物的概率，并确定出包含人物的概率大于第一预设阈值的图像区域(即目标图像区域)。第一预设阈值可以为一个较小的值。例如，第一预设阈值可以为0.1。

由于该基线检测模型为基于公园入口处的第二样本图像进行训练得到的，第二样本图像与商场入口处的监控图像的差异较大，因此，该基线检测模型并不能很好的适用于商场入口处的检测场景，导致确定出的目标图像区域中存在包含人物的图像区域，也可能存在包含非人物(例如，动物)的图像区域。

因此，可以基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。例如，可以将包含动物的目标图像区域划分为一个图像区域集合，将包含人物的目标图像区域划分为一个图像区域集合。

然后，针对每一图像区域集合，可以确定该图像区域集合包含的各目标图像区域包含人物的概率的平均值，作为该图像区域集合包含的各目标图像区域的软标签。例如，包含动物的目标图像区域构成的图像区域集合中，确定出的大多数目标图像区域包含人物的概率较小(例如，为0.2或者0.3)，只有少数的目标图像区域包含人物的概率较大(例如，为0.8或者0.9)，因此，该目标图像区域集合中各个目标图像区域包含人物的概率的平均值，可以维持在小于0.5的范围内，即，使得包含非人物的目标图像区域的软标签的数值较小，包含人物的目标图像区域的软标签的数值较大，也就能够去除异常数值，提高软标签的准确度。

进而，可以基于第一样本图像中的目标图像区域的软标签，对上述基线检测模型进行训练，即，基于目标图像区域的软标签，对基线检测模型的参数进行调整，使得基线检测模型能够学习到目标图像区域与软标签的关系。

相应的，可以基于训练后的基线检测模型对商场入口处的监控图像进行检测，可以得到监控图像中各图像区域包含人物的概率，以及各图像区域的位置信息。

在一个实施例中，参见图5，图5为本申请实施例提供的一种目标检测模型训练方法的原理示意图。

聚类分析：基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合，即聚类信息。

其中，第一样本图像为当前检测场景的未标注标签的样本图像。目标图像区域为基线检测模型确定出的各第一样本图像中置信度大于第一预设阈值的图像区域，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率，基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测预设对象的网络模型。

数据采集：获取第一样本图像中目标图像区域的位置信息。

计算置信度的平均值：针对每一图像区域集合，计算该图像区域集合包含的目标图像区域的置信度的平均值。

生成伪标签：针对每一图像区域集合，将该图像区域集合包含的目标图像区域的置信度的平均值，作为该图像区域集合包含的目标图像区域的软标签(即伪标签)。

训练模块：针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

基于相同的发明构思，本申请实施例还提供了一种目标检测模型训练装置，参见图6，图6为本申请实施例提供的一种目标检测模型训练装置的结构图，该装置可以包括：

第一样本图像获取模块601，用于获取当前检测场景的未标注标签的第一样本图像；

目标图像区域确定模块602，用于基于基线检测模型对各第一样本图像进行检测，确定各第一样本图像中置信度大于第一预设阈值的目标图像区域；其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；所述基线检测模型为：基于当前检测场景以外的其他检测场景的第二样本图像进行训练得到的，用于检测所述预设对象的网络模型；

聚类模块603，用于基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合；

软标签计算模块604，用于针对每一图像区域集合，基于该图像区域集合包含的目标图像区域的置信度，计算该图像区域集合的置信度，作为该图像区域集合包含的目标图像区域的软标签；

模型训练模块605，用于针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述模型训练模块605，具体用于针对各第一样本图像中的每一目标图像区域，将该目标图像区域的软标签，作为该目标图像区域的真实标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型。

可选的，所述模型训练模块605，包括：

可选的，所述聚类模块603，具体用于基于各第一样本图像中目标图像区域的图像特征，按照K-means聚合算法，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合。

基于相同的发明构思，本申请实施例还提供了一种目标检测装置，该装置可以包括：

待检测图像获取模块，用于获取待检测图像；

检测模块，用于将所述待检测图像输入至当前检测场景的目标检测模型，得到所述待检测图像的检测结果；其中，所述目标检测模型为采用上述实施例中的目标检测模型训练方法获取的。

可选的，所述检测结果包括以下至少一项：表示所述待检测图像中是否包含预设对象的标识、所述待检测图像中各图像区域包含预设对象的概率、所述待检测图像中包含预设对象的图像区域的位置信息，以及所述待检测图像中包含预设对象的图像区域的图像画面。

本申请实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述实施例中的目标检测模型训练方法，或者，目标检测方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例提供的目标检测模型训练方法，或者，目标检测方法。

本申请实施例还提供了另一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请实施例提供的目标检测模型训练方法，或者，目标检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种目标检测模型训练方法，其特征在于，所述方法包括：

获取当前检测场景的未标注标签的第一样本图像；

2.根据权利要求1所述的方法，其特征在于，所述针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述针对各第一样本图像中的每一目标图像区域，根据该目标图像区域的软标签，对所述基线检测模型进行模型训练，得到当前检测场景的目标检测模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述基线检测模型为快速区域卷积神经网络模型或YOLO模型。

5.根据权利要求1所述的方法，其特征在于，所述基于各第一样本图像中目标图像区域的图像特征，对各第一样本图像中的目标图像区域进行聚类，得到多个图像区域集合，包括：

6.根据权利要求1所述的方法，其特征在于，该图像区域集合的置信度用于表示该图像区域集合包含的目标图像区域的置信度的平均水平。

7.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入至当前检测场景的目标检测模型，得到所述待检测图像的检测结果；其中，所述目标检测模型为采用权利要求1至6任一项所述的目标检测模型训练方法获取的。

8.根据权利要求7所述的方法，其特征在于，所述检测结果包括以下至少一项：表示所述待检测图像中是否包含预设对象的标识、所述待检测图像中各图像区域包含预设对象的概率、所述各图像区域的位置信息。

9.一种目标检测模型训练装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，该图像区域集合的置信度用于表示该图像区域集合包含的目标图像区域的置信度的平均水平。

11.一种目标检测装置，其特征在于，所述装置包括：

待检测图像获取模块，用于获取待检测图像；

12.根据权利要求11所述的装置，其特征在于，所述检测结果包括以下至少一项：表示所述待检测图像中是否包含预设对象的标识、所述待检测图像中各图像区域包含预设对象的概率、所述各图像区域的位置信息。