CN112418268A

CN112418268A - 目标检测方法、装置及电子设备

Info

Publication number: CN112418268A
Application number: CN202011143452.7A
Authority: CN
Inventors: 王剑锋
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-02-26
Anticipated expiration: 2040-10-22
Also published as: WO2022083157A1

Abstract

本申请实施例提供一种目标检测方法、装置及电子设备，其中，该方法包括获取待检测图像和将待检测图像输入目标检测模型，得到目标检测结果；该目标检测结果包括目标对应的包围框的位置和分数。上述目标检测模型的训练过程为：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；获取教师网络模型对该图像样本的教师模型检测结果；根据所述教师模型检测结果确定所述图像样本的标签分配信息，并根据该标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；基于损失函数值调整学生网络模型的参数继续训练，直至得到目标检测模型。本申请提升了目标检测模型的性能和训练效率。

Description

目标检测方法、装置及电子设备

技术领域

本发明涉及模型训练技术领域，尤其是涉及一种目标检测方法、装置及电子设备。

背景技术

目标检测是计算机视觉的一个基础任务，它是在一张图片中找到用户感兴趣的目标，并输出它们的类别和位置，位置可用包围框进行表示。目前常见的目标检测方法都基于神经网络实现的，神经网络输出的特征图上的每个位置都会输出一个结果，因而这些方法在训练过程中都包含了一个被称为标签分配的过程，该过程决定了在训练时，神经网络的特征图上的每个位置的学习目标。换言之，在训练过程中，一个训练样本(一张图片)上有n个目标(物体)，标签分配过程指定了神经网络的特征图上的每个位置是学习正样本(前景)还是负样本(背景)，如果是学习正样本，则从n个目标中选择1个作为该位置的正样本。这一标签分配的过程通常都是人工设计的规则，由于人工设计的规则带有一定的主观性，导致这种标签分配方式下训练出的网络模型的性能不佳，影响目标检测的可靠性。

发明内容

有鉴于此，本发明的目的在于提供一种目标检测方法、装置及电子设备，以优化学生网络模型的训练过程，进而提升学生网络模型的性能和该模型的检测可靠性。

第一方面，本发明实施例提供了一种目标检测方法，该方法包括：获取待检测图像；将待检测图像输入目标检测模型，得到目标检测结果；目标检测结果包括目标对应的包围框的位置和分数；其中，目标检测模型通过如下方式训练：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，学生模型检测结果包括与第一特征图的每个像素点对应的第一基准位置的分数和第一基准位置对应的坐标信息；获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与图像样本的第二特征图的每个像素点对应的第二基准位置的分数和第二基准位置对应的坐标信息；其中，第一特征图和第二特征图的基准位置数和/或位置点均相同；根据教师模型检测结果确定图像样本的标签分配信息；根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；将训练好的学生网络模型作为目标检测模型。

其中，根据教师模型检测结果确定标签分配信息的步骤，包括：对于每个第二基准位置，分别计算该第二基准位置与图像样本的每个目标真值框的交叠比，得到矩阵IoU：

其中，i取值[1,N]，j取值[1,A]，N为标注真值框的个数，A为第二特征图包括的第二基准位置的个数；基于第二基准位置与每个目标真值框的交叠比和第二基准位置的分数，确定第二基准位置对于每个目标真值框对应目标的预测质量；其中，预测质量用于表征该第二基准位置检测出的是该目标真值框对应目标的概率大小；基于每个第二基准位置对于每个目标真值框对应目标的预测质量确定每个第一基准位置的标签分配信息。

上述基于第二基准位置对应的第二预测框与每个目标真值框的交叠比和第二基准位置的分数，确定每个第二基准位置对于每个目标真值框对应目标的预测质量的步骤，包括：

利用公式q_ij＝(s_j)^1-α*(IoU_ij)^α计算每个第二基准位置对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_j为第j个第二基准位置的分数，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

上述图像样本还标注有各目标真值框对应的目标类型；基于第二基准位置对应的第二预测框与每个目标真值框的交叠比和第二基准位置的分数，确定每个第二基准位置对于每个目标真值框对应目标的预测质量的步骤，包括：利用公式q_ij＝(s_ij)^1-α*(IoU_ij)^α计算每个第二基准位置对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_ij为第j个第二基准位置的分数中对应于当前目标类型的分数，当前目标类型是指第i个目标真值框对应的目标类型，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

上述基于每个第二基准位置对于每个目标真值框对应目标的预测质量确定每个第一基准位置的标签分配信息的步骤，包括：对于每个第二基准位置，均从该第二基准位置对于每个目标真值框对应目标的预测质量中选择最大预测质量；判断最大预测质量是否大于或等于第一预设质量值；如果是，为第二基准位置分配最大预测质量对应的目标的正样本标签。

上述基于每个第二基准位置对于每个目标真值框对应目标的预测质量确定第一基准位置的标签分配信息的步骤，包括：对于预测质量矩阵中的第j列，均从该列元素中选择出值最大的元素q_mj；

如果q_mj大于t_p，设置q_mj对应的标签分配矩阵中的元素X_mj等于第一值；对于第j列中除q_mj以外的元素q_ij，如果q_ij小于t_n，设置q_ij对应的标签分配矩阵中的元素X_ij等于第二值；如果q_ij小于或等于t_p，且大于或等于t_n，设置q_ij对应的X_ij等于第三值；

如果q_mj小于t_n，设置标签分配矩阵中的第j列中的元素X_ij等于第二值；

如果q_mj小于或等于t_p，且大于或等于t_n，设置q_mj对应标签分配矩阵中的元素X_mj等于第三值；对于第j列中除q_mj以外的元素q_ij，如果q_ij小于t_n，设置q_ij对应标签分配矩阵中的元素X_ij等于第二值；如果q_ij小于或等于t_p，且大于或等于t_n，设置q_ij对应标签分配矩阵中的元素X_ij等于第三值；

其中，t_p>t_n，t_p和t_n分别为预设阈值，第一值表示正样本，第二值表示负样本，第三值表示忽略样本。

上述基于每个第二基准位置对于每个目标真值框对应目标的预测质量确定每个第一基准位置的标签分配信息的步骤，包括：对于预测质量矩阵中的第i行，均从该行元素中选择出大于t_p的目标元素q_im，设置标签分配初始矩阵中第i行中与目标元素对应的元素X_im为第一值；其中，q_im均大于该行元素中未被选择的其它元素q_iu；

对于第i行中除q_im以外的元素q_iu，如果q_iu小于或等于t_p，且大于或等于t_n，设置q_iu对应标签分配初始矩阵的元素X_iu等于第三值；如果q_iu小于t_n，设置q_iu对应标签分配初始矩阵的元素X_iu等于第二值；

检查标签分配初始矩阵中的第j列的元素是否存在冲突元素；其中，冲突元素为2个以上，且元素均为第一值；如果存在冲突元素，在预测质量矩阵中获取冲突元素对应的预测质量，保留冲突元素中预测质量最大元素为第一值，其余元素修改为第三值，得到标签分配矩阵；其中，其中，t_p>t_n，t_p和t_n分别为预设阈值，第一值表示正样本，第二值表示负样本，第三值表示忽略样本。

上述根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值的步骤，包括：对于第一特征图中每个像素点对应的每个第一基准位置，均执行以下步骤：确定第一基准位置对应的第二基准位置；基于第一基准位置对应的第一基准位置的标签分配信息，确定第一基准位置的目标真值框；基于第一基准位置的目标真值框和第一基准位置的分数计算分类损失函数值和回归损失函数值；基于各个第一基准位置的分类损失函数值和回归损失函数值确定学生网络模型的损失函数值。

第二方面，本发明实施例还提供一种目标检测装置，其中，该装置包括：图像获取模块，用于获取待检测图像；目标检测模块，用于将待检测图像输入目标检测模型，得到目标检测结果；目标检测结果包括目标对应的包围框的位置和分数；其中，目标检测模型通过如下方式训练：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，学生模型检测结果包括与第一特征图的每个像素点对应的第一基准位置的分数和位置坐标；获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与图像样本的第二特征图的每个像素点对应的第二基准位置的分数和位置坐标；其中，第一特征图和第二特征图的基准位置数相同；根据教师模型检测结果确定图像样本的标签分配信息；根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；将训练好的学生网络模型作为目标检测模型。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述的方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述的方法的步骤。

本发明实施例带来了以下有益效果：

本申请实施例提供一种目标检测方法、装置及电子设备，其中，用于检测图像的目标检测模型的训练过程为：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；获取教师网络模型对该图像样本的教师模型检测结果；其中，该教师网络模型为预先训练好的模型，上述教师模型检测结果包括该图像样本对应的第二特征图中每个像素对应的第二基准位置的分数和第二基准位置对应的坐标信息；根据上述教师模型检测结果确定图像样本的标签分配信息，根据该标签分配信息和第一特征图对应的学生模型检测结果计算学生网络模型的损失函数值，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型，将该训练好了学生网络模型作为目标检测模型，这种训练过程的标签分配方式更客观化和合理化，使得训练得到的目标检测模型的可靠性更高，进而提升了目标检测的准确率，相比于人工设计的标签分配方法，本实施例标签分配方式更为高效，且有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，该标签分配方式可适配基于锚框和非基于锚框的网络，比针对某种网络设计的标签分配方法更有普适性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的结构示意图；

图2为本发明实施例提供的一种目标检测方法的流程图；

图3为本发明实施例提供的一种目标检测模型的训练方法的流程图；

图4为本发明实施例提供的基于锚框技术中的基准位置示意图；

图5为本发明实施例提供的基于非锚框技术的基准位置示意图；

图6为本发明实施例提供的另一种目标检测模型的训练方法的流程图；

图7为本发明实施例提供的另一种目标检测模型的训练方法的流程图；

图8为本发明实施例提供的另一种目标检测模型的训练方法的流程图；

图9为本发明实施例提供的一种目标检测模型训练流程图；

图10为本发明实施例提供的一种目标检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

知识蒸馏是指在训练过程中，用一个(可能更深或更复杂)的神经网络指导另一个(可能较浅或更简单的)神经网络的方法。其中前者被成为教师网络模型，后者被称为学生网络模型。

在实现本发明的过程中，发明人通过研究发现，如果教师网络模型的特征图上的某个位置对于某个目标的检测结果比较好，则学生网络模型的对应位置对于该目标的检测结果大概率会比较好，因而将该目标的标签分配给这个位置，再对学生网络模型进行训练会更合理，使用这种训练方式得到的学生网络模型进行目标检测的可靠性更高。基于此，本发明实施例提供了一种目标检测方法、装置及电子设备，该技术中，引入已经训练好的教师网络模型对学生网络模型的训练样本进行预测，进而确定该样本的标签分配信息，基于这些信息完成学生网络模型的训练，以提升学生网络模型的性能，进而提高应用该学生网络模型进行目标检测的可靠性。下面通过实施例进行描述。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及一个或多个图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子设备100中的其它组件的数据进行处理，还可以控制电子设备100中的其它组件以执行目标检测功能。

存储器104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集装置110可以获取训练样本集，并且将采集到的训练样本集存储在存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标检测方法和装置的电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体，而将图像采集装置110设置于可以采集到样本的指定位置。当上述电子设备中的各器件集成设置时，该电子设备可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

本实施例提供了一种目标检测方法，参见图2所示的一种目标检测方法的流程图，该方法具体包括如下步骤：

步骤S202，获取待检测图像；

本实施例中，待检测图像可以是通过图像采集设备采集得到的图像，图像采集设备可以根据检测需要，设置在客运站(如地铁或高铁)的候车大厅中进行人脸图像或人体图像采集；图像采集设备也可以根据检测需要，设置在交通路口或者道路两侧进行车辆图像的采集。上述待检测图像还可以从第三方设备(如云服务器等)获取。

上述待检测图像除了是针对人体、人脸或车辆等目标对象的图像之外，也可以为针对其他类型的目标对象对应的图像，本发明实施例对此不进行限定。

步骤S204，将待检测图像输入目标检测模型，得到目标检测结果；该目标检测结果包括目标对应的包围框的位置和分数。

目标检测模型可以是针对某一特定类型目标的检测模型，也可以是针对多个不同类型目标的检测模型，将待检测图像输入目标检测模型后，目标检测模型对待检测图像进行目标检测，如果带检测图像包含有检测模型能够检测类型的目标，通过目标检测模型将可以得到与属于该类型的各目标对应的包围框和对应的分数，其中包围框对应的分数表示该包围框对应目标属于该类型目标的置信度。

参见图3所示的目标检测模型的训练方法的流程图，上述目标检测模型通过如下方式训练：

步骤S302，将图像样本集中的图像样本输入学生网络模型，得到与该图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，该学生模型检测结果包括与第一特征图的每个像素点对应的第一基准位置的分数和第一基准位置对应的坐标信息；其中，该第一基准位置包括第一锚框或第一位置点；

本发明实施例中提到的基准位置(包括上述第一基准位置和后面提到的第二基准位置)可以是基于锚框技术(anchor-based)中，特征图上各个锚点(也即像素点)对应的锚框。其中，每个锚点对应一个或多个锚框，每个锚框对应一个预测框。该方式下，上述第一基准位置对应的坐标信息为第一锚框与第一锚框对应的第一预测框间的坐标偏移量，即第一预测框相对于第一锚框的位置，由第一锚框的坐标和该坐标偏移量可以确定出第一预测框的坐标。

本发明实施例中提到的基准位置(包括上述第一基准位置和后面提到的第二基准位置)可以是基于非锚框技术(anchor-free)中，特征图上每个像素点对应一个或多个位置点(通常是一个)。其中，每个位置点对应有一个预测框，该位置点即可以视为基准位置，这种方式下，上述第一基准位置对应的坐标信息为该位置点的第一预测框相对于该位置点的坐标偏移量，由位置点的坐标和该坐标偏移量可以确定出第一预测框的坐标。

为了便于进一步理解上述基准位置，参见图4所示的基于锚框技术中的基准位置示意图和图5所示的基于非锚框技术的基准位置示意图，其中，图4中的虚线框中间的实线小框代表锚框，锚框中间的小点代表锚点，虚线框代表该锚框对应的预测框。锚框对应的坐标信息是虚线框和锚框的相对位置，如图4中箭头的示意出的锚框与预测框间的相对位置关系。图5中的虚线框中间的小点代表位置点，该位置点可以视为图4中的一个基准位置，虚线框代表该位置点对应的预测框，则上述第一基准位置对应的坐标信息是图5中虚线框相对于图5中的位置点的位置，如图5中箭头的示意出的位置点与预测框间的相对位置关系。

本发明实施例中的教师网络模型和学生网络模型，可以两个都基于锚框技术，或者，可以一个基于锚框技术，而另一个基于非锚框技术，也可以两个都基于非锚框技术，只要二者的基准位置数(即锚框数/位置点数)相同即可。

通常，锚框、预测框和包围框的坐标用框的左上角和右下角两点的坐标表示。比如，以图4所示的锚框作为第一基准位置为例，为了描述方便，将第一基准位置称为第一锚框，如果以特征图左上角的点作为坐标原点，水平向右方向为横坐标轴(X轴)的正向，竖直向下的方向为纵坐标轴(Y轴)正向；第一锚框表示为：[a1(x_a1,y_a1),b1(x_b1,y_b1)]，其中，a1代表第一锚框的左上角位置点的坐标，b1代表第一锚框的右下角位置点的坐标，第一锚框对应的第一预测框用A1和B1两点的坐标表示，假设Δx_a1表示左上角位置点a1和A1间的横坐标偏移量，Δy_a1表示左上角位置点a1和A1间的纵坐标偏移量，Δx_b1表示右上角位置点b1和B1间的横坐标偏移量，Δy_b1表示右上角位置点b1和B1间的纵坐标偏移量，则第一锚框对应的坐标信息表示为[a1(Δx_a1,Δy_a1),b1(Δx_b1,Δy_b1)]，由第一锚框自身的坐标和对应锚框对应的坐标信息即可确定出第一锚框对应的第一预测框的坐标为：[A1(x_a1-Δx_a1,y_a1-Δy_a1),B1(x_b1+Δx_b1,y_b1+Δy_b1)]。

对于图5所示的基于非锚框技术下的坐标变换方式与上述图4类似，只是第一基准位置为一个位置点，基于该位置点确定出的第一预测框用左上角和右下角两点的坐标表示，则第一基准位置对应的坐标信息为第一预测框左上角与该位置点的坐标偏移量，以及第一预测框右下角与该坐标点的坐标偏移量。

该图像样本集可以为预先从网络或其它存储设备上获取的图像集合，也可以为通过电子设备的采集装置采集到的图像并经人工标注后构成的样本集；

在将图像样本集中的图像样本输入学生网络模型中之前，上述图像样本集已经标注了目标的真值框，标注目标真值框的目的是为了框出图像样本中所包含的目标，比如，图像样本中包括行人、机动车、非机动车或人脸等信息，在本实施例中，以包围框的形式一一将人脸、行人、机动车和非机动车进行目标真值框的标注。在实际使用时，为了区分图像样本中不同类型的目标，可利用不同颜色的目标真值框对不同类型的目标进行标注，或者用不同的类别标签标注，如用1表示人脸框，3表示机动车框，5表示非机动车框等，在此不进行限定。

上述目标检测模型除了针对不同类型目标的检测之外，还可以仅针对同一类型的目标进行检测，例如目标检测模型仅检测行人、机动车、非机动车或人脸等类型的目标中的一种，则目标真值框仅将图像样本中该类型的目标框出来。

通过上述目标真值框，不仅可以表明图像样本中包含了哪些目标、目标属于何种类型，而且还能够获得该目标在图像样本中的位置坐标。

图像样本经过学生网络模型的目标检测处理后输出上述第一特征图，第一特征图的数量由模型设计决定，可以有多个，每个第一特征图可以包括C*H*W个像素，其中，C为特征图通道数，H为特征图的长度，W为特征图的宽。该第一特征图中每个像素点对应的基准位置(每个像素点可以对应一个或多个锚框，或者每个像素点对应一个或多个位置点)均以第一基准位置表示。学生网络模型通过对图像样本进行目标检测，能够获取第一特征图的每个像素点对应的第一基准位置对应的分数和第一基准位置对应的坐标信息。

如果学生网络模型被训练为检测多种类型的目标，则某个第一基准位置的分数为分别对应于多种类型的多个分数，多个分数中对应某个类型的分数表示该第一基准位置检出的目标属于该类型的分类概率值。

例如：学生网络模型被训练用于检测4种类型的目标，学生网络模型为基于锚框技术的网络模型，参见表1所示的学生检测结果中第一特征图的每个像素点对应的第一锚框的分数的示例：

表1

其中，第一锚框1至第一锚框4为第一特征图中X个像素点(X小于等于4)分别对应的锚框，对于每一个锚框，对应人脸、人体、机动车辆和车牌的分数(即分类概率分数，或者简称为分数或概率分数)如表1所示，根据表1所示分数可知，第一锚框1检出的目标属于人体类型的可能性比较大，而第一锚框2检出的目标属于机动车辆类型的可能性比较大，第一锚框3检出的目标属于人脸类型1的可能比较大，第一锚框4检出的目标属于车牌类型的可能性较大。

步骤S304，获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与上述图像样本的第二特征图的每个像素点对应的第二基准位置的分数和第二基准位置对应的坐标信息；其中，第一特征图和第二特征图的基准位置数相同，例如均为C*H*W，其中，每个特征图上有H*W个位置，第二特征图的通道数为C。

上述第二基准位置包括第二锚框或第二位置点。上述第二基准位置的分数同样为教师网络模型进行预测时输出的第二基准位置检出的目标属于各类型的分类概率值，该分数越大表明该第二基准位置检出的目标更有可能属于该类型。

第二基准位置对应的坐标信息同第一基准位置对应的坐标信息类似，第二基准位置对应的坐标信息为第二基准位置与该第二基准位置对应的第二预测框间的坐标偏移量，基于第二基准位置的坐标和该坐标偏移量可以确定出第二基准位置对应的第二预测框的坐标。

教师网络模型为利用上述图像样本集或其它训练图像样本集预先训练好的神经网络模型，其中，利用教师网络模型对上述图像样本进行预测输出第二特征图，第二特征图中每个像素点对应的基准位置均以第二基准位置表示，第二基准位置与第一基准位置一一对应。

教师网络模型和学生网络模型可以是基于锚框进行目标检测的网络模型，该方式下，学生网络模型得到的第一特征图和通过教师网络模型得到的第二特征图的锚框数均相同。教师网络模型和学生网络模型也可以是不基于锚框进行目标检测的网络模型，该方式下，学生网络模型得到的第一特征图和通过教师网络模型得到的第二特征图的位置点数均相同。或者，教师网络模型和学生网络模型可以一个是基于锚框进行目标检测的网络模型，另一个为不基于锚框进行目标检测的网络模型，则其中一者的锚框数和另一者的位置点数相同。

步骤S306，根据教师模型检测结果确定图像样本的标签分配信息；

因为教师网络模型为预先训练好的模型，第二基准位置的分数可以反映出该第二基准位置包含的目标属于每个目标类型的概率大小，同时，因为图像样本中标注有目标真值框，而基于目标真值框与第二基准位置对应的预测框的交叠比可确定出该第二基准位置具体为哪个具体目标的可能性大小，进而基于这些信息可以确定出第二基准位置所对应的目标，即第二基准位置对应的标签。而第一基准位置与第二基准位置一一对应，第二基准位置对应的标签即为第一基准位置对应的标签。

比如，以教师网络模型为基于锚框的神经网络模型为例，图像样本上有2个目标真值框，分别为目标1对应的目标真值框1和目标2对应的目标真值框2。第二特征图有100个第二锚框，则根据第二锚框对应每类目标的分数和坐标信息，以及目标真值框1和目标真值框2可以确定出目标1和目标2应分配给100个第二锚框中的哪几个，即哪几个第二锚框检出了目标1(为目标1的正样本)或目标2(为目标2的正样本)。

因为第一特征图和第二特征图对应的基准位置数相同，第二基准位置与第一基准位置位置一一对应，因此第一基准位置的标签分配信息可以基于第二基准位置对目标的检出情况确定。若第一基准位置对应的第二基准位置检出了某个目标，则第一基准位置相对于该目标的标签为正样本，若第一基准位置对应的第二基准位置未检出某个目标，则第一基准位置相对于该目标的标签为负样本，若不关心(因不想用这个样本带来的损失进行梯度反传)或不确定第一基准位置对应的第二基准位置是否检出某个目标，则第一基准位置相对于该目标的标签为忽略样本。

上述标签分配信息具体用于表征第一基准位置对应每个目标的样本类型，样本类型包括正样本和负样本。或者，样本类型包括正样本、负样本和忽略样本。上述正样本可以用1表示，负样本可以用0表示，忽略样本可以用-1表示。正样本表示该第一基准位置应该检出该目标，负样本表示该第一基准位置不该检出该目标，忽略样本表示不关心或不确定该第一基准位置是否应该检出该目标，它带来的梯度不反传。

假设图像样本上标注真值框的数量为N个(即有N个目标)，第二特征图上的第二基准位置的总数为A个(即有A个锚框)。比如，图像样本是(3，H，W)的矩阵，经过教师网络模型的多次卷积后，生成了M个特征图，每个特征图可以表示为(C，Hv，Wv)的矩阵，其中，v为特征图标识，C为每个特征图对应的通道数，当特征图的每个位置对应一个锚框时，每个特征图上有Hv×Wv个锚框，A是所有第二特征图上的锚框总数，即

经上述分析，基于教师模型检测结果确定出的图像样本的标签分配信息的结果可以表示为一个N×A的矩阵，且每一列只有至多一个1，即每个第二锚框至多分配到一个目标，也可以不分配目标(成为负样本或忽略样本)，每一行可以有任意个1，即一个目标可以被分配给一个或多个第二锚框，也可以不分配给任何第二锚框。

下面可用标签分配信息矩阵X进行表示：

其中，X_ij取值为0，1或-1，其中，1为正样本标签对应的值，0为负样本标签对应的值，-1为忽略样本标签对应的值；i的取值为1到N之间的正整数，j的取值为1到A之间的正整数。

具体实现时，根据教师网络模型的检测结果得出在上述矩阵中每个位置对应的标签分配信息。

步骤S308，根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；

本实施例中的学生网络模型训练过程中的损失函数值不单单依赖于学生网络模型自身输出的检测结果，还基于教师网络模型检测结果确定出的标签分配信息，通过基于教师网络模型的检测结果能够较准确的进行标签分配，可有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，使得该损失函数值的计算更准确，为学生网络模型的参数调整提供了可靠的数据。

具体地，学生网络模型的损失函数值是基于学生网络模型的损失函数以及第一特征图中每个像素对应的第一基准位置的分数和上述标签分配信息计算得到的值。

步骤S310，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；

步骤S312，将训练好的学生网络模型作为目标检测模型。

本申请实施例提供一种目标检测方法，其中，用于检测图像的目标检测模型的训练过程为：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；获取教师网络模型对该图像样本的教师模型检测结果；其中，该教师网络模型为预先训练好的模型，上述教师模型检测结果包括该图像样本对应的第二特征图中每个像素对应的第二基准位置的分数和第二基准位置对应的坐标信息；根据教师模型检测结果确定图像样本的标签分配信息，以及根据该标签分配信息和学生模型检测结果计算学生网络模型的损失函数值，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型，将该训练好了学生网络模型作为目标检测模型，这种训练过程的标签分配方式更客观化和合理化，使得训练得到的目标检测模型的可靠性更高，进而提升了目标检测的准确率，相比于人工设计的标签分配方法，本实施例标签分配方式更为高效，且有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，该标签分配方式可适配基于锚框和非基于锚框的网络，比针对某种网络设计的标签分配方法更有普适性。

本实施例提供了另一种目标检测模型的训练方法，该方法在上述实施例的基础上实现；本实施例重点描述确定图像样本的标签分配信息的具体实施方式，以学生网络模型和教师网络模型均为基于锚框技术的网络模型为例，如图6所示的另一种目标检测模型的训练方法的流程图，本实施例中的学生网络模型的训练方法包括如下步骤：

步骤S602，将图像样本集中的图像样本输入学生网络模型，得到与该图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，该学生模型检测结果包括与第一特征图的每个像素点对应的第一锚框的分数和该第一锚框对应的坐标信息；

步骤S604，获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与上述图像样本的第二特征图的每个像素点对应的第二锚框的分数和该第二锚框对应的坐标信息；

利用教师网络模型能够得出第二锚框对应的分数，其中，该分数为教师网络模型进行目标检测时输出的每个第二锚框对应每个目标的概率值。

步骤S606，对于每个第二锚框，分别计算该第二锚框对应的第二预测框与图像样本的每个目标真值框的交叠比，得到矩阵IoU；

其中，i取值[1,N]，j取值[1,A]，N为标注真值框的个数，A为第二特征图包括的第二锚框的个数。

上述交叠比即为IoU(Intersection over Union)，表示两个框面积的重叠度，通常，交叠比的取值为[0,1]，当第二预测框与人工标注的目标真值框完全没有重合时，其交叠比为0，当第二预测框与人工标注的目标真值框完全重合时，其交叠比为1，其余情况交叠比是介于0和1之间的任意浮点数。

步骤S608，基于第二锚框对应的第二预测框与每个目标真值框的交叠比和第二锚框的分数，确定第二锚框对于每个目标真值框对应目标的预测质量；其中，预测质量用于表征第二锚框检测出的是该目标真值框对应目标的概率大小；

对于教师网络模型得到的第二锚框中的任意一个第二锚框，计算该第二锚框对应的第二预测框与图像样本的每个目标真值框计算交叠比，可得到一N×1的交叠比矩阵，其中，交叠比的计算公式为：

其中，IoU_i为第二锚框对应的第二预测框与第i个目标真值框的交叠比，i为正整数，其取值为[1,N]，N为目标真值框对应的目标数。pred boxe表示第二锚框，gt boxe_i表示第i个目标真值框。

在本实施例中，对于学生网络被训练为只检测一种类型的目标如仅检测人脸这一类型的目标的场景，图像样本中可以包含一个或多个人脸，每个人脸对应一个目标真值框，这种场景下，第二锚框的分数s_j为一个数值。可以利用公式q_ij＝(s_j)^1-α*(IoU_ij)^α计算每个第二锚框对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_j为第j个第二锚框的分数(取值为[0,1])，IoU_ij为第j个第二锚框对应的第二预测框与第i个目标真值框的交叠比(取值为[0,1])，为矩阵IoU中第i行第j列的元素；

对于学生网络被训练为检测多种类型的目标如检测人脸、人体、机动车辆和非机动车辆的场景，图像样本中可以包含人脸、人体、机动车辆和非机动车辆中的任意一种或多种类型的一个或多个目标，每个目标对应一个目标真值框，该场景下，图像样本还标注有各目标真值框对应的目标类型，第二锚框的分数s_ij为对应于学生网络可检测的目标类型一一对应的多个数值。可以利用公式q_ij＝(s_ij)^1-α*(IoU_ij)^α计算每个第二锚框对于每个所述目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_ij为第j个第二锚框的分数中对应于当前目标类型的分数(取值为[0,1])，该当前目标类型是指第i个目标真值框对应的目标类型，IoU_ij为第j个第二锚框对应的第二预测框与第i个目标真值框的交叠比(取值为[0,1])，为矩阵IoU中第i行第j列的元素；

由于上述预测质量既考虑了交叠比又考虑了分数s，即第二锚框对应于目标的置信度分数，客观合理且不依赖于锚框等，通用性好，有利于标签分配信息的确定。

除了可利用交叠比的方法得到预测质量之外，还可以用教师网络模型的第二锚框分数和坐标信息，与每个目标真值框计算损失函数(与学生网络模型计算损失函数的方法一致)，得到第二特征图上每个像素点对应的第二锚框的预测质量q＝e^(-loss_m)，loss_m表示第二特征图上第m个位置的损失函数值。上述仅是给出了两种计算预测质量的方法，在本实施例中，不对计算预测质量的方法进行限定。

步骤S610，基于第二锚框对于每个目标真值框对应目标的预测质量确定第二锚框的标签分配信息；

由于第二锚框与目标真值框的计算可得一N×A的交叠比矩阵，则利用上述计算预测质量的公式，同样得到一N×A的预测质量矩阵，对于每一个第二锚框，基于该预测质量确定标签分配信息的具体实现过程可由步骤A1-步骤A3实现：

步骤A1，从第二锚框对于每个目标真值框对应目标的预测质量选择最大预测质量；

步骤A2，判断最大预测质量是否大于第一预设质量值；

步骤A3，如果是，为第二锚框分配最大预测质量对应目标的正样本标签，而对于该第二锚框对应其它目标的标签，则可以都为负标签，也可以有的为负标签有的为忽略标签。

上述第一预设质量值为根据实际情况进行设置的，在此不进行限定。

在实际使用时，可以基于以下方式分配负标签和忽略标签。当最大预测质量小于第一预设质量值时，判断最大预测质量是否大于第二预设质量值；其中，第一预测质量值大于第二预测质量值；如果是，为第二锚框分配忽略样本标签；如果否，为第二锚框分配负样本标签。这里的忽略样本标签和负样本标签都是针对最大预测质量对应的目标而言的，如果最大预测质量对应的目标为负标签，则第二锚框大概率为背景等场景区域，对应其它目标也为负标签，如果最大预测质量对应的目标为忽略标签，则第二锚框对应其它目标可能为负标签，也可能为忽略标签，对应其它目标的标签还可以基于该第二锚框与其它目标计算出的预测质量、上述第一预测质量值和第二预测质量值确定。

其中，分配的样本标签可以用数值表示，也可以用字母或文字表示，在此不进行限定。

以样本图像包含4个目标，其中，4个目标中的目标1-目标4分别为人脸、机动车、行人和非机动车类型为例进行说明，假设利用教师网络模型预测出图像样本的三个第二锚框，三个第二锚框与每个目标真值框计算出的预测质量用下述矩阵的形式进行表示：

其中，矩阵的第一行表示目标1这一被标注目标真值框的目标分别对应每个第二锚框(例如：第二锚框1、第二锚框2、第二锚框3)的预测质量，矩阵的第二行表示目标2这一被标注目标真值框的目标分别对应三个第二锚框的预测质量，矩阵的第三行表示目标3这一被标注目标真值框的目标分别对应三个第二锚框的预测质量，矩阵的第四行表示目标4这一被标注目标真值框的目标分别对应三个第二锚框的预测质量。

在本实施例中设定第一预设质量值为0.7，第二预设质量值为0.4，由于第一列的最大预测质量0.8大于第一预设质量值，则说明第二锚框1对应的目标是目标1，可为第二锚框1分配目标1的正样本标签和其余目标的负样本标签；由于第二列的最大预测质量0.3小于第二预设质量值，可为第二锚框2分配所有目标的负样本标签；由于第三列的最大预测质量0.5在第一预设质量值和第二预设质量值之间，可为第二锚框3分配目标4的忽略样本标签和其它目标的负样本标签。

步骤S612，根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；

步骤S614，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；

步骤S616，将训练好的学生网络模型作为目标检测模型。

本发明实施例提供的上述目标检测模型的训练方法，能够根据第二锚框对应的第二预测框与每个目标真值框计算交叠比，根据第二锚框对应的第二预测框与每个目标真值框的交叠比和第二锚框的分数，确定第二锚框对于每个目标真值框对应目标的预测质量；并根据预测质量准确得到第二锚框的标签分配信息，根据第二锚框的标签分配信息对第一特征图进行标签分配，使得标签分配客观化和合理化，可有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，进而提升了学生网络模型的性能。

本实施例提供了另一种目标检测模型的训练方法，该方法在上述实施例的基础上实现；本实施例重点描述在多个目标类型应用场景下，确定图像样本的标签分配信息的具体实施方式，以学生网络模型和教师网络模型均为基于锚框技术的网络模型为例，如图7所示的另一种目标检测模型的训练方法的流程图，本实施例中的学生网络模型的训练方法包括如下步骤：

步骤S702，将图像样本集中的图像样本输入学生网络模型，得到与该图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，该学生模型检测结果包括与第一特征图的每个像素点对应的第一锚框的分数和第一锚框对应的坐标信息；

步骤S704，获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与上述图像样本的第二特征图的每个像素点对应的第二锚框的分数和第二锚框对应的坐标信息；

步骤S706，将图像样本的每个目标真值框与每个第二锚框对应的第二预测框计算交叠比，得到矩阵IoU：

其中，i取值[1,N]，j取值[1,A]，N为标注真值框的个数，A为第二特征图包括的第二锚框的个数；本实施例中，图像样本的标注真值框有N个，第二锚框有A个，通过计算每个标注真值框与每个第二锚框对应的第二预测框的交叠比，可得到交叠比矩阵IoU。

步骤S708，计算每个第二锚框对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；

具体地，可利用公式q_ij＝(s_ij)^1-α*(IoU_ij)^α计算每个第二锚框对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q，Q同样为一N×A的矩阵。其中，q_ij取值为[0,1]，表示第j个第二锚框与第i个目标真值框对应目标的预测质量；α为取值在[0,1]区间的预设超参数，s_ij为第j个第二锚框的分数中对应于当前目标类型的分数，所述当前目标类型是指第i个目标真值框对应的目标类型，IoU_ij为第j个第二锚框对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素。

步骤S710，将预测质量矩阵转换为标签分配信息对应的标签分配矩阵X：

其中，X_ij取值为0，1或-1，其中，1为正样本标签对应的值，0为负样本标签对应的值，-1为忽略样本标签对应的值。

具体预测质量矩阵转换为标签分配矩阵的过程可从行和列两个不同的角度进行转换，下面以对预测质量矩阵的列进行转换为例说明，转换的具体过程可通过步骤B1-步骤B4实现：

步骤B1，对于预测质量矩阵中的第j列，均从该列元素中选择出值最大的元素q_mj；

同样以上述得到的预测质量矩阵为

第一预设质量值为0.7，第二预设质量值为0.4为例进行说明，其中，第一列的最大的元素为q₃₁，第二列的最大的元素为q₂₂，第三列的最大的元素为q₄₃。

步骤B2，如果q_mj大于t_p，设置q_mj对应的标签分配矩阵中的元素X_mj等于第一值；对于第j列中除q_mj以外的元素q_ij，如果q_ij小于t_n，设置q_ij对应的X_ij等于第二值；如果q_ij小于或等于t_p，且大于或等于t_n，设置q_ij对应的X_ij等于第三值；

其中，第一值表示正样本，第二值表示负样本，第三值表示忽略样本，在实际使用时，可以用数值1作为正样本的标签，数值0作为负样本的标签，数值-1作为忽略样本的标签，或者，使用其他字符来作为上述样本的标签，在此不进行限定。

接续前例，以t_p为第一预设质量值0.7，t_n为第二预设质量值0.4为例，其中，上述预测质量矩阵中的第一列预测质量中最大元素为q₃₁＝0.8大于第一预设质量值0.7，则将标签分配矩阵与q_mj的对应位置处的X_mj设置为第一值，而对于第一列除q₃₁之外的其它元素q₁₁、q₂₁和q₄₁的预设质量均小于第二预设质量值0.4，则可将标签分配矩阵对应q₁₁、q₂₁和q₄₁位置处的X₁₁、X₂₁和X₄₁设置为第二值；而如果q_ij小于或等于第一预设质量值0.7，且大于或等于第二预设质量值0.4，设置q_ij对应的X_ij等于第三值。

对于第二列和第三列中通过预测质量与预设质量值的比较确定对应位置上标签分配信息的过程同上，在此不进行一一赘述。

步骤B3，如果q_mj小于t_n，设置标签分配矩阵中的第j列中的元素X_ij等于第二值；

如果最大的q_mj小于t_n，则说明该列中其它预测质量均小于t_n，比如，上述预测质量矩阵的第二列的预测质量最大值为0.3，均小于第二预设质量值0.4，则转换后得到的标签分配矩阵第二列均为第二值。

步骤B4，如果q_mj小于或等于t_p，且大于或等于t_n，设置q_mj对应标签分配矩阵中的X_mj等于第三值；对于第j列中除q_mj以外的元素q_ij，如果q_ij小于t_n，设置q_ij对应标签分配矩阵中的X_ij等于第二值；如果q_ij小于或等于t_p，且大于或等于t_n，设置q_ij对应标签分配矩阵中的X_ij等于第三值；其中，t_p>t_n，t_p和t_n分别为预设阈值。

接续前例，上述预测质量矩阵的第三列，最大值为0.5，介于0.7和0.4之间，则转换后该位置对应的值为-1，第三列其余元素的值因均小于0.4，所以均为0。

因此，对于上述预测质量矩阵：

经预测质量矩阵转换得到的标签分配矩阵为：

在上述分配好的标签分配矩阵中的每一列至多只有一个1，即每个第二锚框所在位置至多分配到一个目标(成为正样本)，也可以不分配目标(成为负样本或忽略样本)。

下面以对预测质量矩阵的行进行转换为例说明转换的具体过程可通过步骤C1-步骤C2实现：

步骤C1，对于预测质量矩阵中的第i行，均从该行元素中选择出大于t_p的目标元素q_im，设置标签分配初始矩阵中第i行中与目标元素对应的元素X_im为第一值；其中，q_im均大于该行元素中未被选择的其它元素q_iu；

对于同一个目标的正样本标签可以被分配给一个或多个第二锚框，也可以不分配给任何第二锚框。

步骤C2，对于第i行中除q_im以外的元素q_iu，如果所述q_iu小于或等于t_p，且大于或等于t_n，设置所述q_iu对应标签分配初始矩阵的元素X_iu等于第三值；如果所述q_iu小于t_n，设置所述q_iu对应标签分配初始矩阵的元素X_iu等于第二值；

上述标签分配初始矩阵可以理解为是一个空矩阵，每个元素X均为赋值，通过上述步骤C1和C2之后，元素X会被赋予0，1或-1。

步骤C3，检查标签分配初始矩阵中的第j列的元素是否存在冲突元素；其中，冲突元素为2个以上，且元素均为第一值；如果存在冲突元素，在预测质量矩阵中获取冲突元素对应的预测质量，保留所述冲突元素中预测质量最大元素为第一值，其余元素修改为第三值，得到标签分配矩阵；

通过冲突元素的检查，可以保证最终的标签分配矩阵每列仅有一个第一值，即每个位置仅对应一个样本正标签。

其中，t_p>t_n，t_p和t_n分别为预设阈值。

上述t_p和t_n分别为第一预设质量值和第二预设质量值，在本实施例中，将每行中除被选中的目标元素q_im对应的X_im设为第一值之外，还需要对其它预测质量与预设阈值进行比较得到对应的样本类型(正样本、负样本或忽略样本)，比如，可将小于或等于第一预设质量，且大于或等于第二预设质量值的元素q_iu对应的元素X_iu设为第三值；将小于第二预设质量值的q_iu对应的X_iu设为第二值。

步骤S712，根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；

步骤S714，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；

步骤S716，将训练好的学生网络模型作为目标检测模型。

本发明实施例提供的上述目标检测模型的训练方法，能够利用预测质量与预设阈值的比较准确获得到标签分配信息，根据该标签分配信息对第一特征图对应的第一锚框进行标签分配，使得标签分配客观化和合理化，可有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，进而提升了学生网络模型的性能。

本实施例提供了另一种目标检测模型的训练方法，该方法在上述实施例的基础上实现；本实施例重点描述计算学生网络模型的损失函数值的具体实施方式，以学生网络模型和教师网络模型均为基于锚框技术的网络模型为例，如图8所示的另一种目标检测模型的训练方法的流程图，本实施例中的学生网络模型的训练方法包括如下步骤：

步骤S802，将图像样本集中的图像样本输入学生网络模型，得到与该图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，该学生模型检测结果包括与第一特征图的每个像素点对应的第一锚框的分数和第一锚框对应的坐标信息；

步骤S804，获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与上述图像样本的第二特征图的每个像素点对应的第二锚框的分数和第二锚框对应的坐标信息；

步骤S806，根据教师模型检测结果确定图像样本的标签分配信息；

步骤S808，对于第一特征图中每个像素点对应的每个第一锚框，均执行以下步骤S812至步骤S818中的操作；

步骤S812，基于标签分配信息，确定第一锚框的目标真值框；

基于标签分配信息即可确定第一锚框对应的目标真值框。以第一锚框1为例，如果其标签分配信息为(0,0,1,0)，则可以将第二锚框1的正样本标签对应的目标的目标真值框作为第一锚框的目标真值框。

步骤S814，基于第一锚框的目标真值框和第一锚框的分数计算分类损失函数值和回归损失函数值；

上述分类损失函数值可以通过分类损失函数得到，分类损失函数可以为交叉熵函数，例如，如果目标类别仅有两类时，可以为二分类的交叉熵函数(Binary CrossEntropy)。如果目标类别为多个分类时，可以用多分类交叉熵函数(softmax_cross_entropy)。

上述回归损失函数值可采用交叠比损失函数(IoU Loss)得到，因此，回归损失函数值loss2＝-log(IoU)，IoU是第一锚框对应的第一预测框和目标真值框的交叠比。

在实际使用时，分类损失函数和回归损失函数可以根据实际需要进行选取，因此，可根据第一锚框的目标真值框和第一锚框的分数计算出对应的分类损失函数值和回归损失函数值，在此不进行限定和赘述。

步骤S816，基于各个第一锚框的分类损失函数值和回归损失函数值确定学生网络模型的损失函数值；

通常，将计算出的分类损失函数值和回归损失函数值进行相加计算便得到了学生网络模型的损失函数值。

步骤S818，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；

上述步骤S818可由步骤D1-步骤D2实现：

步骤D1，基于损失函数值调整学生网络模型的参数继续训练；

步骤D2，当损失函数值收敛至预设值或者训练次数达到预设次数，停止训练，得到训练好的学生网络模型。

通常，当损失函数值大于预设值时说明当前训练好的学生网络模型没有达到预设的收敛程度，可重复执行上述步骤S602至步骤S616的过程，直至得到的损失函数值收敛至预设值停止学生网络模型的训练。

或者，重复执行步骤S802至步骤S816的次数达到预设次数时停止学生网络模型的训练。在实际使用时，预设值和预设次数可根据实际情况进行设置，在此不进行限定。

步骤S820，将训练好的学生网络模型作为目标检测模型。

本发明实施例提供的上述目标检测模型的训练方法，能够将图像样本集中的图像样本输入学生网络模型，得到图像样本对应的第一特征图，获取教师网络模型对样本的教师模型检测结果，对于第一特征图中每个像素点对应的每个第一锚框，可基于教师网络检测结果确定标签分配信息，基于标签分配信息确定第一锚框对应的目标真值框，并可根据第一锚框的目标真值框和第一锚框的分数确定学生网络模型的损失函数值；使得学生网络模型在训练过程中产生的损失函数值不单单依赖于学生网络模型自身输出的结果，还基于已经训练好的教师网络模型的检测结果，基于该检测结果可以确定出标签分配信息，进而基于该标签分配信息计算学生网络模型的损失函数值，使得该损失函数值的计算更准确，为学生网络模型的参数调整提供了可靠的数据。

进一步，为了充分对上述目标检测模型的训练方法进行理解，图9示出了一种目标检测模型训练流程图，如图9所示，以学生网络模型和教师网络模型均为基于锚框技术的网络模型为例，最左边的图片900为进行人工目标真值框标注的图像样本，当图像样本输入教师网络模型901后可得到第二特征图902中每个像素对应的第二锚框的分数scores2和坐标信息得到第二预测框pred boxes2，基于第二预测框pred boxes2和图像样本目标真值框的计算可得到交叠比矩阵IoU，基于该叠比矩阵IoU和第二锚框的分数scores2得到第二特征图902的预测质量矩阵qualities，基于预测质量矩阵qualities可确定出标签分配信息，该过程对应图9中的assignmengt；当图像样本输入学生网络模型903后可得到第一特征图904中每个像素对应的第一锚框的分数scores1和第一锚框对应的第一预测框pred boxes1，利用标签分配信息对第一特征图904进行目标真值框的分配，基于分配好的目标真值框和第一预测框pred boxes1以及分数scores1计算出分类损失函数值(classification loss)和回归损失函数值(regresssion loss)，最终通过分类损失函数和回归损失函数值计算出学生网络模型的损失函数值(loss)，基于该损失函数值(loss)训练学生网络模型。

该训练目标检测模型的过程中无需人工对第一特征图进行标签标注，利用教师网络模型得到的检测结果对第一特征图进行标签分配，使得标签分配客观化和合理化，基于上述分配标签后的第一特征图训练学生网络模型，优化了学生网络模型的训练过程，可有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，进而提升了学生网络模型的性能，例如提升了学生网络模型对目标检测的准确率等。

对应于上述方法实施例，本发明实施例提供了一种目标检测装置图10示出了一种目标检测装置的结构示意图，如图10所示，该装置包括：

图像获取模块1002，用于获取待检测图像；

目标检测模块1004，用于将待检测图像输入目标检测模型，得到目标检测结果；目标检测结果包括目标对应的包围框的位置和分数；其中，目标检测模型通过如下方式训练：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，图像样本标注有目标真值框，学生模型检测结果包括与第一特征图的每个像素点对应的第一基准位置的分数和第一基准位置对应的坐标信息；获取教师网络模型对图像样本的教师模型检测结果；其中，教师网络模型为预先训练好的模型，教师模型检测结果包括与图像样本的第二特征图的每个像素点对应的第二基准位置的分数和第二基准位置对应的坐标信息；其中，第一特征图和第二特征图的基准位置数相同；根据教师模型检测结果确定图像样本的标签分配信息；根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值；基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型；将训练好的学生网络模型作为目标检测模型。

本申请实施例提供一种目标检测装置，其中，用于检测图像的目标检测模型的训练过程为：将图像样本集中的图像样本输入学生网络模型，得到与图像样本的第一特征图的每个像素点对应的学生模型检测结果；获取教师网络模型对该图像样本的教师模型检测结果；其中，该教师网络模型为预先训练好的模型，上述教师模型检测结果包括该图像样本对应的第二特征图中每个像素对应的第二基准位置的分数和第二基准位置对应的坐标信息；应用上述教师模型检测结果确定图像样本的标签分配信息，根据标签分配信息和学生模型检测结果计算学生网络模型的损失函数值，基于损失函数值调整学生网络模型的参数继续训练，直至得到训练好的学生网络模型，将该训练好了学生网络模型作为目标检测模型，这种训练过程的标签分配方式更客观化和合理化，使得训练得到的目标检测模型的可靠性更高，进而提升了目标检测的准确率，相比于人工设计的标签分配方法，本实施例标签分配方式更为高效，且有效缓解人工设计标签分配规则的主观性对学生网络模型训练效果的影响，该标签分配方式可适配基于锚框和非基于锚框的网络，比针对某种网络设计的标签分配方法更有普适性。

上述目标检测模块1004还用于，对于每个第二基准位置，分别计算该第二基准位置对应的第二预测框与图像样本的每个目标真值框的交叠比，得到矩阵IoU：

其中，i取值[1,N]，j取值[1,A]，N为标注真值框的个数，A为第二特征图包括的第二基准位置的个数；基于第二基准位置对应的第二预测框与每个目标真值框的交叠比和第二基准位置的分数，确定第二基准位置对于每个目标真值框对应目标的预测质量；其中，预测质量用于表征该第二基准位置检测出的是该目标真值框对应目标的概率大小；基于每个第二基准位置对于每个目标真值框对应目标的预测质量确定每个第一基准位置的标签分配信息。

上述目标检测模块1004还用于，利用公式q_ij＝(s_j)^1-α*(IoU_ij)^α计算每个第二基准位置对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_j为第j个第二基准位置的分数，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

上述图像样本还标注有各目标真值框对应的目标类型；

利用公式q_ij＝(s_ij)^1-α*(IoU_ij)^α计算每个第二基准位置对于每个目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_ij为第j个第二基准位置的分数中对应于当前目标类型的分数，当前目标类型是指第i个目标真值框对应的目标类型，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

上述目标检测模块1004还用于，对于每个第二基准位置，均从该第二基准位置对于每个目标真值框对应目标的预测质量中选择最大预测质量；判断最大预测质量是否大于或等于第一预设质量值；如果是，为第二基准位置分配最大预测质量对应的目标的正样本标签。

上述目标检测模块1004还用于，对于预测质量矩阵中的第j列，均从该列元素中选择出值最大的元素q_mj；

上述目标检测模块1004还用于，对于预测质量矩阵中的第i行，均从该行元素中选择出大于t_p的目标元素q_im，设置标签分配初始矩阵中第i行中与目标元素对应的元素X_im为第一值；其中，q_im均大于该行元素中未被选择的其它元素q_iu；

上述目标检测模块1004还用于，对于第一特征图中每个像素点对应的每个第一基准位置，均执行以下步骤：确定第一基准位置对应的第二基准位置；基于第一基准位置的标签分配信息，确定第一基准位置的目标真值框；基于第一基准位置的目标真值框和第一基准位置的分数计算分类损失函数值和回归损失函数值；基于各个第一基准位置的分类损失函数值和回归损失函数值确定学生网络模型的损失函数值。

本发明实施例提供的目标检测装置，与上述实施例提供的目标检测方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述目标检测方法的步骤。

本发明实施例所提供的目标检测方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入目标检测模型，得到目标检测结果；所述目标检测结果包括目标对应的包围框的位置和分数；其中，所述目标检测模型通过如下方式训练：

将图像样本集中的图像样本输入学生网络模型，得到与所述图像样本的第一特征图的每个像素点对应的学生模型检测结果；其中，所述图像样本标注有目标真值框，所述学生模型检测结果包括与所述第一特征图的每个像素点对应的第一基准位置的分数和所述第一基准位置对应的坐标信息；

获取教师网络模型对所述图像样本的教师模型检测结果；其中，所述教师网络模型为预先训练好的模型，所述教师模型检测结果包括与所述图像样本的第二特征图的每个像素点对应的第二基准位置的分数和所述第二基准位置对应的坐标信息；其中，所述第一特征图和所述第二特征图的基准位置数相同；

根据所述教师模型检测结果确定所述图像样本的标签分配信息；

根据所述标签分配信息和所述学生模型检测结果计算所述学生网络模型的损失函数值；

基于所述损失函数值调整所述学生网络模型的参数继续训练，直至得到训练好的学生网络模型；

将训练好的学生网络模型作为所述目标检测模型。

2.根据权利要求1所述的方法，其特征在于，根据所述教师模型检测结果确定标签分配信息的步骤，包括：

对于每个所述第二基准位置，分别计算该第二基准位置对应的第二预测框与所述图像样本的每个目标真值框的交叠比，得到矩阵IoU：

其中，i取值[1,N]，j取值[1,A]，N为所述标注真值框的个数，A为所述第二特征图包括的第二基准位置的个数；

基于所述第二基准位置与每个所述目标真值框的所述交叠比和所述第二基准位置的分数，确定所述第二基准位置对于每个所述目标真值框对应目标的预测质量；其中，所述预测质量用于表征该第二基准位置检测出的是该目标真值框对应目标的概率大小；

基于每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量确定每个所述第一基准位置的标签分配信息。

3.根据权利要求2所述的方法，其特征在于，基于所述第二基准位置对应的第二预测框与每个所述目标真值框的所述交叠比和所述第二基准位置的分数，确定每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量的步骤，包括：

利用公式q_ij＝(s_j)^1-α*(IoU_ij)^α计算每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_j为第j个所述第二基准位置的分数，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

4.根据权利要求2所述的方法，其特征在于，所述图像样本还标注有各目标真值框对应的目标类型；

基于所述第二基准位置对应的第二预测框与每个所述目标真值框的所述交叠比和所述第二基准位置的分数，确定每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量的步骤，包括：

利用公式q_ij＝(s_ij)^1-α*(IoU_ij)^α计算每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量，得到预测质量矩阵Q；其中，q_ij取值为[0,1]，α为取值在[0,1]区间的预设超参数，s_ij为第j个第二基准位置的分数中对应于当前目标类型的分数，所述当前目标类型是指第i个目标真值框对应的目标类型，IoU_ij为第j个第二基准位置对应的第二预测框与第i个目标真值框的交叠比，为矩阵IoU中第i行第j列的元素；

5.根据权利要求2-4任一项所述的方法，其特征在于，基于每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量确定每个所述第一基准位置的标签分配信息的步骤，包括：

对于每个所述第二基准位置，均从该第二基准位置对于每个所述目标真值框对应目标的预测质量中选择最大预测质量；

判断所述最大预测质量是否大于或等于第一预设质量值；

如果是，为所述第二基准位置分配所述最大预测质量对应的目标的正样本标签。

6.根据权利要求3或4所述的方法，其特征在于，基于每个第二基准位置对于每个所述目标真值框对应目标的预测质量确定所述第一基准位置的标签分配信息的步骤，包括：

对于所述预测质量矩阵中的第j列，均从该列元素中选择出值最大的元素q_mj；

如果q_mj小于t_n，设置标签分配矩阵中的第j列中的元素X_ij等于所述第二值；

如果q_mj小于或等于t_p，且大于或等于t_n，设置q_mj对应标签分配矩阵中的元素X_mj等于所述第三值；对于第j列中除q_mj以外的元素q_ij，如果q_ij小于t_n，设置q_ij对应标签分配矩阵中的元素X_ij等于所述第二值；如果q_ij小于或等于t_p，且大于或等于t_n，设置q_ij对应标签分配矩阵中的元素X_ij等于所述第三值；

其中，t_p>t_n，t_p和t_n分别为预设阈值，所述第一值表示正样本，所述第二值表示负样本，所述第三值表示忽略样本。

7.根据权利要求3或4所述的方法，其特征在于，基于每个所述第二基准位置对于每个所述目标真值框对应目标的预测质量确定每个所述第一基准位置的标签分配信息的步骤，包括：

对于所述预测质量矩阵中的第i行，均从该行元素中选择出大于t_p的目标元素q_im，设置标签分配初始矩阵中第i行中与所述目标元素对应的元素X_im为第一值；其中，q_im均大于该行元素中未被选择的其它元素q_iu；

对于第i行中除q_im以外的元素q_iu，如果所述q_iu小于或等于t_p，且大于或等于t_n，设置所述q_iu对应标签分配初始矩阵的元素X_iu等于第三值；如果所述q_iu小于t_n，设置所述q_iu对应标签分配初始矩阵的元素X_iu等于第二值；

检查所述标签分配初始矩阵中的第j列的元素是否存在冲突元素；其中，所述冲突元素为2个以上，且元素均为所述第一值；

如果存在冲突元素，在所述预测质量矩阵中获取所述冲突元素对应的预测质量，保留所述冲突元素中预测质量最大元素为所述第一值，其余元素修改为所述第三值，得到标签分配矩阵；

其中，其中，t_p>t_n，t_p和t_n分别为预设阈值，所述第一值表示正样本，所述第二值表示负样本，所述第三值表示忽略样本。

8.根据权利要求1-7任一项所述的方法，其特征在于，根据所述标签分配信息和所述学生模型检测结果计算所述学生网络模型的损失函数值的步骤，包括：

对于所述第一特征图中每个像素点对应的每个第一基准位置，均执行以下步骤：

基于所述第一基准位置的标签分配信息，确定所述第一基准位置的目标真值框；

基于所述第一基准位置的目标真值框和所述第一基准位置的分数计算分类损失函数值和回归损失函数值；

基于各个所述第一基准位置的分类损失函数值和回归损失函数值确定所述学生网络模型的损失函数值。

9.一种目标检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

目标检测模块，用于将所述待检测图像输入目标检测模型，得到目标检测结果；所述目标检测结果包括目标对应的包围框的位置和分数；其中，所述目标检测模型通过如下方式训练：

获取教师网络模型对所述图像样本的教师模型检测结果；其中，所述教师网络模型为预先训练好的模型，所述教师模型检测结果包括与所述图像样本的第二特征图的每个像素点对应的第二基准位置的分数和所述第二基准位置对应的坐标信息；其中，所述第一特征图和所述第二特征图的基准位置数和/或位置点均相同；

将训练好的学生网络模型作为所述目标检测模型。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-8任一项所述的方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-8任一项所述的方法的步骤。