CN110796154A

CN110796154A - 一种训练物体检测模型的方法、装置以及设备

Info

Publication number: CN110796154A
Application number: CN201811070244.1A
Authority: CN
Inventors: 张长征; 金鑫; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2018-08-03
Filing date: 2018-09-13
Publication date: 2020-02-14
Anticipated expiration: 2038-09-13
Also published as: US20210012136A1; US20210004625A1; EP3633553A1; CN110795976B; CN110795976A; EP3624007A1; EP3624007A4; US11605211B2; EP3633553A4; CN110796154B; US11423634B2

Abstract

本申请公开了一种计算设备执行的训练物体检测模型的方法。该方法将第一阶段训练完毕后的分类器复制成至少两个，在第二阶段的训练中，复制出的每个分类器用于检测尺寸不同的待检测物体，并根据检测结果对物体检测模型进行训练。该方法通过两阶段的训练态获得的物体检测模型对待检测物体的检测准确度更高。

Description

一种训练物体检测模型的方法、装置以及设备

技术领域

本申请涉及计算机技术领域，尤其涉及训练物体检测模型的方法，和用于执行该方法的装置和计算设备。

背景技术

物体检测是一项对图像/视频中的物体进行准确定位并进行分类检测的人工智能技术，其包含通用物体检测、人脸检测、行人检测、文字检测等诸多细分领域。近年来，学术界与工业界积极投入，算法不断成熟，当前基于深度学习的物体检测方案被用在市政安防(行人检测、车辆检测、车牌检测等)、金融(物体检测、刷脸登录等)、互联网(身份验证)、智能终端等实际产品中。

目前物体检测已经较广泛应用于多种简单/中等复杂难度场景(比如门禁、卡口场景下检测人脸)。在开放环境下，如何保持训练出的物体检测模型对待检测物体的尺寸变化幅度较大、遮挡、扭曲等多种不利因素的鲁棒性，并提升检测精度，仍是一个待解决的问题。

发明内容

本申请提供了一种训练物体检测模型的方法，该方法提升了训练出的物体检测模型的检测精度。

第一方面，提供了一种计算设备执行的物体检测模型的训练方法，执行该方法的计算设备可以是分布在相同或不同环境中的一台或多台计算设备。该方法包括：

获取训练图像，根据所述训练图像建立主干网络。

将所述主干网络输出的特征图输入区域提议网络。

所述区域提议网络根据区域提议参数从所述主干网络输出的特征图中选取多个提议区域，将所述多个提议区域对应的子特征图输入分类器。

所述分类器根据所述多个提议区域对应的子特征图检测所述训练图像中的待检测物体。

对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述分类器的参数中的至少一个进行激励。

复制所述分类器，获得至少两个分类器。

所述区域提议网络将所述多个提议区域划分为至少两个提议区域集合，每个提议区域集合包括至少一个提议区域。

所述区域提议网络将每个提议区域集合包括的提议区域对应的子特征图输入所述至少两个分类器中的一个分类器。

所述至少两个分类器中的每个分类器执行以下动作：根据获取的提议区域集合包括的提议区域对应的子特征图检测所述训练图像中的待检测物体；对比检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述每个分类器的参数中的至少一个进行激励。

所述至少两个分类器中的每个分类器根据所述对比结果对自身的参数进行激励，一般不根据所述对比结果对所述至少两个分类器中的其他分类器的参数进行激励。

以上提供的方法，将训练图像两次输入物体检测模型，以对物体检测模型进行训练。第一阶段的训练中，不对待检测物体的尺寸进行区分，使得训练出的分类器具有全局观。第二阶段的训练中，复制出的每个分类器负责检测一个提议区域集合内的待检测物体，即负责检测一类尺寸的待检测物体，使得训练出的每个分类器进一步的有针对性的对不同尺寸的待检测物体更加敏感。两阶段的训练，提升了训练出的物体检测模型对于不同尺寸的待检测物体的检测精度。

在一种可能的实现方式中，所述方法还包括：获取系统参数，所述系统参数包括以下至少一个：训练图像中的待检测物体的尺寸聚类的数量、训练计算能力；根据所述系统参数，确定复制后获得的所述至少两个分类器中分类器的数量。

复制出的分类器的数量可以通过人工配置，也可以根据训练图像中待检测物体的情况来计算得出，适当的选择复制出的分类器的数量进一步提升了训练出的物体检测模型对于不同尺寸的待检测物体的检测精度。

在一种可能的实现方式中，所述系统参数包括所述训练图像中的待检测物体的尺寸聚类的数量的情况下；所述获取系统参数包括：对所述训练图像中的待检测物体的尺寸进行聚类，获取所述训练图像中的待检测物体的尺寸聚类的数量。

在一种可能的实现方式中，所述主干网络输出的特征图包括至少两个特征图。

主干网络的不同卷积层的跨度可能不同，因此不同卷积层输出的特征图内的提议区域内待检测物体的尺寸也可能不同，从主干网络提取至少两个特征图，丰富了提议区域的来源，进一步提升了训练出的物体检测模型对于不同尺寸的待检测物体的检测精度。

本申请的第二方面提供了一种检测模型训练装置，包括初始化模块、物体检测模型和激励模块。

物体检测模型，用于获取训练图像，根据所述训练图像建立主干网络；根据区域提议参数从所述主干网络输出的特征图中选取多个提议区域，将所述多个提议区域对应的子特征图输入分类器；根据所述多个提议区域对应的子特征图检测所述训练图像中的待检测物体。

激励模块，用于对比检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述分类器的参数中的至少一个进行激励。

初始化模块，用于复制所述分类器，获得至少两个分类器。

所述物体检测模型，还用于将所述多个提议区域划分为至少两个提议区域集合，每个提议区域集合包括至少一个提议区域；将每个提议区域集合包括的提议区域对应的子特征图输入所述至少两个分类器中的一个分类器；所述至少两个分类器中的每个分类器执行以下动作：根据获取的提议区域集合包括的提议区域对应的子特征图检测所述训练图像中的待检测物体；对比检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述每个分类器的参数中的至少一个进行激励。

在一种可能的实现方式中，所述初始化模块，还用于获取系统参数，所述系统参数包括以下至少一个：训练图像中的待检测物体的尺寸聚类的数量、训练计算能力；根据所述系统参数，确定复制后获得的所述至少两个分类器中分类器的数量。

在一种可能的实现方式中，所述初始化模块，还用于对所述训练图像中的待检测物体的尺寸进行聚类，获取所述训练图像中的待检测物体的尺寸聚类的数量。

本申请的第三方面提供了一种计算设备系统。该计算设备系统包括至少一个计算设备。每个计算设备包括处理器和存储器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意可能的实现方式提供的方法。

本申请的第四方面提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被至少一台计算设备执行时，所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质的类型包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(harddisk drive，HDD)、固态硬盘(solid state drive，SSD)。

本申请的第五方面提供了一种计算设备程序产品，所述计算设备程序产品被至少一台计算设备执行时，所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

本申请的第六方面提供了另一种计算设备执行的训练物体检测模型的方法，所述方法包括两阶段的训练。其中，

在第一阶段训练中，通过主干网络提取训练图像的特征图，通过区域提议网络从提取出的所述特征图中选取提议区域，将所述提议区域对应的子特征图输入分类器，所述分类器根据所述提议区域对应的子特征图检测所述训练图像中的待检测物体，对比所述检测结果和所述训练图像的先验结果，根据所述对比结果对所述主干网络、所述区域提议网络、所述分类器中的至少一个进行激励。

在第二阶段训练中，根据经历过所述第一阶段训练的所述分类器，建立至少两个复制分类器，所述区域提议网络将所述提议区域划分为至少两个提议区域集合，每个提议区域集合包括至少一个提议区域，将每个提议区域集合包括的提议区域对应的子特征图输入一个复制分类器，每个复制分类器根据获取的子特征图检测所述训练图像中的待检测物体，对比所述检测结果和所述训练图像的先验结果，根据所述对比结果对所述主干网络、所述区域提议网络、所述分类器中的至少一个再次进行激励。

在第二阶段训练中，可以复制经历过所述第一阶段训练的所述分类器，以建立至少两个复制分类器。也可以对经历过所述第一阶段训练的所述分类器进行调整后再进行复制，以建立至少两个复制分类器。

在一种可能的实现方式中，所述方法还包括：获取系统参数，所述系统参数包括以下至少一个：训练图像中的待检测物体的尺寸聚类的数量、训练计算能力；根据所述系统参数，确定建立出的所述复制分类器的数量。

在一种可能的实现方式中，所述主干网络提取出的特征图包括至少两个特征图。

本申请的第七方面提供了一种计算设备系统。该计算设备系统包括至少一个计算设备。每个计算设备包括处理器和存储器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第六方面或第六方面的任意可能的实现方式提供的方法。

本申请的第八方面提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被至少一台计算设备执行时，所述至少一台计算设备执行前述第六方面或第六方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质的类型包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、HDD、SSD。

本申请的第九方面提供了一种计算设备程序产品，所述计算设备程序产品被至少一台计算设备执行时，所述至少一台计算设备执行前述第六方面或第六方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第六方面或第六方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需要使用的附图作以简单地介绍。

图1为本申请提供的系统架构示意图；

图2为本申请提供的另一系统架构示意图；

图3为本申请提供的检测模型训练装置在训练态的工作流程图；

图4为本申请提供的检测模型训练装置在训练态的另一工作流程图；

图5为本申请提供的物体检测模型训练在推理态的工作流程图；

图6为本申请提供的检测模型训练装置在训练态的工作流程图；

图7为本申请提供的检测模型训练装置在训练态的另一工作流程图；

图8为本申请提供的物体检测模型训练在推理态的工作流程图；

图9为本申请提供的卷积层和卷积核的结构示意图；

图10为本申请提供的卷积层的感受野的示意图；

图11为本申请提供的另一卷积层的感受野的示意图；

图12为本申请提供的区域提议网络的工作流程图；

图13为本申请提供的方法流程示意图；

图14为本申请提供的另一方法流程示意图；

图15为本申请提供的检测模型训练装置的结构示意图；

图16为本申请提供的计算设备的结构示意图；

图17为本申请提供的计算设备系统的结构示意图；

图18为本申请提供的另一计算设备系统的结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方法进行描述。

本申请中各个“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系。

如图1所示，本申请提供的训练物体检测模型的方法由检测模型训练装置执行。该装置可以运行在云环境中，具体为云环境上的一个或多个计算设备上。该装置也可以运行在边缘环境中，具体为边缘环境中的一个或多个计算设备(边缘计算设备)上。该装置还可以运行在终端环境中，具体为终端环境中的一个或多个终端设备上。终端设备可以为手机、笔记本、服务器、台式电脑等。边缘计算设备可以为服务器。

如图2所示，检测模型训练装置可以由多个部分(模块)组成，因此检测模型训练装置的各个部分也可以分别部署在不同环境中。例如，检测模型训练装置可以在云环境、边缘环境、终端环境中的三个，或其中任意两个环境上部署检测模型训练装置的部分模块。

图3至图5和图6至图8分别介绍了两种检测模型训练装置的工作流程示意图。每种工作流程中，检测模型训练装置的训练态均分为两个阶段。

图3中，检测模型训练装置工作于训练态的第一阶段。训练态的目的是利用训练图像以及训练图像的先验结果来训练出一个精度较高的物体检测模型。其中，训练图像的先验结果包括训练图像中的待检测物体的标记。如图3中训练图像为例，该训练图像由包括多个人脸，训练图像的先验结果中将该训练图像的每个人脸用白色的框标记出来(如图3左上角)。训练图像的先验结果一般可以由人工提供。

根据训练图像建立K层主干网络(backbone network)，该主干网络包括K个卷积层，K为大于0的正整数。主干网络从训练图像中抽取特征图。主干网络提取出的特征图被输入至区域提议网络(region proposal network)，区域提议网络从特征图中选取提议区域，将提议区域对应的子特征图输入分类器。区域提议网络从特征图中选取提议区域的过程中，可以直接通过对比训练图像的先验结果和特征图，获取特征图中与训练图像中待检测物体覆盖率较高的区域作为提议区域。或者，区域提议网络可以先从特征图中识别前景区域和背景区域，然后从前景区域中提取提议区域。其中，前景区域为包含的信息量较高、包含待检测物体的几率较高的区域，背景区域为包含的信息量较低、重复信息较多、包含待检测物体的几率较低的区域。

每个子特征图包括特征图中的一部分位于提议区域内的特征。分类器根据子特征图确定该子特征图对应的提议区域对应的训练图像的区域内是否为待检测物体。如图3右侧所示，分类器在训练图像上用白色的框标记出检测出的人脸区域。通过比对训练图像的检测结果和训练图像的先验结果，可以得知本次检测模型训练装置检测出的待检测物体和先验结果的差异。如图3中所示，先验结果中的部分人脸未被该检测模型训练装置检测出来。根据该差异来激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，所述分类器的参数。每个训练图像的检测结果以及训练图像的先验结果之间的差异均会对上述物体检测模型的各个参数进行激励，因此通过大量训练图像的激励后，物体检测模型的精度将会提升。

检测模型训练装置通过大量的训练图像以及训练图像的先验结果对物体检测模型进行训练，物体检测模型包括主干网络、区域提议网络和分类器。经历完训练模式的第一阶段的物体检测模型进入训练模式的第二阶段，如图4所示。

训练模式的第二阶段里，首先将经历过图3中第一阶段的分类器复制P份。将训练图像输入主干网络，主干网络提取出的特征图被输入至区域提议网络。区域提议网络从特征图中选取提议区域，并将选取的提议区域按照提议区域的尺寸聚集成P个提议区域集合。每一份提议区域集合中的提议区域的尺寸相近。将这P个提议区域集合对应的子特征图分别输入P个分类器。一个提议区域集合对应一个分类器，该提议区域集合中的提议区域对应的子特征图被输入进该分类器。每个分类器根据接收的子特征图检测出训练图像中不同尺寸的待检测物体，获取对应的检测结果。将每个分类器的检测结果与训练图像中与该分类器接收的子特征图对应的待检测物体的尺寸的先验结果进行对比。每个尺寸的待检测物体的检测结果以及该尺寸的待检测物体的先验结果之间的差异均会对物体检测模型的各个参数进行激励。尤其是每个分类器将会被训练成对不同尺寸的被检测物体更加敏感，因此通过大量训练图像的二次激励后，物体检测模型的精度将会进一步提升。图4中，按照尺寸将训练图中的待检测物体的先验结果分为了P类，分别用于P个分类器的对比。

如图4所示，P等于2，即区域提议网络将选取出的提议区域分成2个提议区域集合，其中一个提议区域集合(对应上方的分类器)中的提议区域的尺寸较小，另一个提议区域集合(对应下方的分类器)中的提议区域的尺寸较大。因此，前一个提议区域集合中的提议区域对应的子特性图用于检测训练图像中较小的待检测物体，后一个提议区域集合中的提议区域对应的子特性图用于检测训练图像中较大的待检测物体。将2个提议区域集合分别输入不同的分类器。上方的分类器用于检测较小的待检测物体，下方的分类器用于检测较大的待检测物体，将两个分类器输出的检测结果分别与对应的先验结果进行对比。例如，检测结果1包括上方的分类器根据尺寸较小的提议区域对应的子特征图检测出的待检测物体，训练图像的先验结果1包括训练图像中尺寸较小的待检测物体的先验结果(尺寸、坐标等)。将检测结果1与先验结果1进行对比，根据对比差异激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，上方的分类器的参数。类似的，检测结果2包括下方的分类器根据尺寸较大的提议区域对应的子特征图检测出的待检测物体，训练图像的先验结果2包括训练图像中尺寸较大的待检测物体的先验结果(尺寸、坐标等)。将检测结果2与先验结果2进行对比，根据比对差异激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，下方的分类器的参数。

需要说明的是，第一阶段和第二阶段使用的训练图像可以相同，也可以不同，也可以部分重叠。可以采用预设的阈值区分不同提议区域集合，例如当需要区分P个提议区域集合的情况下，预设P-1个阈值，每个阈值对应一个提议区域的尺寸，采用这P-1个阈值将区域提议网络选取的提议区域聚集为P个提议区域集合。相应的，按照训练图像中的待检测物体的尺寸，将训练图像中的待检测物体分为P个先验结果，一个先验结果与一个尺寸对应的检测结果进行对比，以激励物体检测模型。

第二阶段训练完毕的物体检测模型可以部署在云环境或者边缘环境或者终端环境。或者可以在云环境、边缘环境、终端环境中的三个或其中任意两个上部署物体检测模型的一部分。

如图5所示，推理态中，待检测图像被输入物体检测模型的主干网络，经过区域提议网络和P个分类器的处理后，物体检测模型输出该待检测图像的检测结果。常见的，检测结果中包括被检测出的待检测物体的位置和数量等信息，例如有多少个人脸，每个人脸出现的位置。推理态中，区域提议网络与训练态第二阶段类似，将提取出的提议区域按照尺寸进行分类，每个提议区域对应的子特征图分别发送至该提议区域对应的分类器。每个分类器根据不同尺寸的提议区域的子特征图检测不同尺寸的待检测物体，综合P个分类器的检测结果，可以获得待检测图像的检测结果。

图6至图8介绍了检验模型训练装置的另一种工作流程，与图3至图5介绍的检验模型训练装置相比，图6至图8介绍的检验模型训练装置在训练态和推理态中将主干网络的至少两个卷积层提取出的特征图作为区域提议网络的输入。

图6中，检测模型训练装置工作于训练态的第一阶段。根据训练图像建立K层主干网络，该主干网络包括K个卷积层，K为大于0的正整数。主干网络从训练图像中抽取p个特征图。这p个特征图可以从主干网络的任意p个卷积层提取，或者为主干网络的任意p个卷积层本身。主干网络提取出的p个特征图被输入至区域提议网络，区域提议网络从这p个特征图中选取提议区域，将提议区域对应的子特征图输入分类器。每个子特征图包括特征图中的一部分位于提议区域内的特征。分类器根据子特征图确定该子特征图对应的提议区域对应的训练图像的区域内是否为待检测物体。

如图6右侧所示，分类器在训练图像上用白色的框标记出检测出的人脸区域。通过比对训练图像的检测结果和训练图像的先验结果，可以得知本次检测模型训练装置检测出的待检测物体和先验结果的差异。如图6中所示，先验结果中的部分人脸未被该检测模型训练装置检测出来。根据该差异来激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，所述分类器的参数。每个训练图像的检测结果以及训练图像的先验结果之间的差异均会对上述物体检测模型的各个参数进行激励，因此通过大量训练图像的激励后，物体检测模型的精度将会提升。

检测模型训练装置通过大量的训练图像以及训练图像的先验结果对物体检测模型进行训练，物体检测模型包括主干网络、区域提议网络和分类器。经历完训练模式的第一阶段的物体检测模型进入训练模式的第二阶段，如图7所示。

训练模式的第二阶段里，首先将经历过图6中第一阶段的分类器复制P份。将训练图像输入主干网络，主干网络提取出的至少一个特征图被输入区域提议网络。区域提议网络从特征图中选取提议区域，并将选取的提议区域按照提议区域的尺寸聚集成P个提议区域集合。每一份提议区域集合中的提议区域根据提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度决定。将这P个提议区域集合中的提议区域对应的子特征图分别输入P个分类器。一个提议区域集合对应一个分类器，该提议区域集合中的提议区域对应的子特征图被输入进该分类器。每个分类器根据接收的子特征图检测不同尺寸的待检测物体，获取对应的检测结果。将每个分类器的检测结果与训练图像中与该分类器接收的子特征图对应的待检测物体的尺寸的先验结果进行对比。每个尺寸的待检测物体的检测结果以及该尺寸的待检测物体的先验结果之间的差异均会对物体检测模型的各个参数进行激励。尤其是每个分类器将会被训练成对不同尺寸的被检测物体更加敏感，因此通过大量训练图像的二次激励后，物体检测模型的精度将会进一步提升。图7中，按照尺寸将训练图中的待检测物体的先验结果分为了P类，分别用于P个分类器的对比。

如图7所示，P等于2，即区域提议网络将选取出的提议区域分成2个提议区域集合，其中一个提议区域集合(对应上方的分类器)中的提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度之乘积较小，另一个提议区域集合(对应下方的分类器)中的提议区域的提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度之乘积较大。因此，前一个提议区域集合中的提议区域对应的子特性图用于检测训练图像中较小的待检测物体，后一个提议区域集合中的提议区域对应的子特性图用于检测训练图像中较大的待检测物体。将2个提议区域集合分别输入不同的分类器。上方的分类器用于检测较小的待检测物体，下方的分类器用于检测较大的待检测物体，将两个分类器输出的检测结果分别与对应的先验结果进行对比。例如，检测结果1包括上方的分类器根据尺寸较小的提议区域对应的子特征图检测出的待检测物体，训练图像的先验结果1包括训练图像中尺寸较小的待检测物体的先验结果(尺寸、坐标等)。将检测结果1与先验结果1进行对比，根据比对差异激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，上方的分类器的参数。类似的，检测结果2包括下方的分类器根据尺寸较大的提议区域对应的子特征图检测出的待检测物体，训练图像的先验结果2包括训练图像中尺寸较大的待检测物体的先验结果(尺寸、坐标等)。将检测结果2与先验结果2进行对比，根据比对差异激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，下方的分类器的参数。

如图8所示，推理态中，待检测图像被输入物体检测模型的主干网络，经过区域提议网络和P个分类器的处理后，物体检测模型输出该待检测图像的检测结果。常见的，检测结果中包括被检测出的待检测物体的位置和数量等信息，例如有多少个人脸，每个人脸出现的位置。推理态中，区域提议网络与训练态第二阶段类似，将提取出的提议区域按照尺寸进行分类，提议区域对应的子特征图分别发送至对应的分类器。每个分类器根据不同尺寸的提议区域的子特征图检测不同尺寸的待检测物体，综合P个分类器的检测结果，可以获得待检测图像的检测结果。

以下，介绍本申请使用的概念。

主干网络

主干网络包括卷积网络，该卷积网络包括K个卷积层。一般主干网络的K个卷积层构成了多个卷积块，每个卷积块包括多个卷积层，主干网络的卷积块的数量常见为5。除了卷积网络外，主干网络还可以包括池化模块。可选的，主干网络可以采用业界常用的一些模板，例如Vgg，Resnet，Densenet，Xception，Inception，Mobilenet等。

训练图像被提取的特征作为主干网的第1个卷积层。主干网络的第1个卷积层被第1个卷积层对应的卷积核提取出的特征形成了主干网络的第2个卷积层。主干网络的第2个卷积层被主干网络的第2个卷积层对应的卷积核提取出的特征形成了主干网络的第3个卷积层。依此类推，主干网络的第k-1个卷积层被主干网络的第k-1个卷积层对应的卷积核提取出的特征形成了主干网络的第k个卷积层，k大于等于1且小于等于K。图3至图5对应的检测模型训练装置中，主干网络的第K个卷积层被主干网络的第K个卷积层对应的卷积核提取出的特征图形成了区域提议网络的输入，或者可以将主干网络的第K个卷积层直接作为特征图作为区域提议网络的输入。图6至图8对应的检测模型训练装置中，主干网络的第k个卷积层被主干网络的第k个卷积层对应的卷积核提取出的特征图形成了区域提议网络的输入，或者可以将主干网络的第k个卷积层直接作为特征图作为区域提议网络的输入。区域提议网络包括L个卷积层，L为大于0的整数，与主干网络类似的，区域提议网络的第k'-1个卷积层被区域提议网络的第k'-1个卷积层对应的卷积核提取出的特征形成了区域提议网络的第k'个卷积层，k'大于等于1且小于或等于L-1。

卷积层和卷积核

主干网络和区域提议网络均包括至少一个卷积层。如图9所示，卷积层101的尺寸为X*Y*N₁，即卷积层101包括X*Y*N₁个特征。其中，N₁为通道数，一个通道即一个特征维度，X*Y为每一个通道包括的特征数目。X、Y、N₁均为大于0的正整数。

卷积核1011为作用于卷积层101使用的卷积核之一。由于卷积层102包括N₂个通道，因此卷积层101共使用N₂个卷积核，这N₂个卷积核的尺寸和模型参数可以相同也可以不同。以卷积核1011为例，卷积核1011的尺寸为X₁*X₁*N₁。即卷积核1011内包括X₁*X₁*N₁个模型参数。卷积核内的初始化模型参数可以采用业界常用的模型参数模板。卷积核1011在卷积层101内滑动，滑动到卷积层101的某一位置时，卷积核1011的模型参数和对应位置的卷积层101的特征相乘。将卷积核1011的各个模型参数和对应位置的卷积层101的特征的乘积结果合并后，获得卷积层102的一个通道上的一个特征。卷积层101的特征和卷积核1011的乘积结果可以直接作为卷积层102的特征。也可以在卷积层101的特征和卷积核1011在卷积层101上滑动完毕，输出全部乘积结果后，对全部乘积结果进行归一化，将归一化后的乘积结果作为卷积层102的特征。

形象的表示，卷积核1011在卷积层101上滑动做卷积，卷积的结果形成了卷积层102的一个通道。卷积层101使用的每一个卷积核对应了卷积层102的一个通道。因此，卷积层102的通道数等于作用于卷积层101的卷积核的数目。每一个卷积核内的模型参数的设计体现了该卷积核希望从卷积层内提取的特征的特点。通过N₂个卷积核，卷积层101被提取出N₂个通道的特征。

如图9所示，将卷积核1011拆分开。卷积核1011包括N₁个卷积片，每个卷积片包括X₁*X₁个模型参数(P₁₁至Px₁x₁)。每个模型参数对应一个卷积点。一个卷积点对应的模型参数与该卷积点对应位置内的卷积层内的特征相乘获得该卷积点的卷积结果，一个卷积核的卷积点的卷积结果之和为该卷积核的卷积结果。

卷积核滑动跨度

卷积核的滑动跨度即卷积核在卷积层上每次滑动跨越的特征数。卷积核在当前卷积层的当前位置上做完卷积，形成了下一个卷积层的一个特征后，该卷积核在当前卷积层的当前位置的基础上滑动V个特征，并在滑动后的位置上将卷积核的模型参数和卷积层的特征进行卷积，V即卷积核滑动跨度。

感受野

感受野即卷积层上一个特征在输入图像上的感知域(感知范围)，在该感知范围内的像素如果发生变化，该特征的值将会随之发生变化。如图10所示，卷积核在输入图像上滑动，提取出的特征构成了卷积层101。类似的，卷积核在卷积层101上滑动，提取出的特征构成了卷积层102。那么，卷积层101中每一个特征，是由输入图像上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的，该尺寸也即卷积层101的感受野。因此，卷积层101的感受野如图10所示。

相应的，卷积层102中的每一个特征映射到输入图像上的范围(即采用输入图像上多大范围的像素)也即卷积层102的感受野。如图11所示，卷积层102中的每一个特征，是由卷积层101上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的。而卷积层101上的每一特征，由是由输入图像上滑动的卷积核的卷积片的范围内的输入图像的像素提取出来的。因此，卷积核102的感受野比卷积层101的感受野要大。如果一个主干网络包括多层卷积层，这多层卷积层中的最后一层卷积层的感受野即该主干网络的感受野。

训练计算能力

训练计算能力即检测模型训练装置部署的环境中，可供用于检测模型训练装置使用的计算能力，包括以下至少一个：处理器频率、处理器占用率、内存大小、内存占用率、缓存利用率、缓存大小、图像处理器频率、图像处理器占用率，其他计算资源参数。当检测模型训练装置的各个部分部署在多个环境中时，训练计算能力可以通过综合计算这多个环境中可供用于检测模型训练装置使用的计算能力来获得。

分类器

分类器中包括一系列参数构成的函数，分类器根据输入的特征以及这些函数检测待检测图像中的待检测物体的位置和数量等信息。分类器常见的分类器包括Softmax分类器，Sigmoid分类器等。

跨度(stride)

一般而言，主干网络的第k+1个卷积层的尺寸小于或等于主干网络的第k个卷积层的尺寸，主干网络的第k个卷积层的跨度即输入主干网络的图像的尺寸与第k个卷积层的尺寸之比，该输入主干网络的图像可以为训练图像或者待检测图像。主干网络的第k个卷积层的跨度一般受主干网的第1个卷积层至第k卷积层之间有多少池化层，以及主干网的第1个卷积层至第k个卷积层之间的卷积层的卷积核滑动跨度相关。第1个卷积层至第k卷积层之间的池化层越多，第1个卷积层至第k卷积层之间的卷积层使用的卷积核滑动跨度越大，第k个卷积层的跨度越大。

区域提议网络、区域提议参数、提议区域、提议区域集合

如图12所示，区域提议网络根据区域提议参数在特征图上确定多个提议区域。区域提议参数可以包括提议区域的长度和宽度。不同提议区域的尺寸一般不同。

在图3和图6对应的物体检测模型中，区域提议网络首先根据区域提议参数获取到多个提议区域，并根据L层卷积层对应的卷积核计算出这多个提议区域中每个提议区域的置信度，也即每个提议区域对应到训练图像的区域内包括待检测物体的可能性。并选取置信度高于一定阈值，或者置信度最高的一定量的提议区域对应的子特征图输入至分类器。

在图4至图5对应的物体检测模型中，区域提议网络获取到多个提议区域，例如提议区域1-4后，可以根据提议区域的尺寸(提议区域覆盖的特征的数量)，将这多个提议区域聚集成P个提议区域集合。然后，区域提议网络将一个提议区域集合内的提议区域对应的子特征图输入至一个分类器。提议区域的尺寸的大小与待检测物体的尺寸相关，因此根据提议区域的尺寸将提议区域聚集成提议区域集合，并由不同分类器对不同提议区域集合内的提议区域进行检测并根据检测结果被激励，使得不同分类器对于不同尺寸的待检测物体更加敏感。

图7至图8对应的物体检测模型中将主干网的不同卷积层作为特征图输入至区域提议网络，而不同卷积层的跨度可能不同，因此不同跨度的卷积层上的相同尺寸的提议区域对应的训练图像中的待检测物体的尺寸不同。在提议区域尺寸相同的情况下，跨度越大的卷积层的提议区域指示尺寸越大的待检测物体，跨度越小的卷积层的提议区域指示尺寸越小的待检测物体。因此，图6至图8对应的物体检测模型中，区域提议网络从不同特征图中获取提议区域后，综合考虑每个提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度后，根据每个提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度，将不同特征图中获取的提议区域聚集成P个提议区域集合。然后，区域提议网络将一个提议区域集合内的提议区域对应的子特征图输入至一个分类器。常见的，区域提议网络采用每个提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度之乘积作为聚集标准，例如从不同的特征图获取T个提议区域后，获取每个提议区域的尺寸和该提议区域所在的特征图对应的卷积层的跨度之乘积。根据这T个乘积，将这T个提议区域聚集成P个提议区域集合，例如可以将T个乘积中的每个乘积与预设的P-1的阈值相比，以确定每个乘积对应的提议区域被划分入哪个提议区域集合。

图13和图14分别介绍了图3至图5和图6至图8对应的检测模型训练装置的工作流程。

如图13所示，介绍检测模型训练装置的工作流程。

S201，获取以下系统参数中的至少一个：待检测物体的尺寸聚类的数量；训练计算能力。

待检测物体的尺寸聚类的数量，也即待检测物体的尺寸可以被聚类成多少个集合。例如，待检测物体的尺寸聚类的数量为2的情况下，也即可以将待检测物体的尺寸分为两个集合。

可以采用聚类算法将训练图像中的待检测物体的尺寸进行聚类后获得的聚类数量来的获得待检测物体的尺寸聚类的数量。聚类算法可以采用K-means等。或者，待检测物体的尺寸聚类的数量、待检测物体的复杂度也可以人工输入至检测模型训练装置。

以上系统参数指代训练图像或训练图像中的待检测物体或主干网络或训练环境的参数，这类系统参数在建立物体检测模型前就可以获得。系系统参数也称为超级参数，不同的系统参数可能导致不同的复制参数。模型参数指代卷积核内各个卷积点对应的参数，模型参数在物体检测模型的训练过程中不断被激励而发生变化。

以上系统参数的获取可以分多次获取，不必在同一步骤中执行。以上系统参数也不必全都获取，具体获取的系统参数根据后续确定复制参数的步骤中需要用到的系统参数决定。每个系统参数的获取时间可以在后续用到该系统参数的步骤前。

S202，根据S201中获取的系统参数，确定复制参数P。

根据S201中获取的系统参数，确定复制参数P。具体可以预设一个计算复制参数P的函数P＝f(系统参数)，函数f的自变量为S201中获取的系统参数。

S202可以在S201后，S208前任意时刻执行。

S203，获取训练图像，根据训练图像建立主干网络，获取主干网络输出的特征图。

S204，将主干网络输出的特征图输入区域提议网络。

S204中主干网络输出的特征图为主干网的第K个卷积层内的特征，或第K个卷积层被卷积核提取的特征。

S205，区域提议网络从特征图中选取提议区域，将提议区域对应的子特征图输入分类器。

S206，分类器根据S205中输入的子特征图，检测该训练图像中的待检测物体。

分类器中设置有参数，分类器根据参数和输入的特征，检测该训练图像中的待检测物体。

S207，对比S206中检测出的该训练图像中的待检测物体和该训练图像中的先验结果，根据对比结果对以下中的至少一个参数进行激励：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，所述分类器的参数。

S207后，S203中获取的训练图像对物体检测模型的激励完毕，检测模型训练装置获取下一个训练图像，并根据下一个训练图像以及该下一个训练图像的先验结果对物体检测模型进行训练。

下一训练图像的激励过程与S203中获取的训练图像的激励过程类似，主要区别在于1.下一训练图像被主干网络抽取特征图中使用的主干网络的各个卷积层的卷积核的模型参数，是S207中被激励过的(如果S207中对其进行了激励)。2.下一训练图像被主干网络抽取特征图后，该特征图输入的区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，是S207中被激励过的(如果S207中对其进行了激励)。3.下一训练图像经历的分类器的特征，是S207中被激励过的(如果S207中对其进行了激励)。

依次类推，每个训练图像会在之前的训练图像对物体检测模型进行的激励的基础上进一步进行激励。全部训练图像依次被用于物体检测模型的训练后，物体检测模型的训练态的第一阶段结束。

S208，复制P个经历了训练态的第一阶段训练的分类器。

S209，获取训练图像，根据训练图像建立主干网络，获取主干网络输出的特征图。

S210，将主干网络输出的特征图输入区域提议网络。

S211，区域提议网络从特征图中选取多个提议区域，将选取的多个提议区域划分为P个提议区域集合，将每个提议区域集合内的提议区域对应的子特征图输入对应的分类器。

S212，分类器根据S211中输入的子特征图，检测该训练图像中的待检测物体。

S213，对比S212中检测出的该训练图像中的待检测物体和该训练图像中的先验结果，根据对比结果对以下中的至少一个参数进行激励：主干网络的各个卷积层的卷积核的模型参数，区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，所述分类器的参数。

S212和S213中每个分类器根据自己获得的子特征图，检测训练图像中的待检测物体，并根据检测结果和先验结果的对比结果对该分类器进行激励。S208中复制出来的每个分类器，均执行S212和S213。

下一训练图像的激励过程与S209中获取的训练图像的激励过程类似，主要区别在于1.下一训练图像被主干网络抽取特征图中使用的主干网络的各个卷积层的卷积核的模型参数，是S213中被激励过的(如果S213中对其进行了激励)。2.下一训练图像被主干网络抽取特征图后，该特征图输入的区域提议网络的卷积核的模型参数，区域提议网络的区域提议参数，是S213中被激励过的(如果S213中对其进行了激励)。3.下一训练图像经历的分类器的特征，是S213中被激励过的(如果S213中对其进行了激励)。

依次类推，每个训练图像会在之前的训练图像对物体检测模型进行的激励的基础上进一步进行激励。全部训练图像依次被用于物体检测模型的训练态的第二阶段后，物体检测模型的训练过程结束。如图5所示，该物体检测模型可以被用于推理态。

如图14所示，介绍检测模型训练装置的另一工作流程，与图13所示的工作流程相比，主要区别在于将图13所示的工作流程中的S203和S209分别替换为S203'和S209'。

参考图6至图8对应的部分，S203'和S209'中，主干网提取了至少两个特征图输入至区域提议网络中，以供区域提议网络选取提议区域。全部训练图像依次被用于物体检测模型的训练态的第二阶段后，物体检测模型的训练过程结束。如图8所示，该物体检测模型可以被用于推理态。

本申请还提供了一种检测模型训练装置400。如图15所示，检测模型训练装置400包括物体检测模型401，激励模块405，存储模块406和初始化模块407。物体检测模型401进一步包括主干网络403，分类器404和区域提议网络402。其中分类器404在训练态的第一阶段时包括一个分类器，在训练态的第二阶段和推理态时包括P个分类器。

以上各个模块可以为软件模块。其中，训练态的第一阶段中，初始化模块407用于执行S201和S202，确定复制参数P。物体检测模型401从存储模块406中获取训练图像并执行S203或S203'，和S204，以建立主干网络403。区域提议网络402执行S205。分类器404用于执行S206。激励模块405用于执行S207。训练态的第二阶段中，初始化模块407用于执行S208，物体检测模型401从存储模块406中获取训练图像并执行S209或S209'，和S210，以建立主干网络403。区域提议网络402执行S211。分类器404用于执行S212。激励模块405用于执行S213。

检测模型训练装置400可以作为物体检测模型训练服务向用户提供。例如图1所示检测模型训练装置400(或其部分)部署在云环境上，用户选择主干网络类型、部分系统参数，并将训练图像以及训练图像的先验结果放入存储模块406后，启动检测模型训练装置400对物体检测模型401进行训练。训练完毕的物体检测模型401被提供给用户，用户可以在自己的终端环境上运行该物体检测模型401或者直接出售该物体检测模型401给第三方使用。

本申请还提供了一种计算设备500。如图16所示，计算设备500包括总线501、处理器502、通信接口503和存储器504。处理器502、存储器504和通信接口503之间通过总线501通信。

其中，处理器可以为中央处理器(英文：central processing unit，缩写：CPU)。存储器可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：randomaccess memory，缩写：RAM)。存储器还可以包括非易失性存储器(英文：non-volatilememory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器，HDD或SSD。存储器中存储有可执行代码，处理器执行该可执行代码以执行前述物体检测方法。存储器中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM,UNIX^TM,WINDOWS^TM等。

计算设备500的存储器中存储了检测模型训练装置400的各个模块对应的代码，处理器502执行这些代码实现了检测模型训练装置400的各个模块的功能，即执行了图13或图14所示的方法。计算设备500可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

如图2所示，检测模型训练装置400的各个部分可能在不同环境上的多台计算设备上执行。因此，本申请还提出了一种计算设备系统。如图17所示，该计算设备系统包括多个计算设备600。每个计算设备600的结构与图16中计算设备500的结构相同。计算设备600间通过通信网络建立通信通路。每个计算设备600上运行区域提议网络402，主干网络403，分类器404，激励模块405，存储模块406和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

进一步的，如图18所示，由于训练图像和训练图像的先验结果占用的空间很大，计算设备600本身可能无法存储全部的训练图像和训练图像的先验结果，本申请还提出了一种计算设备系统。存储模块406部署在云存储服务中(例如对象存储服务)，用户在云存储服务中申请一定容量的存储空间作为存储模块406，并将训练图像和训练图像的先验结果存入存储模块406中。计算设备600运行时，通过通信网络从远端的存储模块406中获取所需的训练图像和训练图像。每个计算设备600上运行区域提议网络402，主干网络403，分类器404，激励模块405和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

Claims

1.一种计算设备执行的训练物体检测模型的方法，其特征在于，所述方法包括：

获取训练图像，根据所述训练图像建立主干网络；

将所述主干网络输出的特征图输入区域提议网络；

所述区域提议网络根据区域提议参数从所述主干网络输出的特征图中选取多个提议区域，将所述多个提议区域对应的子特征图输入分类器；

所述分类器根据所述多个提议区域对应的子特征图检测所述训练图像中的待检测物体；

对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述分类器的参数中的至少一个进行激励；

复制所述分类器，获得至少两个分类器；

所述区域提议网络将所述多个提议区域划分为至少两个提议区域集合，每个提议区域集合包括至少一个提议区域；

所述区域提议网络将每个提议区域集合包括的提议区域对应的子特征图输入所述至少两个分类器中的一个分类器；

所述至少两个分类器中的每个分类器执行以下动作：

根据获取的提议区域集合包括的提议区域对应的子特征图检测所述训练图像中的待检测物体；

对比检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述每个分类器的参数中的至少一个进行激励。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取系统参数，所述系统参数包括以下至少一个：训练图像中的待检测物体的尺寸聚类的数量、训练计算能力；

根据所述系统参数，确定复制后获得的所述至少两个分类器中分类器的数量。

3.如权利要求2所述的方法，其特征在于，所述系统参数包括所述训练图像中的待检测物体的尺寸聚类的数量的情况下；所述获取系统参数包括：

对所述训练图像中的待检测物体的尺寸进行聚类，获取所述训练图像中的待检测物体的尺寸聚类的数量。

4.如权利要求1至3任一所述的方法，其特征在于，所述主干网络输出的特征图包括至少两个特征图。

5.一种检测模型训练装置，其特征在于，包括：

物体检测模型，用于获取训练图像，根据所述训练图像建立主干网络；根据区域提议参数从所述主干网络输出的特征图中选取多个提议区域，将所述多个提议区域对应的子特征图输入分类器；根据所述多个提议区域对应的子特征图检测所述训练图像中的待检测物体；

激励模块，用于对比检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述区域提议网络的卷积核的模型参数、所述区域提议参数、所述分类器的参数中的至少一个进行激励；

初始化模块，用于复制所述分类器，获得至少两个分类器；

6.如权利要求5所述的装置，其特征在于，所述初始化模块，还用于获取系统参数，所述系统参数包括以下至少一个：训练图像中的待检测物体的尺寸聚类的数量、训练计算能力；根据所述系统参数，确定复制后获得的所述至少两个分类器中分类器的数量。

7.如权利要求6所述的装置，其特征在于，所述初始化模块，还用于对所述训练图像中的待检测物体的尺寸进行聚类，获取所述训练图像中的待检测物体的尺寸聚类的数量。

8.如权利要求5至7任一所述的装置，其特征在于，所述主干网络输出的特征图包括至少两个特征图。

9.一种计算设备系统，包括至少一个计算设备；每个计算设备包括处理器和存储器，所述至少一个计算设备的处理器用于执行权利要求1至4中任一所述的方法。

10.一种非瞬态的可读存储介质，其特征在于，所述非瞬态的可读存储介质被计算设备系统中的至少一个计算设备执行时，所述至少一个计算设备执行权利要求1至4中任一所述的方法。

11.一种计算设备程序产品，其特征在于，所述计算设备程序产品被计算设备系统中的至少一个计算设备执行时，所述至少一个计算设备执行权利要求1至4中任一所述的方法。

12.一种计算设备执行的训练物体检测模型的方法，其特征在于，所述方法包括：

在第一阶段训练中，通过主干网络提取训练图像的特征图，通过区域提议网络从提取出的所述特征图中选取提议区域，将所述提议区域对应的子特征图输入分类器，所述分类器根据所述提议区域对应的子特征图检测所述训练图像中的待检测物体，对比所述检测结果和所述训练图像的先验结果，根据所述对比结果对所述主干网络、所述区域提议网络、所述分类器中的至少一个进行激励；

13.如权利要求12所述的方法，其特征在于，所述方法还包括：

根据所述系统参数，确定建立出的所述复制分类器的数量。

14.如权利要求13所述的方法，其特征在于，所述系统参数包括所述训练图像中的待检测物体的尺寸聚类的数量的情况下；所述获取系统参数包括：

15.如权利要求12至14任一所述的方法，其特征在于，所述主干网络提取出的特征图包括至少两个特征图。