CN110795976A

CN110795976A - 一种训练物体检测模型的方法、装置以及设备

Info

Publication number: CN110795976A
Application number: CN201810987040.8A
Authority: CN
Inventors: 张长征; 金鑫; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-28
Publication date: 2020-02-14
Anticipated expiration: 2038-08-28
Also published as: US11423634B2; US20210004625A1; EP3624007A4; EP3624007A1; US11605211B2; CN110796154A; EP3633553A1; CN110795976B; EP3633553A4; CN110796154B; US20210012136A1

Abstract

本申请公开了一种计算设备执行的训练物体检测模型的方法。该方法包括：获取系统参数，例如主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、待检测物体的复杂度；根据系统参数确定配置参数；根据配置参数和主干网络输出的特征图，建立可变卷积网络。基于可变卷积网络输出的特征识别待检测物体，根据识别结果和先验结果的对比训练主干网络和可变卷积网络。任一可变卷积层使用的卷积核在执行卷积的过程中可以向任意方向偏移。该方法训练出来的物体检测模型对待检测物体的识别准确度更高。

Description

一种训练物体检测模型的方法、装置以及设备

技术领域

本申请涉及计算机技术领域，尤其涉及训练物体检测模型的方法，用于执行该方法的装置和计算设备。

背景技术

物体检测是一项对图像/视频中的物体进行准确定位并进行分类检测的人工智能技术，其包含通用物体检测、人脸检测、行人检测、文字检测等诸多细分领域。近年来，学术界与工业界积极投入，算法不断成熟，当前基于深度学习的物体检测方案被用在市政安防(行人检测、车辆检测、车牌检测等)、金融(物体检测、刷脸登录等)、互联网(身份验证)、智能终端等实际产品中。

目前物体检测已经较广泛应用于多种简单/中等复杂难度场景(比如门禁、卡口场景下检测人脸)。在开放环境下，如何保持训练出的物体检测模型对待检测物体的尺寸变化幅度较大、遮挡、扭曲等多种不利因素的鲁棒性，并提升检测精度，仍是一个待解决的问题。

发明内容

本申请提供了一种训练物体检测模型的方法，该方法提升了训练出的物体检测模型的检测精度。

第一方面，提供了一种计算设备执行的物体检测模型的训练方法，执行该方法的计算设备可以是分布在相同或不同环境中的一台或多台计算设备。该方法包括：

获取系统参数，所述系统参数包括以下至少一个：所述物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度。后续确定配置参数的过程中需要用到的系统参数在此步骤中被获取。

根据所述系统参数，确定i个可变卷积网络的配置参数，所述配置参数包括以下至少一个：所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量L_i、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸，i和L_i均为大于0的整数。

获取训练图像，根据所述训练图像建立所述主干网络，所述主干网络包括K个卷积层。

根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络；其中，每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离。

将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器。

对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离、所述分类器的参数中的至少一个进行激励。

以上提供的方法，根据配置参数建立的i个可变卷积网络更好的适应了训练环境的计算能力或训练图片的状况，提升了训练出的物体检测模型的精度。同时，可变卷积网络的卷积核在卷积运算的过程中可以偏移，提升了训练出的物体检测模型对于形变、阻挡较严重的物体的识别精度。

在一种可能的实现方式中，所述根据所述主干网络输出的特征图和所述配置参数建立所述i个可变卷积网络的过程中，任一可变卷积层的卷积核的卷积片可以发生偏移，具体包括：

将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征；将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积，以获取所述i个可变卷积网络的第二可变卷积层中的特征。其中，第一可变卷积层可以属于任一可变卷积网络。第二可变卷积层与第一可变卷积层属于相同的可变卷积网络。

在一种可能的实现方式中，所述根据所述主干网络输出的特征图和所述配置参数建立所述i个可变卷积网络的过程中，任一可变卷积层的卷积核的卷积点可以发生偏移，具体包括：

将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征；将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积，以获取所述i个可变卷积网络的第四可变卷积层中的特征。其中，第三可变卷积层可以属于任一可变卷积网络。第四可变卷积层与第三可变卷积层属于相同的可变卷积网络。

以上介绍的两种偏移方法，偏移对象分别为卷积片和卷积点。这两种偏移方法均使得卷积核在卷积层上的作用域不再是长方体或正方体，而是不规则的形状，而不规则的卷积核的作用域使得卷积核对于复杂度较高的物体更加敏感。采用这样的偏移方法训练出的物体检测模型对于检测复杂度高的待检测物体的识别精度更高。

在一种可能的实现方式中，所述根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络包括：将所述主干网络输出的特征图分为i份，分别作为所述i个可变卷积网络的首个可变卷积层。可选的，可以将主干网络输出的特征图平均分成i份。

在一种可能的实现方式中，所述训练计算能力指示所述计算设备的计算能力。

在一种可能的实现方式中，所述待检测物体的复杂度指示所述待检测物体的检测复杂度。

本申请的第二方面提供了一种检测模型训练装置，包括初始化模块、物体检测模型和激励模块。不同的模块可以分布在不同的计算设备上运行，这几个模块的组合提供了检测模型训练装置。其中，

初始化模块，用于获取系统参数，所述系统参数包括以下至少一个：物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度；根据所述系统参数，确定i个可变卷积网络的配置参数，所述配置参数包括以下至少一个：所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量L_i、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸，i和L_i均为大于0的整数。

物体检测模型，用于获取训练图像，根据所述训练图像建立所述主干网络；根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络；其中，每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离；将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器。

激励模块，用于对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离、所述分类器的参数中的至少一个进行激励。

在一种可能的实现方式中，所述物体检测模型，用于将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征；

将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积，以获取所述i个可变卷积网络的第二可变卷积层中的特征。

在一种可能的实现方式中，所述物体检测模型，用于将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征；

将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积，以获取所述i个可变卷积网络的第四可变卷积层中的特征。

在一种可能的实现方式中，所述物体检测模型，用于将所述主干网络输出的特征图分为i份，分别作为所述i个可变卷积网络的首个可变卷积层。

本申请的第三方面提供了一种计算设备系统。该计算设备系统包括至少一个计算设备。每个计算设备包括处理器和存储器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意可能的实现方式提供的方法。

本申请的第四方面提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被至少一台计算设备执行时，所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质的类型包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(harddisk drive，HDD)、固态硬盘(solid state drive，SSD)。

本申请的第五方面提供了一种计算设备程序产品，所述计算设备程序产品被至少一台计算设备执行时，所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需要使用的附图作以简单地介绍。

图1为本申请提供的系统架构示意图；

图2为本申请提供的另一系统架构示意图；

图3为本申请提供的检测模型训练装置在训练态的工作流程图；

图4为本申请提供的物体检测模型训练在推理态的工作流程图；

图5为本申请提供的卷积层和卷积核的结构示意图；

图6为本申请提供的卷积片的结构示意图；

图7为本申请提供的卷积层的感受野的示意图；

图8为本申请提供的另一卷积层的感受野的示意图；

图9为本申请提供的卷积片偏移的示意图；

图10为本申请提供的多个卷积片偏移的示意图；

图11为本申请提供的卷积点的示意图；

图12为本申请提供的多个卷积点偏移的示意图；

图13为本申请提供的方法流程示意图；

图14为本申请提供的检测模型训练装置的结构示意图；

图15为本申请提供的计算设备的结构示意图；

图16为本申请提供的计算设备系统的结构示意图；

图17为本申请提供的另一计算设备系统的结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方法进行描述。

本申请中各个“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系。

如图1所示，本申请提供的训练物体检测模型的方法由检测模型训练装置执行。该装置可以运行在云环境中，具体为云环境上的一个或多个计算设备上。该装置也可以运行在边缘环境中，具体为边缘环境中的一个或多个计算设备(边缘计算设备)上。该装置还可以运行在终端环境中，具体为终端环境中的一个或多个终端设备上。终端设备可以为手机、笔记本、服务器、台式电脑等。边缘计算设备可以为服务器。

如图2所示，检测模型训练装置可以由多个部分(模块)组成，因此检测模型训练装置的各个部分也可以分别部署在不同环境中。例如，检测模型训练装置可以在云环境、边缘环境、终端环境中的三个，或其中任意两个环境上部署检测模型训练装置的部分模块。

图3介绍了检测模型训练装置的工作流程示意图。图3中，检测模型训练装置工作于训练态，训练态的目的是利用训练图像以及训练图像的先验结果来训练出一个精度较高的物体检测模型。其中，训练图像的先验结果包括训练图像中的待检测物体的标记。如图3中训练图像为例，该训练图像由包括多个人脸，训练图像的先验结果中将该训练图像的每个人脸用白色的框标记出来(如图3左上角)。训练图像的先验结果一般可以由人工提供。

用训练图像建立K层主干网络(backbone network)，该主干网络包括K个卷积层，K为大于0的正整数。主干网络从训练图像中抽取特征图。主干网络提取出的特征图被拆分成i份子特征图，i份子特征图中的每一份被用于建立1个可变卷积网络，因此共计有i个可变卷积网络，i为大于0的正整数。这i个可变卷积网络构成了自适应卷积模块。第i个可变卷积网络包括L_i个可变卷积层，L_i为大于0的正整数。每个可变卷积网络对1份子特征图进行处理，并输出对该子特征图进行处理后获得的处理后的子特征图。将i份处理后的子特征图输入分类器。分类器包括C个，C为大于0的正整数。C大于1时，每个分类器可以侧重于检测不同尺寸的待检测物体。分类器能够根据输入的特征检测出训练图像中的待检测物体。如图3右侧所示，分类器在训练图像上用白色的框标记出检测出的人脸区域。通过比对训练图像的检测结果和训练图像的先验结果，可以得知本次检测模型训练装置检测出的待检测物体和先验结果的差异。如图3中所示，先验结果中的部分人脸未被该检测模型训练装置检测出来。根据该差异来激励物体检测模型的各个参数，包括以下中的至少一个：主干网络的各个卷积层的卷积核的模型参数，任一可变卷积网络的可变卷积层的卷积核的模型参数，任一可变卷积网络的可变卷积层的卷积片/卷积点的最大偏移距离、所述分类器的参数。每个训练图像的检测结果以及训练图像的先验结果之间的差异均会对物体检测模型的各个参数进行激励，因此通过大量训练图像的激励后，物体检测模型的精度将会提升。

检测模型训练装置通过大量的训练图像以及训练图像的先验结果对物体检测模型进行训练，物体检测模型包括主干网络、i个可变卷积网络(自适应卷积模块)和C个分类器。训练完毕的物体检测模型被用于推理态。训练完毕的物体检测模型可以部署在云环境或者边缘环境或者终端环境。或者可以在云环境、边缘环境、终端环境中的三个或其中任意两个上部署物体检测模型的一部分。

如图4所示，推理态中，待检测图像被输入物体检测模型的主干网络，经过i个可变卷积网络和C个分类器的处理后，物体检测模型输出该待检测图像的检测结果。常见的，检测结果中包括被检测出的待检测物体的位置和数量等信息，例如有多少个人脸，每个人脸出现的位置。

以下，介绍本申请使用的概念。

主干网络

主干网络包括卷积网络，该卷积网络包括K个卷积层。除了卷积网络外，主干网络还可以包括池化模块。可选的，主干网络可以采用业界常用的一些模板，例如Vgg，Resnet，Densenet，Xception，Inception，Mobilenet等。训练图像被提取的特征作为主干网的第1个卷积层。主干网络的第1个卷积层被第1个卷积层对应的卷积核提取出的特征形成了主干网络的第2个卷积层。主干网络的第2个卷积层被主干网络的第2个卷积层对应的卷积核提取出的特征形成了主干网络的第3个卷积层。依此类推，主干网络的第k-1个卷积层被主干网络的第k-1个卷积层对应的卷积核提取出的特征形成了主干网络的第k个卷积层，k大于等于1且小于等于K。主干网络的第K个卷积层被主干网络的第K个卷积层对应的卷积核提取出的特征形成了可变卷积网络的第1个可变卷积层。可变卷积网络包括L_i个可变卷积层，与主干网络类似的，可变卷积网络的第k-1个卷积层被可变卷积网络的第k-1个卷积层对应的卷积核提取出的特征形成了可变卷积网络的第k个可变卷积层，k大于等于1且小于或等于L_i-1。

卷积层和卷积核

主干网络和每个可变卷积网络均包括至少一个卷积层。如图5所示，卷积层101的尺寸为X*Y*N₁，即卷积层101包括X*Y*N₁个特征。其中，N₁为通道数，一个通道即一个特征维度，X*Y为每一个通道包括的特征数目。X、Y、N₁均为大于0的正整数。

卷积核1011为作用于卷积层101使用的卷积核之一。由于卷积层102包括N₂个通道，因此卷积层101共使用N₂个卷积核，这N₂个卷积核的尺寸和模型参数可以相同也可以不同。以卷积核1011为例，卷积核1011的尺寸为X₁*X₁*N₁。即卷积核1011内包括X₁*X₁*N₁个模型参数。卷积核内的初始化模型参数可以采用业界常用的模型参数模板。卷积核1011在卷积层101内滑动，滑动到卷积层101的某一位置时，卷积核1011的模型参数和对应位置的卷积层101的特征相乘。将卷积核1011的各个模型参数和对应位置的卷积层101的特征的乘积结果合并后，获得卷积层102的一个通道上的一个特征。卷积层101的特征和卷积核1011的乘积结果可以直接作为卷积层102的特征。也可以在卷积层101的特征和卷积核1011在卷积层101上滑动完毕，输出全部乘积结果后，对全部乘积结果进行归一化，将归一化后的乘积结果作为卷积层102的特征。

形象的表示，卷积核1011在卷积层101上滑动做卷积，卷积的结果形成了卷积层102的一个通道。卷积层101使用的每一个卷积核对应了卷积层102的一个通道。因此，卷积层102的通道数等于作用于卷积层101的卷积核的数目。每一个卷积核内的模型参数的设计体现了该卷积核希望从卷积层内提取的特征的特点。通过N₂个卷积核，卷积层101被提取出N₂个通道的特征。

如图6所示，将卷积核1011拆分开。卷积核1011包括N₁个卷积片，每个卷积片包括X₁*X₁个模型参数(P₁₁至Px₁x₁)。每个模型参数对应一个卷积点。一个卷积点对应的模型参数与该卷积点对应位置内的卷积层内的特征相乘获得该卷积点的卷积结果，一个卷积核的卷积点的卷积结果之和为该卷积核的卷积结果。

卷积核滑动跨度

卷积核的滑动跨度即卷积核在卷积层上每次滑动跨越的特征数。卷积核在当前卷积层的当前位置上做完卷积，形成了下一个卷积层的一个特征后，该卷积核在当前卷积层的当前位置的基础上滑动V个特征，并在滑动后的位置上将卷积核的模型参数和卷积层的特征进行卷积，V即卷积核滑动跨度。

感受野

感受野即卷积层上一个特征在输入图像上的感知域(感知范围)，在该感知范围内的像素如果发生变化，该特征的值将会随之发生变化。如图7所示，卷积核在输入图像上滑动，提取出的特征构成了卷积层101。类似的，卷积核在卷积层101上滑动，提取出的特征构成了卷积层102。那么，卷积层101中每一个特征，是由输入图像上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的，该尺寸也即卷积层101的感受野。因此，卷积层101的感受野如图7所示。

相应的，卷积层102中的每一个特征映射到输入图像上的范围(即采用输入图像上多大范围的像素)也即卷积层102的感受野。如图8所示，卷积层102中的每一个特征，是由卷积层101上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的。而卷积层101上的每一特征，由是由输入图像上滑动的卷积核的卷积片的范围内的输入图像的像素提取出来的。因此，卷积核102的感受野比卷积层101的感受野要大。如果一个卷积网络(主干网络或可变卷积网络)包括多层卷积层，这多层卷积层中的最后一层卷积层的感受野即该卷积网络的感受野。

训练计算能力

训练计算能力即检测模型训练装置部署的环境中，可供用于检测模型训练装置使用的计算能力，包括以下至少一个：处理器频率、处理器占用率、内存大小、内存占用率、缓存利用率、缓存大小、图像处理器频率、图像处理器占用率，其他计算资源参数。当检测模型训练装置的各个部分部署在多个环境中时，训练计算能力可以通过综合计算这多个环境中可供用于检测模型训练装置使用的计算能力来获得。由于训练计算能力主要用于计算自适应卷积模块的配置参数，因此当检测模型训练装置的各个部分部署在不同环境中时，训练计算能力可以通过自适应卷积模块部署的环境中可供用于自适应卷积模块使用的计算能力来获得。

最大偏移距离和偏移距离

最大偏移距离包括两种定义。其一，为卷积片的中心相对于卷积核的中轴线的最大偏移距离。由于卷积片的中心是卷积核的中轴线的一部分，最大偏移距离也即偏移后的卷积片的中心相对于该卷积片原始位置的中心的最大偏移距离。其二，为卷积核内每个卷积点相对于该卷积点原始位置的最大偏移距离。相应的，偏移距离也有两种定义。其一，为偏移后的卷积片的中心与卷积核的中轴线的距离，即偏移后的卷积片的中心相对于卷积核的中轴线的偏移距离。如图9所示，卷积核1011的一个卷积片相对于卷积核1011的中轴线的偏移距离为f(f个特征)。其二，为偏移后的卷积点与该卷积点原始位置的距离，即偏移后的卷积点相对于该卷积点原始位置的偏移距离。如图12所示，卷积核1011的一个卷积点相对于该卷积点原始位置的偏移距离为f(f个特征，图12中f等于0或1或2)。

卷积核1011(图9-12中的实线表示)一般为长方体或正方体，卷积核1011在卷积层101上滑动，滑动到卷积层101的某一位置时，卷积核1011的中轴线由卷积核1011的每个原始卷积片(偏移前的卷积片)中心的卷积点构成。然而，实际上与卷积核1011内的模型参数进行卷积的可能并不完全是原始卷积片的范围内的卷积层101的特征。

卷积片偏移的情况下。卷积核1011的每个原始卷积片均可以以中轴线为中心向任何方向偏移最多不超过最大偏移距离个特征，卷积片的模型参数与偏移后卷积片的位置区域内包括的卷积层101的特征进行卷积。这样，如图10所示，卷积核1011的模型参数虽然没有改变，但是其卷积对象不再是卷积层101内的一个长方体或正方体内的特征，而是围绕卷积核1011的中轴线的各个方向偏移的一系列呈波浪形的卷积片的范围内的特征。通过让卷积片围绕卷积核的中轴线偏移，使得卷积核能够更加有效的提取具有扭曲、形变的范围内的特征，使得卷积核对于扭曲、形变的待检测物体的检测精度更加敏感，提升了物体识别模型的训练效果，提升了训练出的物体识别模型识别物体的精度以及物体识别模型对于扭曲、形变的待检测物体的鲁棒性。

卷积点偏移的情况下。卷积核1011的原始卷积片的每个原始卷积点均可以以该卷积点原始位置为中心向任何方向偏移最多不超过最大偏移距离个特征，卷积点的模型参数与偏移后位置对应的卷积层101的特征进行卷积。如图11所示，卷积核1011的尺寸为2*2*N₁，即每一个卷积片包括2*2个卷积点。每个卷积点用一个虚线矩形框表示。例如，如图12所示，卷积核1011的第1个卷积片的左上角的卷积点向上偏移了1个特征，右上角的卷积点向右偏移了2个特征，左下角的卷积点未偏移，右下角的卷积点向下偏移了1个特征。卷积点对应的模型参数和卷积层101在偏移后卷积点的位置对应的特征相乘，一个卷积片内各个卷积点对应的乘积完成后，对下一卷积片内的卷积点进行处理。卷积核1011内每个卷积点对应的模型参数均与卷积层101在该卷积点偏移后的位置对应的特征的乘积运算完毕后，这些乘积结果的集合为卷积核1011的卷积结果。如图12所示，卷积核1011内的模型参数虽然没有改变，但是其卷积对象不再是卷积层101内的一个长方体或正方体范围内的特征，而是围绕卷积核1011的各个方向偏移的一系列呈离散分部的卷积点的位置对应的特征。通过让卷积点围绕原始位置随机偏移，使得卷积核能够更加有效的提取具有扭曲、形变的范围内的特征，使得卷积核对于扭曲、形变的待检测物体的检测精度更加敏感，提升了物体识别模型的训练效果，提升了训练出的物体识别模型识别物体的精度以及物体识别模型对于扭曲、形变的待检测物体的鲁棒性。

如图13所示，介绍检测模型训练装置的工作流程。

S201，获取以下系统参数中的至少一个。

主干网络的感受野；训练图像的尺寸；待检测物体的尺寸；训练计算能力；待检测物体的复杂度。

其中，待检测物体的尺寸、待检测物体的复杂度可以人工输入至检测模型训练装置。不同训练图像的尺寸和待检测物体的尺寸可能不同。作为一种可选的方案，此时可以取全体训练图像的尺寸的平均值作为训练图像的尺寸，取全体训练图像内待检测物体的尺寸的平均值作为待检测物体的尺寸。

待检测物体的复杂度表现了待检测物体被识别出来的难度，例如待检测物体的数目(每个待检测图像中待检测物体的平均数量)，待检测物体的反光是否均衡等。待检测物体的复杂度还包括待检测物体的形变程度。待检测物体的形变程度表现了待检测物体的形变、扭曲、遮挡程度，待检测图像中的待检测物体的形变、扭曲、遮挡越严重，待检测物体的复杂度越大。

以上系统参数的获取可以分多次获取，不必在同一步骤中执行。以上系统参数也不必全都获取，具体获取的系统参数根据后续确定配置参数的步骤中需要用到的系统参数决定。每个系统参数的获取时间可以在后续用到该系统参数的步骤前。

S202，根据S201中获取的系统参数，确定以下配置参数中的至少一个。该配置参数用于建立图3中i行L_i列的可变卷积网络。配置参数包括：i，L_i(每个可变卷积网络包括的可变卷积层的数量可以相同也可以不同)，卷积核滑动跨度，最大偏移距离，卷积核尺寸。

以上配置参数可以分多次确定，不必在同一步骤中确定。以上配置参数也不必全部都被确定，后续建立自适应卷积模块的过程中被使用的配置参数需要在S202中被确定。后续建立自适应卷积模块的过程中需要的部分配置参数可能已经通过人工设置，这部分通过人工设置的配置参数也无须在S202中被确定。

其中，i可以由训练计算能力、待检测物体的复杂度决定。一般训练计算能力越强代表可以用于训练的计算资源越多，主干网络输出的特征图可以被拆成更多个子特征图，相应的i的取值越大。待检测物体的复杂度越大，待检测物体越难以被检测，需要i的取值更大以保证训练出的模型的检测精度。i越大的情况下，主干网络输出的特征图被拆分成更多可变形卷积网络，能够更好的对特征图内的特征进行重构，提升了自适应卷积模块最终输出的特征的质量。i如果过大，需要的训练计算能力可能无法支持检测模型训练装置的运行。根据以上系统参数获取的i可以兼顾训练计算能力与检测模型训练装置的精确性。

L_i可以由主干网络的感受野、训练图像的尺寸、待检测物体的尺寸决定。一般主干网络的感受野和待检测物体的尺寸之比越小，说明主干网络的感受野可能不足以覆盖各种尺寸的待检测物体，因此L_i的取值越大，以通过在任一可变卷积网络中设置更多的可变卷积层扩大感受野。反之，主干网络的感受野和待检测物体的尺寸之比越大，说明主干网络的感受野足以覆盖大尺寸的待检测物体，因此L_i的取值越小，不必设置太多的可变卷积层。训练图像的尺寸越大，一般图像内的待检测物体的尺寸越大，L_i的取值越大。训练图像的尺寸越小，一般图像内的待检测物体的尺寸越小，L_i的取值越小。适当的L_i的选择，提升了训练出的物体检测模型的精度。

最大偏移距离可以由待检测物体的复杂度决定。一般待检测物体的复杂度越大，卷积片和卷积点需要偏移的长度越大，所需的最大偏移距离越大。一般待检测物体的复杂度越小，所需的最大偏移距离越小。适当的最大偏移距离的选择，提升了训练出的物体检测模型的精度。

卷积核滑动跨度可以由训练计算能力决定。训练计算能力越强，可以用于训练物体检测模块的计算资源越多，确定的卷积核滑动跨度越小，以保证可以更细粒度的从当前可变卷积层中抽取特征构建下一可变卷积层。适当的卷积核滑动跨度的选择，提升了训练出的物体检测模型的精度。

卷积核尺寸可以由训练计算能力、训练图像的尺寸、待检测物体的尺寸决定。训练计算能力越大，卷积核的尺寸越大。训练图像的尺寸、待检测物体的尺寸越大，卷积核的尺寸越大。每一个可变卷积层使用的卷积核的尺寸可以相同也可以不同，不同的情况下S202中获取的卷积核尺寸可以有多个。适当的卷积核尺寸的选择，提升了训练出的物体检测模型的精度。

以上仅为示例性的介绍各个配置参数怎么获得。各个配置参数实际的获得方式可以不限于以上规则，可以采用S201中任意一个或多个系统参数，或引入其他训练图像的系统参数或训练图像内的待检测物体的系统参数或主干网络或运行环境的系统参数来获取任一配置参数。

以上配置参数中的部分或全部可以通过预设获得。检测模型训练装置预先(S201前)获取部分的配置参数，这部分配置参数无须在S202中被确定。这些预先获得的配置参数可以是人工通过经验设置的。预先配置部分配置参数可以减少检测模型训练装置在S201中获取的系统参数的种类以及S202中计算配置参数的运算量，加快了检测模型训练装置的运行效率。

以上系统参数指代训练图像或训练图像中的待检测物体或主干网络或训练环境的参数，这类系统参数在建立物体检测模型前就可以获得。系统参数一般不因模型参数或配置参数的影响。系统参数也称为超级参数。配置参数指代建立自适应卷积模块所需的参数，配置参数根据系统参数获取，不同的系统参数可能导致不同的配置参数。模型参数指代卷积核内各个卷积点对应的参数，模型参数在物体检测模型的训练过程中不断被激励而发生变化。

S203，获取训练图像，根据训练图像建立主干网络，获取主干网络输出的特征图。

S204，根据主干网络输出的特征图和根据S202中确定的(预获取的)配置参数，建立自适应卷积模块中的i个可变卷积网络，第i个可变卷积网络包括L_i个可变卷积层。

S204中主干网络输出的特征图可以为主干网的第K个卷积层内的特征，也可以为主干网的其他卷积层内的特征。获取特征图后，将特征图分为i份，分别作为每个可变卷积网络的第1个可变卷积层。例如特征图的尺寸为X*X*512，i＝64的情况下，则将特征图分为X*X*8个可变卷积层。以第i个可变卷积网络为例，根据第i个可变卷积网络的第1个可变卷积层的卷积核对第1个可变卷积层的特征进行卷积，以获取第2个可变卷积层。卷积的过程中，每个卷积核的卷积片/卷积点均可以向任意方向偏移不超过最大偏移距离个特征，并与偏移后的位置对应的第1个可变卷积层的特征相乘。第1个可变卷积层与对应的卷积核卷积操作形成了第2个可变卷积层。同理，第2个可变卷积层与对应的卷积核卷积操作形成了第2个可变卷积层。依次类推，获取第L_i个可变卷积层。

由于第i个可变卷积网络包括L_i个可变卷积层，因此第i个可变卷积网络采用了L_i-1个卷积核。每个可变卷积层使用的卷积核的尺寸即S202中确定的卷积核尺寸，卷积核内的模型参数可以在卷积核尺寸确定后预先设置(S203之前)。每个可变卷积层使用的卷积核的滑动跨度即S202中确定的卷积核滑动跨度。每个可变卷积层中卷积片的中心相对于卷积核的中轴的偏移距离不大于S202中确定的最大偏移距离。或者，每个可变卷积层中卷积点相对于该卷积点的原始位置的偏移距离不大于S202中确定的最大偏移距离。

S205，将i个可变卷积网络的最后一层可变卷积层中的特征输入分类器。

将i个可变卷积网络的最后一层中的特征输入至分类器中，分类器可以有多个，分别针对不同尺寸的待检测物体。输入分类器前，i个可变卷积网络的最后一层中的特征可以进行合并、归一化等处理。

S206，分类器根据S205中输入的特征，识别该训练图像中的待检测对象。

分类器中设置有参数，分类器根据参数和输入的特征，识别该训练图像中的待检测对象。

S207，对比S206中识别出的该训练图像中的待检测对象和该训练图像中的先验结果，根据先验结果对以下中的至少一个参数进行激励：主干网络的各个卷积层的卷积核的模型参数，任一可变卷积网络的可变卷积层的卷积核的模型参数，任一可变卷积网络的可变卷积层的卷积片/卷积点的最大偏移距离，所述分类器的参数。

S207后，S203中获取的训练图像对物体检测模型的激励完毕，检测模型训练装置获取下一个训练图像，并根据下一个训练图像以及该下一个训练图像的先验结果对物体检测模型进行训练。

下一训练图像的激励过程与S203中获取的训练图像的激励过程类似，主要区别在于1.下一训练图像被主干网络抽取特征图中使用的主干网络的各个卷积层的卷积核的模型参数，是S207中被激励过的(如果S207中对其进行了激励)。2.下一训练图像被主干网络抽取特征图后，该特征图被i个可变卷积网络抽取分类器的输入特征的过程中使用的各个可变卷积层的卷积核的模型参数，是S207中被激励过的(如果S207中对其进行了激励)。3.下一训练图像被主干网络抽取特征图后，该特征图被i个可变卷积网络抽取分类器的输入特征中使用的卷积片/卷积点的最大偏移距离，是S207中被激励过的(如果S207中对其进行了激励)。4.下一训练图像经历的分类器的特征，是S207中被激励过的(如果S207中对其进行了激励)。

依次类推，每个训练图像会在之前的训练图像对物体检测模型进行的激励的基础上进一步进行激励。全部训练图像依次被用于物体检测模型的训练后，物体检测模型的训练过程结束。如图3所示，该物体检测模型可以被用于推理态。

本申请还提供了一种检测模型训练装置400。如图14所示，检测模型训练装置400包括物体检测模型401，激励模块405，存储模块406和初始化模块407。物体检测模型401进一步包括主干网络403，分类器404，自适应卷积模块402。自适应卷积模块402包括i个可变卷积网络。

以上各个模块可以为软件模块。其中，初始化模块407用于执行S201和S202，确定各个配置参数。物体检测模型401从存储模块406中获取首个训练图像，根据初始化模块407确定出的配置参数，执行S203和S204以建立主干网络403和自适应卷积模块402。自适应卷积模块402执行S205，将i个可变卷积网络的最后一层可变卷积层中的特征输入分类器404。分类器404用于执行S206。激励模块405用于执行S207。

检测模型训练装置400可以作为物体检测模型训练服务向用户提供。例如图1所示检测模型训练装置400(或其部分)部署在云环境上，用户选择主干网络类型、部分配置参数，并将训练图像以及训练图像的先验结果放入存储模块406后，启动检测模型训练装置400对物体检测模型401进行训练。训练完毕的物体检测模型401被提供给用户，用户可以在自己的终端环境上运行该物体检测模型401或者直接出售该物体检测模型401给第三方使用。

本申请还提供了一种计算设备500。如图15所示，计算设备500包括总线501、处理器502、通信接口503和存储器504。处理器502、存储器504和通信接口503之间通过总线501通信。

其中，处理器可以为中央处理器(英文：central processing unit，缩写：CPU)。存储器可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：randomaccess memory，缩写：RAM)。存储器还可以包括非易失性存储器(英文：non-volatilememory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器，HDD或SSD。存储器中存储有可执行代码，处理器执行该可执行代码以执行前述物体检测方法。存储器中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM,UNIX^TM,WINDOWS^TM等。

计算设备500的存储器中存储了检测模型训练装置400的各个模块对应的代码，处理器502执行这些代码实现了检测模型训练装置400的各个模块的功能，即执行了图13所示的方法。计算设备500可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

如图2所示，检测模型训练装置400的各个部分可能在不同环境上的多台计算设备上执行。因此，本申请还提出了一种计算设备系统。如图16所示，该计算设备系统包括多个计算设备600。每个计算设备600的结构与图15中计算设备500的结构相同。计算设备600间通过通信网络建立通信通路。每个计算设备600上运行自适应卷积模块402，主干网络403，分类器404，激励模块405，存储模块406和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

进一步的，如图17所示，由于训练图像和训练图像的先验结果占用的空间很大，计算设备600本身可能无法存储全部的训练图像和训练图像的先验结果，本申请还提出了一种计算设备系统。存储模块406部署在云存储服务中(例如对象存储服务)，用户在云存储服务中申请一定容量的存储空间作为存储模块406，并将训练图像和训练图像的先验结果存入存储模块406中。计算设备600运行时，通过通信网络从远端的存储模块406中获取所需的训练图像和训练图像。每个计算设备600上运行自适应卷积模块402，主干网络403，分类器404，激励模块405和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备，或边缘环境中的计算设备，或终端环境中的计算设备。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

Claims

1.一种计算设备执行的训练物体检测模型的方法，其特征在于，所述方法包括：

获取系统参数，所述系统参数包括以下至少一个：所述物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度；

根据所述系统参数，确定i个可变卷积网络的配置参数，所述配置参数包括以下至少一个：所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量L_i、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸，i和L_i均为大于0的整数；

获取训练图像，根据所述训练图像建立所述主干网络；

根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络；其中，每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离；

将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器；

对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离中的至少一个进行激励。

2.如权利要求1所述的方法，其特征在于，所述根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络包括：

将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征；

3.如权利要求1所述的方法，其特征在于，所述根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络包括：

将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征；

4.如权利要求1至3任一所述的方法，其特征在于，所述根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络包括：

将所述主干网络输出的特征图分为i份，分别作为所述i个可变卷积网络的首个可变卷积层。

5.如权利要求1至4任一所述的方法，其特征在于，所述训练计算能力指示所述计算设备的计算能力。

6.如权利要求1至5任一所述的方法，其特征在于，所述待检测物体的复杂度指示所述待检测物体的检测复杂度。

7.一种检测模型训练装置，其特征在于，包括：

初始化模块，用于获取系统参数，所述系统参数包括以下至少一个：物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度；根据所述系统参数，确定i个可变卷积网络的配置参数，所述配置参数包括以下至少一个：所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量L_i、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸，i和L_i均为大于0的整数；

物体检测模型，用于获取训练图像，根据所述训练图像建立所述主干网络；根据所述主干网络输出的特征图和所述配置参数，建立所述i个可变卷积网络；其中，每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离；将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器；

激励模块，用于对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果，根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离中的至少一个进行激励。

8.如权利要求7所述的装置，其特征在于，所述物体检测模型，用于将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征；

9.如权利要求7所述的装置，其特征在于，所述物体检测模型，用于将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征；

10.如权利要求7至9任一所述的装置，其特征在于，所述物体检测模型，用于将所述主干网络输出的特征图分为i份，分别作为所述i个可变卷积网络的首个可变卷积层。

11.如权利要求7至10任一所述的装置，其特征在于，所述训练计算能力指示所述计算设备的计算能力。

12.如权利要求7至11任一所述的装置，其特征在于，所述待检测物体的复杂度指示所述待检测物体的检测复杂度。

13.一种计算设备系统，包括至少一个计算设备；每个计算设备包括处理器和存储器，所述至少一个计算设备的处理器用于执行权利要求1至6任一所述的方法。

14.一种非瞬态的可读存储介质，其特征在于，所述非瞬态的可读存储介质被计算设备系统中的至少一个计算设备执行时，所述至少一个计算设备执行权利要求1至6中任一所述的方法。

15.一种计算设备程序产品，其特征在于，所述计算设备程序产品被计算设备系统中的至少一个计算设备执行时，所述至少一个计算设备执行权利要求1至6中任一所述的方法。