CN114239761A

CN114239761A - 一种目标检测模型训练方法和装置

Info

Publication number: CN114239761A
Application number: CN202210179018.7A
Authority: CN
Inventors: 田鲲; 叶云; 黄冠
Original assignee: Beijing Jianzhi Technology Co ltd
Current assignee: Beijing Jianzhi Technology Co ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-03-25
Anticipated expiration: 2042-02-25
Also published as: CN114239761B

Abstract

本申请公开了一种目标检测模型训练方法和装置，涉及图像识别技术领域。所述训练方法包括获取样本图像对应的多个目标特征图像，并将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，目标特征图像中的每个像素至少包括一个锚点框；然后建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，最后依据特征连接关系，确定所述目标检测模型的损失函数，并基于损失函数调整模型参数，得到训练完成的目标检测模型。每个锚点框可以朝着多个训练目标进行学习，从而可以增加了每种检测类型对应的训练样本，能够提高预测结果的精确度，适用于密集场景中的目标检测。

Description

一种目标检测模型训练方法和装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种目标检测模型训练方法和装置。

背景技术

目标检测技术指的是对于给定输入的图像或视频数据，能够使计算机自动预测出感兴趣目标定位信息和类别信息的技术。例如现有技术中会将目标检测技术应用于密集场景中。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：在密集场景中，位于同一区域内的目标对象数量较多，普遍存在无法检测到每一个目标对象的情况，从而影响到目标对象检测的准确度。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的目标检测模型训练方法和装置。

依据本发明的第一方面，提供了一种目标检测模型训练方法，所述方法包括：

获取样本图像对应的多个目标特征图像；

将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，所述目标特征图像中的每个像素至少包括一个锚点框；

建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系；

依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

依据本发明的第二方面，提供了一种目标检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入到目标检测模型中进行识别，确定所述待检测图像的分类信息和定位信息，所述目标检测模型通过模型训练方法训练得到，所述模型训练方法包括将样本图像对应的各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，并确定所述目标检测模型的损失函数，基于所述损失函数调整模型参数，确定训练完成的目标检测模型。

依据本发明的第三方面，提供了一种目标检测模型训练装置，所述目标检测模型包括检测头网络，所述装置包括：

特征图像获取模块，用于获取样本图像对应的多个目标特征图像；

预测信息确定模块，用于将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，所述目标特征图像中的每个像素至少包括一个锚点框；

特征连接模块，用于建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系；

参数调整模块，用于依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

依据本发明的第四方面，提供了一种目标检测装置，所述装置包括：

检测图像获取模块，用于获取待检测图像；

目标识别模块，用于将所述待检测图像输入到目标检测模型中进行识别，确定所述待检测图像的分类信息和定位信息，所述目标检测模型通过模型训练方法训练得到，所述模型训练方法包括将样本图像对应的各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，并确定所述目标检测模型的损失函数，基于所述损失函数调整模型参数，确定训练完成的目标检测模型。

本发明方案中，通过获取样本图像对应的多个目标特征图像，并将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，目标特征图像中的每个像素至少包括一个锚点框；然后建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，最后依据特征连接关系，确定所述目标检测模型的损失函数，并基于损失函数调整模型参数，得到训练完成的目标检测模型。每个锚点框可以朝着多个训练目标进行学习，从而可以增加了每种检测类型对应的训练样本，能够提高预测结果的精确度，适用于密集场景中的目标检测。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1是本发明实施例提供的一种目标检测模型训练方法的步骤流程图；

图2是本发明实施例提供的另一种目标检测模型训练方法的步骤流程图；

图3是本发明实施例提供的一种目标检测模型的结构示意图；

图4是本发明实施例提供的一种颈部网络进行图像融合的方法示意图；

图5是本发明实施例提供的又一种目标检测模型训练方法的步骤流程图；

图6是本发明实施例提供的一种目标检测方法的步骤流程图；

图7是本发明实施例提供的一种目标检测模型训练装置的框图；

图8是本发明实施例提供的一种目标检测装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明实施例提供的一种目标检测模型训练方法的步骤流程图，所述目标检测模型包括检测头网络，所述方法可以包括：

S101、获取样本图像对应的多个目标特征图像。

本发明实施例中，目标检测模型可以包括主干网络、颈部网络以及检测头网络。其中，所述主干网络用于提取目标特征图像的全局的特征图集合。所述特征图集合中包括目标特征图像对应的多个第一特征图像，多个第一特征图像的图像分辨率不同。所述颈部网络用于实现不同图像分辨率的特征图像的融合。由此，将所述特征图集合输入到所述颈部网络中进行处理，实现不同图像分辨率的第一特征图像之间的融合，从而达到目标特征图像的图像特征的增强。将经过所述颈部网络处理得到的特征图像，确定为目标特征图像。

样本图像指的是为了模型训练，预先确定的目标特征图像。在模型训练过程中，经过主干网络和颈部网络，可以得到同一个样本图像对应的多个目标特征图像。

S102、将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，所述目标特征图像中的每个像素至少包括一个锚点框。

本发明实施例中，所述锚点框指的是在图像中预先铺设的包括有参数信息的边界框。其中所述参数信息包括锚点框的位置信息和尺寸信息。例如，边界框是一个矩形框，其可以通过矩形框的左上角的坐标信息和右下角的坐标信息确定。一种示例中，可以将左上角的坐标信息作为锚点框的位置信息，通过左上角的坐标信息和右下角的坐标信息计算出矩形框的宽度和高度，并将所述矩形框的宽度和高度作为锚点框的尺寸信息。另一种示例中，可以将右下角的坐标信息作为锚点框的位置信息，通过左上角的坐标信息和右下角的坐标信息计算出矩形框的宽度和高度，并将所述矩形框的宽度和高度作为锚点框的尺寸信息。又一种示例中，可以将边界框的中心点的坐标信息作为锚点框的位置信息，并将矩形框的宽度和高度作为锚点框的尺寸信息。

由此，在特征识别过程中，首先依据目标特征图像的每个像素，预设至少一个锚点框。其中，每个像素对应的锚点框的数量可以为A个，其中，A可以进行动态设置。不同图像分辨率的多个目标特征图像，其每个目标特征图像上预设的锚点框的参数信息可以不一致。所述训练目标指的是目标检测模型所需要检测到的感兴趣的物体。本领域技术人员可以根据实际应用场景来确定不同的训练目标。其中，在模型训练过程中，样本图像中的各训练目标对应的检测框的参数信息预先标定。

针对密集场景而言，一个预设的锚点框内可以包括多个训练目标，在经过所述检测头网络的特征识别后，可以得到对锚点框内的特征图像中多个训练目标的若干个预测属性信息。所述预测属性信息包括分类信息和定位信息。其中，所述分类信息指的是锚点框所对应的训练目标的类型。所述定位信息指的是训练目标的检测框相对于锚点框的位置。

S103、建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。

S104、依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

本发明实施例中，建立特征连接关系也可以理解为针对每个锚点框进行目标标签的标注。其中，所述目标标签包括检测类型和位置偏移量，所述检测类型指的是所述训练目标所对应的类型，所述位置偏移量指的是检测框相对于锚点框的偏移量。一种示例中，可以通过锚点框与每个训练目标的检测框之间的交并比建立特征连接关系。其中，交并比指的是锚点框与检测框的相交面积与相并面积之比。由此，每个锚点框对应的预测属性信息可以和多个不同的训练目标建立起学习关系。通过所述特征连接关系，确定出预测框，并基于预测框和检测框，确定出所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，例如在损失函数不再下降或下降的幅度很小的情况下，确定所述目标检测模型训练完成。

综上，本发明实施例提供的一种目标检测模型训练方法，通过获取样本图像对应的多个目标特征图像，并将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，目标特征图像中的每个像素至少包括一个锚点框；然后建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，最后依据特征连接关系，确定所述目标检测模型的损失函数，并基于损失函数调整模型参数，得到训练完成的目标检测模型。每个锚点框可以朝着多个训练目标进行学习，从而可以增加了每种检测类型对应的训练样本，能够提高预测结果的精确度，适用于密集场景中的目标检测。

参照图2，示出了本发明实施例提供的另一种目标检测模型训练方法的步骤流程图，所述目标检测模型包括检测头网络，所述方法可以包括：

S201、获取样本图像对应的多个目标特征图像。

本发明实施例中，参照图3，所述目标检测模型可以包括主干网络、颈部网络以及检测头网络。其中，所述主干网络用于提取目标特征图像的全局的特征图集合。所述特征图集合中包括目标特征图像对应的多个第一特征图像，多个第一特征图像的图像分辨率不同。所述颈部网络用于实现不同图像分辨率的特征图像的融合。由此，将所述特征图集合输入到所述颈部网络中进行处理，实现不同图像分辨率的第一特征图像之间的融合，从而达到目标特征图像的图像特征的增强。将经过所述颈部网络处理得到的特征图像，确定为目标特征图像。

一种示例中，所述主干网络提取目标特征图像的层级特征，形成特征图集合，所述特征图集合中的第一特征图像可以是目标特征图像经过下采样得到。如所述特征图集合中包括S3、S4以及S5这3个第一特征图像时，对应的，可以是目标特征图像经过8倍下采样得到第一特征图像S3，目标特征图像经过16倍下采样得到第一特征图像S4，目标特征图像经过32倍下采样得到第一特征图像S5。

所述颈部网络融合不同层级特征之间的语义信息。在融合过程中，两个特征图像执行求和操作，即对应像素的像素值分别相加。考虑到图像分辨率的不同，可以将图像分辨率较低的第一特征图像进行上采样作为求和操作的一个加数，将图像分辨率较高的第一特征图像通过1*1卷积映射作为另一个加数，最后两者相加，得到融合后的目标特征图像。

所述目标特征图像的数量和所述第一特征图像的数量匹配。例如，通过颈部网络处理，得到P5、P4以及P3这3个目标特征图像。参照图4所示，将所述第一特征图像S5通过1*1卷积映射为目标特征图像P5。将所述目标特征图像P5进行2倍上采样，然后将第一特征图像S4通过1*1卷积映射作为另一个加数，最后两者相加，得到融合后的目标特征图像P4。将所述目标特征图像P4进行2倍上采样，然后将第一特征图像S3通过1*1卷积映射作为另一个加数，最后两者相加，得到融合后的目标特征图像P3。

S202、将各目标特征图像分别输入到所述分类子网络中识别，得到每个锚点框对应的多个训练目标的分类信息。

本发明实施例中，所述检测头网络包括分类子网络和回归子网络。所述锚点框指的是在图像中预先铺设的包括有参数信息的边界框。所述参数信息包括位置信息和尺寸信息。一种示例中，所述锚点框可以通过M（X，Y，W，H）来表示。其中，（X，Y）可以是锚点框的中心点的坐标，其用于表示所述位置信息，（W，H）可以是锚点框的宽度和高度，用于表示所述尺寸信息。将所述颈部网络输出的每个目标特征图像并行输入到所述分类子网络和回归子网络中，其中，所述分类子网络用于对每个锚点框内的特征图像进行若干次类型预测，如类型预测的次数为N，对应的，则分类信息可以是对应的检测类型。其可以采用cn表示。cn指的是第N次预测得到的位于对应锚点框内的训练目标的检测类型。一种示例中，所述目标检测模型用于检测目标的检测类型的数量为C个，其中，检测类型的数量可以动态设置。例如，在所述目标检测模型用于检测十字路口的人车流量时，则对应的训练目标的检测类型可以为３个，３个检测类型可以包括：行人、小型汽车以及电动车。

S203、将各目标特征图像分别输入到所述回归子网络中识别，得到每个锚点框对应的多个训练目标的定位信息。

本发明实施例中，所述回归子网络用于预测训练目标的检测框的定位信息，其中，所述定位信息可以是训练目标的检测框相对于锚点框的位置，可以采用检测框相对于锚点框的位移偏移量来表示。所述定位信息预测的次数和类型预测的次数匹配。对应的，所述定位信息可以采用D（xn，yn，wn，hn）进行表示。其中，xn指的是第N次预测的训练目标的检测框和对应锚点框在X轴上的平移量；yn指的是第N次预测的训练目标的检测框和对应锚点框在Y轴上的平移量；wn指的是第N次预测的训练目标的检测框的宽度；hn指的是第N次预测的训练目标的检测框的高度。

S204、分别将各分类信息和定位信息按序组合，作为多个训练目标的若干个预测属性信息。

本发明实施例中，将分类子网络输出的各分类信息和回归子网络输出的各定位信息，按照输出顺序进行组合，得到多个训练目标的若干个预测属性信息。例如，所述预测属性信息可以采用P（xn，yn，wn，hn，cn）表示。由此，针对一个像素对应的一个锚点框，可以得到N个预测属性信息。其中，所述检测头对同一目标特征图像进行特征识别时，输出的预测属性信息的个数可以动态设置。

S205、计算每个训练目标的检测框和对应的锚点框之间的第一交并比。

S206、降序排列各第一交并比，并清除符合阈值条件的第一交并比，生成交并序列。

S207、建立若干个预测属性信息和所述交并序列中各第一交并比所对应的检测框的特征连接关系。

本发明实施例中，建立特征连接关系也可以理解为针对每个锚点框进行目标标签的标注。其中，所述目标标签包括检测类型和位置偏移量，所述检测类型指的是所述训练目标所对应的类型，所述位置偏移量指的是检测框相对于锚点框的偏移量。由此，每个锚点框对应的预测属性信息可以和多个不同的训练目标建立起学习关系。其中，所述检测框可以通过gts（xs，ys，ws，hs）来表示，其中，S表示是锚点框内所包含的第S个训练目标，计算每个训练目标的检测框和对应的锚点框之间的第一交并比。

一种示例中，在一个锚点框M1（X1，Y1，W1，H1）内包括有3个训练目标，例如3个训练目标分别为行人、小型汽车以及电动车。则各训练目标的检测框可以分别为gt1（x1，y1，w1，h1）、gt2（x2，y2，w2，h2）以及gt3（x3，y3，w3，h3）。根据上述具体的参数信息，可以计算出各检测框和锚点框所对应的第一交并比。在确定出各第一交并比之后，对各第一交并比按照数值进行降序排列，并清除符合阈值条件的第一交并比。其中，阈值条件可以是第一交并比小于或等于交并比阈值，所述交并比阈值可以设置为0.5、0.55以及0.6等值，可根据实际应用场景进行预设，在此不做限定。将执行清除后的各第一交并比确定为交并序列。例如，所述交并序列中依序包括检测框gt1、检测框gt2以及检测框gt3，所述检测框gt1的第一交并比最大，所述检测框gt3的第一交并比最小。

最后建立若干个预测属性信息和所述交并序列中各第一交并比所对应的检测框的特征连接关系。例如，将根据锚点框M1预测的N个预测属性信息，如P1（x1，y1，w1，h1，c1）、P2（x2，y2，w2，h2，c2）、……、Pn（xn，yn，wn，hn，cn）和检测框gt1、检测框gt2以及检测框gt3按照所述交并序列中排列的各第一交并比建立连接关系。将P1（x1，y1，w1，h1，c1）和gt1（x1，y1，w1，h1）进行连接，将P2（x2，y2，w2，h2，c2）和gt2（x2，y2，w2，h2）进行连接，将P3（x3，y3，w3，h3，c3）和gt3（x3，y3，w3，h3）进行连接。将剩下的P4到Pn分别与gt1（x1，y1，w1，h1）进行连接，由此，就对每个预测属性信息建立了与多个训练目标的检测框之间的学习关系，相对于此锚点框，可以同时对多个训练目标的检测框进行学习。在此次训练过程中，锚点框标注的检测类型为多个，锚点框标注的位置偏移量也为多个。例如，根据上述特征连接关系，此锚点框对应的检测类型包括行人、小型汽车以及电动车。对应的位置偏移量包括行人的检测框与锚点框之间的位置偏移量、小型汽车的检测框与锚点框之间的位置偏移量以及电动车的检测框与锚点框之间的位置偏移量。

S208、依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

本发明实施例中，依据所述特征连接关系，确定N个预测属性信息对应的正负训练样本，其中，将符合阈值条件的第一交并比对应的预测属性信息确定为负训练样本，将不符合阈值条件的第一交并比对应的预测属性信息确定为正训练样本。由此，根据正负训练样本确定目标检测模型的损失函数，并基于所述损失函数调整模型参数，在所述损失函数不再减小或下降幅度很小时，停止调整模型参数，并确定目标检测模型训练完成。在调整模型参数时，锚点框的预测属性信息会逐步逼近训练目标。从而能够在待检测目标较为密集的应用场景中，通过训练得到的目标检测模型也能够精确的检测到每一个待检测目标。

在训练完成的目标检测模型中，每个锚点框能够预测N组检测类型和位置偏移量。

参照图5，示出了本发明实施例提供的又一种目标检测模型训练方法的步骤流程图，所述目标检测模型包括检测头网络，所述方法可以包括：

S501、获取样本图像对应的多个目标特征图像。

S502、将各目标特征图像分别输入到所述分类子网络中识别，得到每个锚点框对应的多个训练目标的分类信息。

S503、将各目标特征图像分别输入到所述回归子网络中识别，得到每个锚点框对应的多个训练目标的定位信息。

S504、分别将各分类信息和定位信息按序组合，作为多个训练目标的若干个预测属性信息。

本发明实施中，对步骤S501-步骤S504的描述内容参照步骤S201-步骤S204的描述内容。

S505、计算每个训练目标的检测框和每个预测属性信息之间的匹配代价。

S506、在所述匹配代价符合匹配条件时，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。

本发明实施例中，匹配代价指的是检测框和预测属性信息之间的差异值。所述匹配代价符合匹配条件时，例如匹配条件可以是匹配代价最小。由此，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。其中，匹配代价可以依据交并比差值、定位差值以及预测概率差值综合确定。

一种示例中，分别计算每个训练目标的检测框和每个预测属性信息之间的交并比差值、每个训练目标的检测框和每个预测属性信息之间的定位差值。其中，所述定位差值包括位置偏移量、宽度差值以及高度差值，接着确定每个训练目标对应的真实分类在每个预测属性信息中的预测概率差值。其中，所述交并比差值指的是目标值、每个训练目标的检测框和对应锚点框之间的交并比的差值，例如目标值可以是1，则对应的交并比差值则为1-交并比。所述预测概率差值指的是目标值、每个训练目标对应的真实分类在每个预测属性信息中的预测概率值之间的差值。例如目标值为1，则对应的预测概率差值则为1-预测概率值。然后，对所述交并比差值、定位差值以及预测概率差值进行加权，例如，分别对交并比差值、位置偏移量、宽度差值、高度差值、以及预测概率差值的绝对值进行累加，得到匹配代价。

一种示例中，匹配代价可以采用cost表示，则可以分别计算锚点框对应的N个预测属性信息与位于所述锚点框内的3个训练目标的检测框之间的匹配代价cost。例如P1和gt1之间的匹配代价表示为cost（P1，gt1），P1和gt2之间的匹配代价表示为cost（P1，gt2）以及P1和gt3之间的匹配代价表示为cost（P1，gt3）等。以此类推，得到N个预测属性信息与位于所述锚点框内的3个训练目标的检测框之间的匹配代价cost。例如，上述3N个匹配代价可以组成匹配矩阵St：

公式（1）

具体的，上述匹配矩阵St中的第一列第一行表示的是P1和gt1之间的匹配代价，第二列第一行表示的是P1和gt2之间的匹配代价，第三列第一行表示的是P1和gt3之间的匹配代价。第一列第二行表示的是P2和gt1之间的匹配代价，以此类推，可以在得到匹配矩阵St中的各元素值之后，通过预设的算法求解符合匹配条件的匹配代价。其中，预测的算法可以是匈牙利算法。例如，在求解符合匹配条件的匹配代价的过程中，对于每一列只保留一个匹配代价，每一行最多只保留一个匹配代价。例如，根据公式（1）求解匹配代价符合匹配条件的元素值时，最后保留的匹配代价可以是匹配代价cost（P1，gt2）、匹配代价cost（P2，gt3）以及匹配代价cost（P3，gt1）。最后，依据符合匹配条件的匹配代价，建立预测属性信息和训练目标的检测框之间的特征连接关系。

一种示例中，将根据锚点框M1预测的N个预测属性信息，如P1（x1，y1，w1，h1，c1）、P2（x2，y2，w2，h2，c2）、……、Pn（xn，yn，wn，hn，cn）和检测框gt1、检测框gt2以及检测框gt3，按照匹配矩阵St中保留的匹配代价建立连接关系。将P1（x1，y1，w1，h1，c1）和gt2（x2，y2，w2，h2）进行连接，将P2（x2，y2，w2，h2，c2）和gt3（x3，y3，w3，h3）进行连接，将P3（x3，y3，w3，h3，c3）和gt1（x1，y1，w1，h1）进行连接。将剩下的P4到Pn分别与交并比最大的检测框，例如gt1（x1，y1，w1，h1）进行连接，由此，就对每个预测属性信息建立了与多个训练目标的检测框之间的学习关系，且能够降低了模型优化的难度。相对于此锚点框，可以同时对多个训练目标的检测框进行学习。在此次训练过程中，锚点框标注的检测类型为多个，锚点框标注的位置偏移量也为多个。

例如，根据上述特征连接关系，此锚点框对应的检测类型包括行人、小型汽车以及电动车。对应的位置偏移量包括行人的检测框与锚点框之间的位置偏移量、小型汽车的检测框与锚点框之间的位置偏移量以及电动车的检测框与锚点框之间的位置偏移量。

S507、依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

本发明实施例中，依据所述特征连接关系，确定目标检测模型的损失函数，并基于所述损失函数调整模型参数，在所述损失函数不再减小或下降幅度很小时，停止调整模型参数，并确定目标检测模型训练完成。在调整模型参数时，对应锚点框的预测属性信息会逐步逼近训练目标。从而能够在待检测目标较为密集的应用场景中，通过训练得到的目标检测模型也能够精确的检测到每一个待检测目标。在训练完成的目标检测模型中，每个锚点框预测N组检测类型和位置偏移量。

综上，本发明实施例提供的一种目标检测模型训练方法，通过获取样本图像对应的多个目标特征图像，并将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，目标特征图像中的每个像素至少包括一个锚点框；然后建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，最后依据特征连接关系，确定所述目标检测模型的损失函数，并基于损失函数调整模型参数，得到训练完成的目标检测模型。每个锚点框可以朝着多个训练目标进行学习，避免了经验式的目标标签分配规则，采用动态、模型自适应构建预测属性信息和训练目标之间的关联性。从而增加每种检测类型对应的训练样本，能够提高预测结果的精确度，适用于密集场景中的目标检测。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图6，示出了本发明实施例提供的一种目标检测方法，所述方法可以包括：

S601、获取待检测图像。

S602、将所述待检测图像输入到目标检测模型中进行识别，确定所述待检测图像的分类信息和定位信息，所述目标检测模型通过模型训练方法训练得到。

本发明实施例中，对步骤S601和步骤S602的说明内容参照对上述目标检测模型训练方法各步骤的说明内容。其中，所述模型训练方法为上述阐述的一种目标检测模型训练方法。所述模型训练方法包括将样本图像对应的各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，并确定所述目标检测模型的损失函数，基于所述损失函数调整模型参数，确定训练完成的目标检测模型。

例如输出行人1的预测框P1、行人2的预测框P2、行人3的预测框P3、行人4的预测框P4、行人5的预测框P5、小型汽车1的预测框P6、小型汽车2的预测框P7、电动车1的预测框P8、电动车2的预测框P9以及电动车3的预测框P10。以此类推，可以从多张待检测图像中检测到上述分类信息和定位信息。从而在预设时间段内对预测到的分类信息和定位信息进行统计，例如对同一十字路口在半小时内的人车流量进行统计，最后根据统计到的数据辅助生成路口导流策略。其中，路口导流策略是一种通过改变各车行道的红绿灯时长来改变路口拥堵程度的方法。

参照图7，示出了本发明实施例提供的一种目标检测模型训练装置，所述目标检测模型包括检测头网络，所述装置可以包括：

特征图像获取模块701，用于获取样本图像对应的多个目标特征图像。

预测信息确定模块702，用于将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，所述目标特征图像中的每个像素至少包括一个锚点框。

特征连接模块703，用于建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。

参数调整模块704，用于依据所述特征连接关系，确定所述目标检测模型的损失函数，并基于所述损失函数调整模型参数，得到训练完成的目标检测模型。

一种可选的发明实施例，所述检测头网络包括分类子网络和回归子网络；所述预测信息确定模块可以包括：

分类信息预测子模块，用于将各目标特征图像分别输入到所述分类子网络中识别，得到每个锚点框对应的多个训练目标的分类信息。

定位信息预测子模块，用于将各目标特征图像分别输入到所述回归子网络中识别，得到每个锚点框对应的多个训练目标的定位信息。

预测信息确定子模块，用于分别将各分类信息和定位信息按序组合，作为多个训练目标的若干个预测属性信息。

一种可选的发明实施例，所述特征连接模块可以包括：

交并比计算子模块，用于计算每个训练目标的检测框和对应的锚点框之间的第一交并比。

交并比排列子模块，用于降序排列各第一交并比，并清除符合阈值条件的第一交并比，生成交并序列。

第一关系子模块，用于建立若干个预测属性信息和所述交并序列中各第一交并比所对应的检测框的特征连接关系。

一种可选的发明实施例，所述特征连接模块还可以包括：

匹配代价计算子模块，用于计算每个训练目标的检测框和每个预测属性信息之间的匹配代价。

第二关系子模块，用于在所述匹配代价符合匹配条件时，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。

一种可选的发明实施例，所述匹配代价计算子模块还可以用于：

计算每个训练目标的检测框和每个预测属性信息之间的交并比差值。

计算每个训练目标的检测框和每个预测属性信息之间的定位差值。

确定每个训练目标对应的真实分类在每个预测属性信息中的预测概率值差值。

对所述交并比差值、定位差值以及预测概率差值进行加权，确定对应的匹配代价。

综上，本发明实施例提供的一种目标检测模型训练装置，所述装置包括获取样本图像对应的多个目标特征图像，并将各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，目标特征图像中的每个像素至少包括一个锚点框；然后建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，最后依据特征连接关系，确定所述目标检测模型的损失函数，并基于损失函数调整模型参数，得到训练完成的目标检测模型。每个锚点框可以朝着多个训练目标进行学习，从而可以增加了每种检测类型对应的训练样本，能够提高预测结果的精确度，适用于密集场景中的目标检测。

参照图8，示出了本发明实施例提供的一种目标检测装置，所述装置可以包括：

检测图像获取模块801，用于获取待检测图像。

目标识别模块802，用于将所述待检测图像输入到目标检测模型中进行识别，确定所述待检测图像的分类信息和定位信息，所述目标检测模型通过模型训练方法训练得到，所述模型训练方法包括将样本图像对应的各目标特征图像输入到检测头网络中进行特征识别，得到每个锚点框对应的多个训练目标的若干个预测属性信息，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，并确定所述目标检测模型的损失函数，基于所述损失函数调整模型参数，确定训练完成的目标检测模型。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述实施例所述的方法。

一种计算机可读存储介质，存储与电子设备结合使用的计算机程序，所述计算机程序可被处理器执行以完成上述实施例所述的方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种目标检测模型训练方法、一种目标检测方法一种目标检测模型训练装置以及一种目标检测装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标检测模型训练方法，其特征在于，所述目标检测模型包括检测头网络，所述方法包括：

获取样本图像对应的多个目标特征图像；

2.根据权利要求1所述的目标检测模型训练方法，其特征在于，所述检测头网络包括分类子网络和回归子网络；

所述将各目标特征图像输入到检测头网络中进行特征识别，得到每个预测锚点框对应的多个训练目标的若干个预测属性信息，包括：

将各目标特征图像分别输入到所述分类子网络中识别，得到每个锚点框对应的多个训练目标的分类信息；

将各目标特征图像分别输入到所述回归子网络中识别，得到每个锚点框对应的多个训练目标的定位信息；

分别将各分类信息和定位信息按序组合，作为多个训练目标的若干个预测属性信息。

3.根据权利要求2所述的目标检测模型训练方法，其特征在于，所述建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，包括：

计算每个训练目标的检测框和对应的锚点框之间的第一交并比；

降序排列各第一交并比，并清除符合阈值条件的第一交并比，生成交并序列；

建立若干个预测属性信息和所述交并序列中各第一交并比所对应的检测框的特征连接关系。

4.根据权利要求2所述的目标检测模型训练方法，其特征在于，所述建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系，包括：

计算每个训练目标的检测框和每个预测属性信息之间的匹配代价；

在所述匹配代价符合匹配条件时，建立若干个预测属性信息和多个训练目标的检测框之间的特征连接关系。

5.根据权利要求4所述的目标检测模型训练方法，其特征在于，所述计算每个训练目标的检测框和每个预测属性信息之间的匹配代价，包括：

计算每个训练目标的检测框和每个预测属性信息之间的交并比差值；

计算每个训练目标的检测框和每个预测属性信息之间的定位差值；

确定每个训练目标对应的真实分类在每个预测属性信息中的预测概率差值；

6.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

7.一种目标检测模型训练装置，其特征在于，所述目标检测模型包括检测头网络，所述装置包括：

8.一种目标检测装置，其特征在于，所述装置包括：

检测图像获取模块，用于获取待检测图像；

9.一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-6中任一所述的方法。

10.一种计算机可读存储介质，存储与电子设备结合使用的计算机程序，所述计算机程序可被处理器执行以完成权利要求1-6中任一所述的方法。