CN112633352A

CN112633352A - 一种目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN112633352A
Application number: CN202011505855.1A
Authority: CN
Inventors: 方明超; 王耀农; 邵明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09
Anticipated expiration: 2040-12-18
Also published as: CN112633352B

Abstract

本发明公开了一种目标检测方法、装置、电子设备及存储介质，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图，融合后的每个第二特征图中包含了深层次的特征图的语义信息，在一定程度上弥补了目标分类和目标框回归的矛盾性。针对每个第二特征图，筛选出与该第二特征图的尺寸满足预设对应关系的正样本候选框，第二特征图的尺寸越大，对应的正样本候选框的尺寸越小。避免了特征图尺寸太小，导致目标丢失的问题。尺寸大的特征图融合了更多的语义信息，兼顾目标分类和目标框回归，准确检测出不同尺寸、不同类别的目标。

Description

一种目标检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

随着人工神经网络技术和智慧交通领域的发展，越来越多的人工神经网络技术被应用在智慧交通领域。目标检测是智慧交通系统的重要组成部分。

常见的交通场景有卡口、微卡口、电警、出入口等，交通场景需要检测的目标主要是机动车、非机动车、行人、车牌等。不同的交通场景有不同的特点，例如机动车尺寸较大，车牌尺寸较小等。深度神经网络中，特征图的尺寸越小，包含的图像语义信息越多，越有利于目标分类，特征图的尺寸越大，包含的图像位置信息越多，越有利于目标框回归。可以看出目标分类和目标框回归存在一定的矛盾性。网络层数越多，特征图越小，尺寸小的目标有可能丢失，网络层数越少，特征图越大，但是不利于目标的分类。因为上述矛盾性的存在，现有技术中无法兼顾目标分类和目标框回归，因此很难保证对每个目标都有很好的检测效果。

发明内容

本发明实施例提供了一种目标检测方法、装置、电子设备及存储介质，用以解决现有技术中很难保证对每个目标都有很好的检测的问题。

本发明实施例提供了一种目标检测方法，所述方法包括：

将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；

分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；

根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；

针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；

将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。

进一步地，所述将训练图像输入目标检测模型中之前，所述方法还包括：

从预先保存的行人图像中，随机选取预设的第一数量的行人图像，将选取的行人图像叠加至所述训练图像中，其中，叠加的行人图像与所述训练图像中原有的目标的重合比例小于设定的阈值。

进一步地，所述确定不同尺寸的第一特征图之后，分别为所述不同尺寸的第一特征图配置对应的待学习权重之前，所述方法还包括：

针对每个第一特征图，基于所述目标检测模型中的注意力机制模块，对该第一特征图中不同的通道进行增强或减弱处理，得到第三特征图，采用所述第三特征图对该第一特征图进行更新。

进一步地，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图包括：

根据公式

确定每个第一特征图对应的融合后的第二特征图；

按照层数由深到浅的顺序进行排序，式中input₁为第一层的第一特征图，output₁为第一层的第一特征图对应的融合后的第二特征图，input₂为第二层的第一特征图，output₂为第二层的第一特征图对应的融合后的第二特征图，input_N为第N层的第一特征图，output_N为第N层的第一特征图对应的融合后的第二特征图，output_(N-1)为第N-1层的第一特征图对应的融合后的第二特征图，ε为预设参数，α₁为第一层的第一特征图对应的待学习权重，α₂为第二层的第一特征图对应的待学习权重，α_(N-1)为第(N-1)层的第一特征图对应的待学习权重，α_N为第N层的第一特征图对应的待学习权重。

进一步地，所述根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框包括：

针对每个第二特征图中的每个目标标注框，按照与该目标标注框的中心点的距离由小到大的顺序选取预设的第二数量的检测框，分别计算该目标标注框与每个检测框的交并比的平均值，将与该目标标注框的交并比大于所述平均值的检测框，确定为与该目标标注框对应的正样本候选框。

进一步地，所述方法还包括：

针对每个第二特征图中的每个正样本候选框，判断该正样本候选框对应的目标标注框的数量是否为一个，如果是，保留该正样本候选框和所述目标标注框的对应关系，如果否，仅保留与该正样本候选框的交并比最大的目标标注框的对应关系。

进一步地，确定所述待检测图像中的每个目标之后，所述方法还包括：

通过非极大值抑制算法，针对所述待检测图像中的每个目标，对该目标的检测框进行非极大值抑制处理。

另一方面，本发明实施例提供了一种目标检测装置，所述装置包括：

第一确定模块，用于将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；

第二确定模块，用于分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；

筛选模块，用于根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；

训练模块，用于针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；

检测模块，用于将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。

进一步地，所述装置还包括：

叠加模块，用于从预先保存的行人图像中，随机选取预设的第一数量的行人图像，将选取的行人图像叠加至所述训练图像中，其中，叠加的行人图像与所述训练图像中原有的目标的重合比例小于设定的阈值。

进一步地，所述装置还包括：

更新模块，用于针对每个第一特征图，基于所述目标检测模型中的注意力机制模块，对该第一特征图中不同的通道进行增强或减弱处理，得到第三特征图，采用所述第三特征图对该第一特征图进行更新。

进一步地，所述第二确定模块，具体用于根据公式

确定每个第一特征图对应的融合后的第二特征图；

进一步地，所述筛选模块，具体用于针对每个第二特征图中的每个目标标注框，按照与该目标标注框的中心点的距离由小到大的顺序选取预设的第二数量的检测框，分别计算该目标标注框与每个检测框的交并比的平均值，将与该目标标注框的交并比大于所述平均值的检测框，确定为与该目标标注框对应的正样本候选框。

进一步地，所述装置还包括：

判断模块，用于针对每个第二特征图中的每个正样本候选框，判断该正样本候选框对应的目标标注框的数量是否为一个，如果是，保留该正样本候选框和所述目标标注框的对应关系，如果否，仅保留与该正样本候选框的交并比最大的目标标注框的对应关系。

进一步地，所述装置还包括：

处理模块，用于通过非极大值抑制算法，针对所述待检测图像中的每个目标，对该目标的检测框进行非极大值抑制处理。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的方法步骤。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种目标检测方法、装置、电子设备及存储介质，所述方法包括：将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。

上述的技术方案具有如下优点或有益效果：

本发明实施例中，分别为不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图，融合后的每个第二特征图中包含了深层次的特征图的语义信息，在一定程度上弥补了目标分类和目标框回归的矛盾性。针对每个第二特征图，筛选出与该第二特征图的尺寸满足预设对应关系的正样本候选框，其中，第二特征图的尺寸越大，对应的正样本候选框的尺寸越小。筛选出的正样本候选框参与模型损失值的计算，根据模型损失值，对目标检测模型进行训练。这样得到的目标检测模型避免了特征图尺寸太小，导致目标丢失的问题。并且尺寸大的特征图也融合了更多的语义信息，因此基于本发明实施例训练完成的目标检测模型，能够兼顾目标分类和目标框回归，准确检测出待检测图像中的不同尺寸、不同类别的目标。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的目标检测过程示意图；

图2为本发明实施例5提供的目标检测模型网络结构图；

图3为本发明实施例5提供的目标检测阶段示意图；

图4为本发明实施例6提供的目标检测装置结构示意图；

图5为本发明实施例7提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的目标检测过程示意图，包括以下步骤：

S101：将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图。

S102：分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图。

S103：根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小。

S104：针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练。

S105：将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。

本发明实施例提供的目标检测方法应用于电子设备，该电子设备可以是PC、平板电脑等设备。电子设备在实现目标检测的过程中，首先需要训练目标检测模型，然后基于训练好的目标检测模型检测待检测图像中的每个目标。

首先对训练目标检测模型的过程进行说明。电子设备中保存有训练集，将训练集中的图像称为训练图像，训练集中包含大量的训练图像，针对每张训练图像的处理过程都是相同的，下面以对某个训练图像的处理过程进行描述。

目标检测模型的结构包括多个残差模块，每个残差模块可以对输入的图像进行卷积处理，得到特征图，也就是说每个残差模块输出的特征图的尺寸是不同的，层数越深的残差模块输出的特征图尺寸越小。因此，将训练图像输入目标检测模型中，基于目标检测模型中的每个残差模块，可以确定不同尺寸的第一特征图。

电子设备分别为不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图。其中，针对每个第一特征图，首先对比该第一特征图的尺寸小的每个第一特征图进行缩放处理，得到与该第一特征图尺寸相同的特征图，然后将该第一特征图和得到的与该第一特征图尺寸相同的每个特征图，根据分别对应的待学习权重进行加权计算，得到该第一特征图对应的融合后的第二特征图。

在训练目标检测模型时，在训练图像中标注有每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框。其中，针对每个目标标注框，可以将与该目标标注框的交并比最大的检测框作为该目标标注框对应的正样本候选框。然后针对每个第二特征图，根据该第二特征图的尺寸，筛选出与该第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小。

针对每个第二特征图，根据该第二特征图中筛选出的正样本候选框和每个目标标注框计算模型损失值，根据模型损失值，对目标检测模型进行训练。其中，根据模型损失值，对目标检测模型进行训练的过程属于现有技术，在此不再对该过程进行赘述。需要说明的是，对目标检测模型进行训练包括对每个第一特征图对应的待学习权重的训练。电子设备将目标检测模型训练完成之后，将待检测图像输入训练完成的目标检测模型中，基于训练完成的目标检测模型，确定待检测图像中的每个目标。

实施例2：

由于交通场景中行人个数较少，车辆个数较多，为了解决不同目标类别之间的不均衡问题，在上述实施例的基础上，在本发明实施例中，所述将训练图像输入目标检测模型中之前，所述方法还包括：

在本发明实施例中，电子设备中预先保存有多个行人图像，从预先保存有多个行人图像中随机选取预设的第一数量的行人图像叠加至训练图像中。通过这种方式来增加训练图像中行人的数量，解决不同目标类别之间的不均衡问题，使得基于训练图像训练出的目标检测模型更准确。

需要说明的是，将选取的行人图像叠加至所述训练图像中时，为了避免影响训练图像中原有的目标，叠加的行人图像与训练图像中原有的目标的重合比例小于设定的阈值。

实施例3：

为了进一步使得目标检测模型更准确，在上述各实施例的基础上，在本发明实施例中，所述确定不同尺寸的第一特征图之后，分别为所述不同尺寸的第一特征图配置对应的待学习权重之前，所述方法还包括：

在本发明实施例中，目标检测模型中设置注意力机制模块，每个第一特征图都会经过一个注意力机制模块，注意力机制模块用于增强包含重要特征信息的通道，减弱不包含重要特征信息的通道，基于注意力机制模块，对第一特征图中不同的通道进行增强或减弱处理，得到第三特征图，采用第三特征图对第一特征图进行更新。这样得到的更新后的第一特征图中包含更多对于训练模型有用的信息，进一步使得最终训练得到的目标检测模型更准确。

实施例4：

为了使确定第一特征图对应的融合后的第二特征图更加准确，在上述各实施例的基础上，在本发明实施例中，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图包括：

根据公式

确定每个第一特征图对应的融合后的第二特征图；

按照层数由深到浅的顺序进行排序。式中input₁为第一层的第一特征图，output₁为第一层的第一特征图对应的融合后的第二特征图，input₂为第二层的第一特征图，output₂为第二层的第一特征图对应的融合后的第二特征图，input_N为第N层的第一特征图，output_N为第N层的第一特征图对应的融合后的第二特征图，output_(N-1)为第N-1层的第一特征图对应的融合后的第二特征图，ε为预设参数，α₁为第一层的第一特征图对应的待学习权重，α₂为第二层的第一特征图对应的待学习权重，α_(N-1)为第(N-1)层的第一特征图对应的待学习权重，α_N为第N层的第一特征图对应的待学习权重。

在本发明实施例中，按照层数由深到浅的顺序进行排序。第一层的融合后的第二特征图与第一层的第一特征图相同。第二层的第二特征图是根据第二层的第一特征图和第一层的融合后的第二特征图以及分别对应的待学习权重确定的。第三层的第二特征图是根据第三层的第一特征图和第二层的融合后的第二特征图以及分别对应的待学习权重确定的。以此类推，确定出每个第一特征图对应的融合后的第二特征图。

通过本发明实施例提供的方案，使得确定出的每个第一特征图对应的融合后的第二特征图更准确，进而使得训练出的目标检测模型更准确。

实施例5：

在确定每个目标标注框分别对应的正样本候选框时，如果只选择交并比最大的检测框作为正样本候选框，只选择这一个正样本候选框参与模型损失值计算，这样会出现正负样本数量极度不均衡的问题，影响目标检测模型的准确性。为了解决上述问题，在上述各实施例的基础上，在本发明实施例中，所述根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框包括：

在本发明实施例中，针对每个第二特征图中的每个目标标注框，在确定出该第二特征图中的每个检测框之后，确定每个检测框的中心点，将每个检测框的中心点与目标标注框的中心点的距离作为每个检测框与目标标注框的距离。按照与该目标标注框的中心点的距离由小到大的顺序选取预设的第二数量的检测框，分别计算该目标标注框与每个检测框的交并比的平均值。将与该目标标注框的交并比大于所述平均值的检测框，确定为与该目标标注框对应的正样本候选框。其中，预设的第二数量与预设的第一数量之间没有严格的大小关系，预设的第二数量与预设的第一数量可以相同也可以不同。

通过本发明实施例提供的方案，根据实际情况，确定出的目标标注框对应的正样本候选框有可能是一个，也有可能是多个，确定出的每个正样本候选框参与模型损失值计算，避免了正负样本数量极度不均衡的问题，提高了目标检测模型的准确性。

所述方法还包括：

需要说明的是，本发明实施例中确定出的目标标注框对应的正样本候选框有可能是一个，也有可能是多个。同样的，每个正样本候选框对应的目标检测框也有可能是一个或多个，如果一个正样本候选框对应多个目标检测框，这显然是不准确的，因此在本发明实施例中，针对每个第二特征图中的每个正样本候选框，如果该正样本候选框对应的目标标注框的数量为一个，保留该正样本候选框和所述目标标注框的对应关系，如果该正样本候选框对应的目标标注框的数量为多个，则确定出与该正样本候选框的交并比最大的目标标注框，仅保留与该正样本候选框的交并比最大的目标标注框的对应关系。

将待检测图像输入训练完成的目标检测模型中，基于训练完成的目标检测模型，确定待检测图像中的每个目标，此时有可能出现同一个目标对应多个检测框的情况，为了避免多个检测框重叠，造成确定的目标不准确，在本发明实施例中，确定所述待检测图像中的每个目标之后，所述方法还包括：

针对所述待检测图像中的每个目标，通过对该目标的检测框进行非极大值抑制处理，解决了同一目标多个检测框重叠的问题，使得最终得到的目标更加准确。

下面对本发明实施例提供的目标检测方案进行详细说明。

本发明实施例提供的目标检测方法适用于交通场景的通用目标检测，包括机动车、非机动车、行人、车牌等检查。整个过程包括模型训练阶段和目标检测阶段。其中模型训练阶段包括以下步骤：

对训练图像进行增强，通过随机裁剪、翻转、平移、剪切变换、亮度调整、对比度调整等常规增强方法来增加输入训练图像的数量，防止目标检测模型过拟合。由于交通场景中行人个数较少，车辆个数较多，为了解决不同类别目标之间的不均衡。本发明实施例预先将一部分行人目标抠图保存下来，然后再训练阶段随机选取一定个数行人目标粘贴到训练图像中，要求与其他目标之间重合比例不能超过设定的阈值并且位置不能超出图像边界。此外，由于不同场景下，图片的分辨率有较大差异，为了提升模型在不同输入尺度的泛化能力，本发明实施例是对输入图像进行多尺度训练。每迭代10个batch，会随机改变网络的输入大小为(13+k)*32，其中k是整数，且k＝[-4,4]。

图2为本发明实施例提供的目标检测模型网络结构图，如图2所示，设计深度神经网络结构，本发明实施例用的网络结构是在YOLOv3的基础上进行改进，骨干网络为Darknet-53。Darknet-53结构包括5个残差模块，由浅到深依次为Block1，Block2，Block3，Block4，Block5。以输入图像尺寸为416×416为例，特征图在Block3、Block4和Block5之后的特征图大小依次为52×52，26×26，13×13。在这三个特征图后面各自接一个SE通道注意力机制模块，用于增强包含重要特征信息的通道，减弱不包含重要特征信息的通道。这三个特征图感受野不同，13×13是较深层次的特征图，包含更多的图像语义信息，更有利于目标分类，52×52是较浅层次的特征图，包含更多的图像位置信息，更有利于目标框回归。为了同时获得较好的分类性能和边界框回归性能，对这三个特征图进行融合。常见的特征融合方法是先对高层的特征图缩放然后与低层的特征图直接相加得到融合后的特征图。但是不同分辨率的特征图对输出的贡献是不相等的。为了解决这个问题，对26×26，13×13的特征图分别引入一个待学习权重α，表示当前特征图的重要程度。由于α是一个标量，没有确定的边界，可能会造成网络训练不稳定。因此，还需要对α按照下式做归一化处理，其中ε＝0.0001。

设计正负样本划分方法。YOLO目标检测算法在选择正样本的时候只会选择与目标标注框GT框的交并比iou最大的候选框作为正样本，参与计算位置损失。但是实际上，可能会有多个候选框与GT框的iou都很大，如果只用一个候选框参与损失计算，会明显造成正负样本数量极度不均衡。如果一个GT框可以匹配多个候选框的话，就能增加正样本的个数。常见的匹配多个候选框的方法是设置一个全局阈值，把与GT框的iou大于这个阈值的候选框作为正样本。但是这个全局阈值跟训练数据的分布强相关，需要人工去调整，增大了训练的难度。本发明实施例提出一种自适应的正样本选取方法，可以根据目标的相关统计特征自动进行正负样本的选择。具体方法如下：对于每个GT框，首先在特征图上找到离当前GT框中心点最近的k个候选框，然后分别计算出这k个候选框与GT框的iou，再计算出这k个iou的均值

设置iou阈值为

最后选择与GT框的iou大于

的候选框为正样本。如果一个候选框对应多个GT，则只与iou最大的GT框进行匹配。

此外，Darknet-53会从三个不同分辨率的特征图上分别进行目标检测。分辨率低的特征图是更深层次的特征图，拥有更多的图像语义信息，但是小目标的位置信息可能会丢失，比较适合检测大目标。分辨率高的特征图是较低层次的特征图，拥有更多的目标位置信息，在做了特征融合之后也拥有一些高层特征的语义信息，更适合检测小目标。本发明实施例设计了一种方法，在训练时根据目标的尺寸将其分配到合适的特征图。由于有三个输出特征图，本发明实施例设置两个阈值S_l和S_r即可根据目标的尺寸将目标分配到相应的特征图中。假设目标的宽和高分别为w和h，当

时，将目标分配给52×52的特征图，当

时，将目标分配给26×26的特征图，当

时，将目标分配给13×13的特征图。在训练时，如果在当前特征图中GT框的尺寸不满足上述条件，则不参与计算损失。

图3为本发明实施例提供的目标检测阶段示意图，目标检测阶段包括以下步骤：

对待检测图像进行缩放处理，缩放至与目标检测模型对应的输入图像的尺寸一致。

将预处理好的待检测图像输入预先训练完成的目标检测模型中。

基于训练完成的目标检测模型，确定待检测图像中的每个目标，通过非极大值抑制算法，针对所述待检测图像中的每个目标，对该目标的检测框进行非极大值抑制处理。

本发明实施例可以对交通场景中多种类目标进行检测，不只局限于行人或非机动车等单一类别。此外，本发明实施例对类别较少的样本进行增强，可以有效提升少类别样本的召回率。本发明实施例设计了一种新的多尺度特征图融合方式，可以对大目标和小目标都有很好的检测效果。本发明实施例还设计了一种新的正样本选取方式，可以有效解决正负样本不均衡问题。

实施例6：

图4为本发明实施例提供的目标检测装置结构示意图，包括：

第一确定模块41，用于将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；

第二确定模块42，用于分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；

筛选模块43，用于根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；

训练模块44，用于针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；

检测模块45，用于将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。

所述装置还包括：

叠加模块46，用于从预先保存的行人图像中，随机选取预设的第一数量的行人图像，将选取的行人图像叠加至所述训练图像中，其中，叠加的行人图像与所述训练图像中原有的目标的重合比例小于设定的阈值。

所述装置还包括：

更新模块47，用于针对每个第一特征图，基于所述目标检测模型中的注意力机制模块，对该第一特征图中不同的通道进行增强或减弱处理，得到第三特征图，采用所述第三特征图对该第一特征图进行更新。

所述第二确定模块42，具体用于根据公式

确定每个第一特征图对应的融合后的第二特征图；

所述筛选模块43，具体用于针对每个第二特征图中的每个目标标注框，按照与该目标标注框的中心点的距离由小到大的顺序选取预设的第二数量的检测框，分别计算该目标标注框与每个检测框的交并比的平均值，将与该目标标注框的交并比大于所述平均值的检测框，确定为与该目标标注框对应的正样本候选框。

所述装置还包括：

判断模块48，用于针对每个第二特征图中的每个正样本候选框，判断该正样本候选框对应的目标标注框的数量是否为一个，如果是，保留该正样本候选框和所述目标标注框的对应关系，如果否，仅保留与该正样本候选框的交并比最大的目标标注框的对应关系。

所述装置还包括：

处理模块49，用于通过非极大值抑制算法，针对所述待检测图像中的每个目标，对该目标的检测框进行非极大值抑制处理。

实施例7：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图5所示，包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信；

所述存储器303中存储有计算机程序，当所述程序被所述处理器301执行时，使得所述处理器301执行如下步骤：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与目标检测方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。本发明实施例中，分别为不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图，融合后的每个第二特征图中包含了深层次的特征图的语义信息，在一定程度上弥补了目标分类和目标框回归的矛盾性。针对每个第二特征图，筛选出与该第二特征图的尺寸满足预设对应关系的正样本候选框，其中，第二特征图的尺寸越大，对应的正样本候选框的尺寸越小。筛选出的正样本候选框参与模型损失值的计算，根据模型损失值，对目标检测模型进行训练。这样得到的目标检测模型避免了特征图尺寸太小，导致目标丢失的问题。并且尺寸大的特征图也融合了更多的语义信息，因此基于本发明实施例训练完成的目标检测模型，能够兼顾目标分类和目标框回归，准确检测出待检测图像中的不同尺寸、不同类别的目标。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与目标检测方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现将训练图像输入目标检测模型中，基于所述目标检测模型中的每个残差模块，确定不同尺寸的第一特征图；分别为所述不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图；根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框；筛选出与每个第二特征图的尺寸满足预设对应关系的正样本候选框；其中，第二特征图的尺寸越大，满足预设对应关系的正样本候选框的尺寸越小；针对所述每个第二特征图，根据该第二特征图中筛选出的正样本候选框和所述每个目标标注框计算模型损失值，根据所述模型损失值，对所述目标检测模型进行训练；将待检测图像输入训练完成的目标检测模型中，基于所述训练完成的目标检测模型，确定所述待检测图像中的每个目标。本发明实施例中，分别为不同尺寸的第一特征图配置对应的待学习权重，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图，融合后的每个第二特征图中包含了深层次的特征图的语义信息，在一定程度上弥补了目标分类和目标框回归的矛盾性。针对每个第二特征图，筛选出与该第二特征图的尺寸满足预设对应关系的正样本候选框，其中，第二特征图的尺寸越大，对应的正样本候选框的尺寸越小。筛选出的正样本候选框参与模型损失值的计算，根据模型损失值，对目标检测模型进行训练。这样得到的目标检测模型避免了特征图尺寸太小，导致目标丢失的问题。并且尺寸大的特征图也融合了更多的语义信息，因此基于本发明实施例训练完成的目标检测模型，能够兼顾目标分类和目标框回归，准确检测出待检测图像中的不同尺寸、不同类别的目标。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将训练图像输入目标检测模型中之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述确定不同尺寸的第一特征图之后，分别为所述不同尺寸的第一特征图配置对应的待学习权重之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，针对每个第一特征图，根据比该第一特征图的尺寸小的每个第一特征图对应的待学习权重，以及该第一特征图对应的待学习权重，确定该第一特征图对应的融合后的第二特征图包括：

根据公式

确定每个第一特征图对应的融合后的第二特征图；

5.如权利要求1所述的方法，其特征在于，所述根据所述训练图像对应的每个目标标注框，确定每个第二特征图中与所述每个目标标注框分别对应的每个正样本候选框包括：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，确定所述待检测图像中的每个目标之后，所述方法还包括：

8.一种目标检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。