CN117274574A

CN117274574A - 目标检测方法、装置、终端及存储介质

Info

Publication number: CN117274574A
Application number: CN202311249577.1A
Authority: CN
Inventors: 李启明
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-22

Abstract

本申请提供了一种目标检测方法、装置、终端及存储介质，属于计算机技术领域。该方法由终端执行，方法包括：基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，目标图像中包括至少一个目标对象，目标检测模型用于检测至少一个目标对象的类别和位置；基于目标检测模型的特征融合层，对多个尺度的第一特征图进行融合，得到第一融合特征图，第一融合特征图包括至少一个目标对象的类别特征和位置特征；基于目标检测模型的输出层，对第一融合特征图进行解码，得到目标图像的检测结果，检测结果用于表示至少一个目标对象的类别和位置。上述方案能够成功检测目标图像中的大多数目标对象，提高了目标检测的准确率。

Description

目标检测方法、装置、终端及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种目标检测方法、装置、终端及存储介质。

背景技术

随着计算机技术的发展，目标检测技术在智能识物、智慧交通等方面的应用越来越广泛。例如，通过目标检测技术，能够快速识别图像中出现的行人、物体以及建筑物等目标对象和目标对象的类别。但是，当前的目标检测技术十分依赖图像的质量。在图像中目标对象的尺寸较小或者目标对象的边缘较为模糊的情况下，通过目标检测技术很难检测到该目标对象，或者很难准确检测出目标对象的类别，导致目标检测的准确率较低。因此，如何提升上述情况下目标检测的准确率，是一个需要解决的技术问题。

发明内容

本申请实施例提供了一种目标检测方法、装置、终端及存储介质，能够提高目标检测的准确率。技术方案如下：

根据本申请实施例的一方面，提供了一种目标检测方法，所述方法包括：

基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，所述目标图像中包括至少一个目标对象，所述目标检测模型用于检测所述至少一个目标对象的类别和位置，所述多个特征提取层与所述多个尺度的第一特征图一一对应，所述特征提取层包括多个串联的第一卷积单元，所述第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取；

基于所述目标检测模型的特征融合层，对所述多个尺度的第一特征图进行融合，得到第一融合特征图，所述第一融合特征图包括所述至少一个目标对象的类别特征和位置特征；

基于所述目标检测模型的输出层，对所述第一融合特征图进行解码，得到所述目标图像的检测结果，所述检测结果用于表示所述至少一个目标对象的类别和位置。

根据本申请实施例的另一方面，提供了一种目标检测装置，所述装置包括：

第一提取模块，用于基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，所述目标图像中包括至少一个目标对象，所述目标检测模型用于检测所述至少一个目标对象的类别和位置，所述多个特征提取层与所述多个尺度的第一特征图一一对应，所述特征提取层包括多个串联的第一卷积单元，所述第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取；

第一融合模块，用于基于所述目标检测模型的特征融合层，对所述多个尺度的第一特征图进行融合，得到第一融合特征图，所述第一融合特征图包括所述至少一个目标对象的类别特征和位置特征；

第一解码模块，用于基于所述目标检测模型的输出层，对所述第一融合特征图进行解码，得到所述目标图像的检测结果，所述检测结果用于表示所述至少一个目标对象的类别和位置。

在一些实施例中，所述第一提取模块，用于基于所述目标检测模型的初始特征提取层，对所述目标图像进行特征提取，得到所述目标图像的初始特征图，所述初始特征提取层包括第二卷积单元，所述第二卷积单元中的卷积操作与所述第一卷积单元中的卷积操作不同；在所述目标检测模型的第1层特征提取层，通过所述特征提取层中多个第一卷积单元，对所述初始特征图进行特征提取，得到所述第1层特征提取层的第一特征图；在所述目标检测模型的第i层特征提取层，通过所述特征提取层中多个第一卷积单元，对第i-1层特征提取层的第一特征图进行特征提取，得到所述第i层特征提取层的第一特征图，直至得到各层特征提取层的第一特征图，所述第一特征图的尺度与对应的特征提取层的层数负相关，i为大于1的整数。

在一些实施例中，所述装置还包括：

边缘增强模块，用于对原始图像进行边缘增强，得到所述目标图像，所述边缘增强用于增强所述原始图像中至少一个目标对象的边缘信息。

在一些实施例中，所述目标检测模型的特征融合层包括多个融合单元和多个检测单元，所述多个融合单元与所述多个特征提取层一一对应，所述多个融合单元与所述多个检测单元一一对应；

所述第一融合模块，包括：

特征融合单元，用于对于任一尺度的第一特征图，基于与所述第一特征图对应的融合单元，按照所述第一特征图的尺度，对所述尺度的第一特征图和其他尺度的第一特征图进行融合，得到第一中间特征图，所述第一中间特征图的通道数为所述融合单元中逐点卷积核的数量，所述逐点卷积核用于对输入特征图进行逐点卷积，以使所述输入特征图的通道数与所述逐点卷积核的数量相同；

通道分离单元，用于基于所述融合单元对应的检测单元，对所述第一中间特征图进行通道分离，得到至少一个通道的类别特征图和至少一个通道的位置特征图；

拼接单元，用于基于所述融合单元对应的检测单元，在通道维度拼接所述至少一个通道的类别特征图和至少一个通道的位置特征图，得到第二中间特征图；

所述拼接单元，还用于在尺度维度拼接多个第二中间特征图，得到所述第一融合特征图。

在一些实施例中，所述特征融合单元，用于对于任一尺度的第一特征图，基于与所述第一特征图对应的融合单元，对所述尺度的第一特征图和所述其他尺度的第一特征图分别进行逐点卷积，以使所述尺度的第一特征图和所述其他尺度的第一特征图的通道数相同，且所述通道数与所述逐点卷积中逐点卷积核的数量相同；基于所述融合单元，按照所述第一特征图的尺度，对多个其他尺度的第一特征图进行上采样或者下采样，得到多个所述尺度的第一特征图；基于所述融合单元，对所述尺度的第一特征图和所述多个所述尺度的第一特征图进行融合，得到所述第一中间特征图。

在一些实施例中，所述拼接单元，用于对于任一第二中间特征图，在所述第二中间特征图包括通道、宽度、高度三个维度的情况下，将所述第二中间特征图转换成第三中间特征图，所述第三中间特征图包括通道和长度两个维度，所述长度为所述宽度和高度的乘积；在所述长度维度拼接多个第三中间特征图，得到所述第一融合特征图。

在一些实施例中，所述装置还包括：

第二提取模块，用于基于所述目标检测模型中的多个特征提取层，对样本图像进行特征提取，得到多个尺度的第二特征图，所述样本图像中包括至少一个目标对象；

第二融合模块，用于基于所述目标检测模型的特征融合层，对所述多个尺度的第二特征图进行融合，得到第二融合特征图，所述第二融合特征图包括所述样本图像中至少一个目标对象的类别特征和位置特征；

第二解码模块，用于基于所述目标检测模型的输出层，对所述第二融合特征图进行解码，得到所述样本图像的检测结果，所述检测结果用于表示所述样本图像中至少一个目标对象的预测类别和预测位置；

损失确定模块，用于基于所述样本图像的检测结果和所述样本图像的标签，确定所述目标检测模型的训练损失，所述样本图像的标签用于表示所述样本图像中至少一个目标对象的真实类别和真实位置；

模型训练模块，用于基于所述训练损失，训练所述目标检测模型。

在一些实施例中，所述训练损失包括类别损失和位置损失，所述类别损失用于表示所述至少一个目标对象的预测类别和真实类别之间的差异大小，所述位置损失用于表示所述至少一个目标对象的预测位置和真实位置之间的差异大小。

在一些实施例中，所述模型训练模块，用于基于所述目标检测模型的辅助训练层，对所述多个尺度的第一特征图进行融合，得到第三融合特征图；基于所述目标检测模型的输出层，对所述第三融合特征图进行解码，得到所述目标检测模型的辅助检测结果；基于所述样本图像的辅助检测结果和所述样本图像的标签，确定所述目标检测模型的辅助训练损失；基于所述训练损失和所述辅助训练损失，训练所述目标检测模型。

在一些实施例中，所述模型训练模块，还用于基于第一样本集对所述目标检测模型进行第一阶段训练，所述第一样本集包括多个原始样本图像和第一数量个扩充样本图像，所述扩充样本图像通过对所述多个原始样本图像进行数据增强得到；基于第二样本集对所述目标检测模型进行第二阶段训练，所述第二样本集包括所述多个原始样本图像和第二数量个扩充样本图像，所述第二数量小于所述第一数量；基于所述多个原始样本图像对所述目标检测模型进行第三阶段训练。

根据本申请实施例的另一方面，提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的目标检测方法。

根据本申请实施例的另一方面，提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片在终端上运行时，用于实现上述方面所述的目标检测方法。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如上述方面所述的目标检测方法。

根据本申请实施例的另一方面，提供了一种计算机程序产品，该计算机程序产品存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现上述方面所述的目标检测方法。

本申请实施例提供了一种目标检测方法，通过目标检测模型的多个特征提取层对待检测的图像进行特征提取，能够得到多个尺度的特征图。由于不同尺度的特征图能够反映不同尺寸的目标对象的类别特征和位置特征。因此，对多个尺度的特征图进行融合得到的融合特征图能够反映图像中不同尺寸的目标对象的类别特征和位置特征。然后，通过对融合特征进行解码，能够确定图像中不同尺寸的目标对象的类别和位置。采用上述方法，能够成功检测目标图像中的大多数目标对象，提高了目标检测的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种目标检测方法的流程图；

图3是本申请实施例提供的另一种目标检测方法的流程图；

图4是本申请实施例提供的一种特征提取层的示意图；

图5是本申请实施例提供的一种融合单元和检测单元的结构示意图；

图6是本申请实施例提供的一种第一卷积单元的结构示意图；

图7是本申请实施例提供的一种目标检测模型的示意图；

图8本申请实施例提供的一种目标检测装置的结构示意图；

图9本申请实施例提供的另一种目标检测装置的结构示意图；

图10申请实施例提供的一种终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的原始图像和目标图像等都是在充分授权的情况下获取的。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101能够与服务器102通过有线或无线通信方式进行直接或间接地连接。

可选地，该终端101可以为手机、台式电脑、笔记本电脑、平板电脑、智能手表以及车载终端等多种类型的终端。终端101安装和运行有图像识别类的应用程序。用户可以通过终端101登录该应用程序，使用该应用程序提供的智能识物服务。例如，在该应用程序为相机的情况下，用户可以使用相机拍摄待识别的图像，由应用程序识别图像中的物体的类别和位置。在一些实施例中，应用程序可以通过调用终端101中的目标检测模型提供上述智能识物服务。应用程序还可以与服务器102关联，由服务器102提供目标检测模型的端侧部署和参数更新等后台服务。

可选地，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102通过目标监测模型在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

当然，本申请实施例提供的目标检测方法还能够应用在其他目标检测的场景下，本申请实施例对目标检测方法的应用场景不做限制。例如，在智慧交通场景下，终端101可以为车载终端。终端101能够在车辆行驶过程中，采集车辆周围环境的图像，并通过目标检测模型检测图像中出现的车辆、行人以及信号灯等对象。然后，终端101能够根据上述对象和对象的位置控制车辆的行驶状态。

图2是本申请实施例提供的一种目标检测方法的流程图。该方法由终端执行，参见图2，该方法包括：

201、终端基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，目标图像中包括至少一个目标对象，目标检测模型用于检测至少一个目标对象的类别和位置，多个特征提取层与多个尺度的第一特征图一一对应，特征提取层包括多个串联的第一卷积单元，第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取。

在本申请实施例中，目标图像为待进行目标检测的图像。目标图像中包括至少一个目标对象。响应于用户对目标图像的目标检测操作，终端获取目标检测模型，通过目标检测模型对目标图像进行检测。其中，目标检测模型用于检测目标图像中至少一个目标对象的类别和位置。

在通过目标检测模型检测目标图像的过程中，终端将目标图像输入至目标检测模型，由目标检测模型中多个串联的特征提取层对目标图像进行特征提取，得到每个特征提取层输出的特征图。其中，特征提取层内包括多个串联的卷积单元。上述特征提取的操作是通过卷积单元内的深度卷积、逐点卷积以及批量归一化中的至少一种操作实现的。

由于各个特征提取层包括的卷积单元的数量不同，各个特征提取层内进行特征提取时所经过的卷积操作的数量也不同。因此，各个特征提取层输出的特征图的尺度也不同。特征提取层越深，该特征提取层输出的特征图所经过的卷积操作的数量越多，该特征图的尺度越小。通过上述多个特征提取层进行特征提取，能够得到多个尺度不同的特征图。为便于描述，下面将特征提取层输出的特征图称为第一特征图。

202、终端基于目标检测模型的特征融合层，对多个尺度的第一特征图进行融合，得到第一融合特征图，第一融合特征图包括至少一个目标对象的类别特征和位置特征。

在本申请实施例中，目标检测模型还包括特征融合层。终端通过目标检测模型中的特征融合层，融合多个尺度不同的第一特征图，得到第一融合特征图。其中，第一融合特征图中包括各个尺度的第一特征图所包含的特征，也即是，第一融合特征图中包括至少一个目标对象的类别特征和位置特征。

203、终端基于目标检测模型的输出层，对第一融合特征图进行解码，得到目标图像的检测结果，检测结果用于表示至少一个目标对象的类别和位置。

在本申请实施例中，目标检测模型还包括输出层。输出层用于输出目标图像的检测结果。终端将第一融合特征输入到目标检测模型中的输出层，由输出层对第一融合特征图中包括的类别特征和位置特征进行解码，从而得到目标图像中至少一个目标对象的类别和位置，也即是得到目标图像的检测结果。

在一些实施例中，经过解码得到的检测结果可以为多元数组，如[k,x,y]。其中，k为目标对象的类别标识，x和y为目标对象的中心点在目标图像中的坐标。检测结果也可以为向量或者标注后的目标图像，本申请实施例对检测结果的形式不进行限制。例如，在标注后的目标图像中通过矩形框标注目标对象所在的位置，通过矩形框的颜色或者类别标识标注目标对象的类别。

图3是本申请实施例提供的另一种目标检测方法的流程图。该方法由终端执行，参见图3，该方法包括：

301、终端对原始图像进行边缘增强，得到目标图像，边缘增强用于增强原始图像中至少一个目标对象的边缘信息。

在本申请实施例中，原始图像为待进行目标检测的图像。原始图像可以为用户通过终端拍摄的图像、通过终端录制的视频中的任一帧图像或者通过终端保存的图像，本申请实施例对此不进行限制。原始图像中包括至少一个目标对象。目标对象可以为原始图像中的人物、动物、植物以及建筑物等多种类别的物体。目标检测用于检测原始图像中至少一个目标对象的类别和位置。

在目标检测的过程中，原始图像的图像质量会影响目标检测的准确率。在原始图像的图像质量较差的情况下，如原始图像中目标对象的边缘被遮挡、边缘较为模糊或者目标对象的前景和背景的分界线不清晰时，很难在原始图像中检测到该目标对象，或者很难准确检测出该目标对象的类别，导致目标检测的准确率较低。

为了提高目标检测的准确率，响应于对原始图像的目标检测操作，终端对原始图像进行边缘增强，以增强原始图像中目标对象的边缘轮廓。例如，终端可以通过Sobel算子(索贝尔算子)或者拉普拉斯算子对原始图像进行边缘增强，得到目标图像。目标图像能够更清晰地显示出不同目标对象的边缘轮廓，从而便于终端检测不同目标对象的类别和位置。因此，终端对目标图像进行目标检测，能够提高目标检测的准确率。

其中，对原始图像的目标检测操作可以为用户对原始图像的长按操作、用户在检测入口上传原始图像的操作以及用户通过语音控制终端对原始图像进行识别的操作，本申请实施例对触发目标检测的具体操作不进行限制。

302、终端基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，目标图像中包括至少一个目标对象，目标检测模型用于检测至少一个目标对象的类别和位置，多个特征提取层与多个尺度的第一特征图一一对应，特征提取层包括多个串联的第一卷积单元，第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取。

在本申请实施例中，终端得到目标图像之后，通过目标检测模型对目标图像进行目标检测。其中，目标检测模型包括多个特征提取层、特征融合层以及输出层。特征提取层用于提取输入图像的特征图。特征融合层用于对提取到的多个特征图进行融合，得到融合特征图。输出层用于对融合特征图进行解码，得到目标图像中至少一个目标对象的类别和位置。

在目标检测的过程中，终端将目标图像输入至目标检测模型中，通过目标检测模型中多个串联的特征提取层依次进行特征提取，得到每个特征提取层输出的特征图。具体地，终端在每个特征提取层内通过多个串联的卷积单元实现对输入的特征图进行特征提取。其中，上述特征提取操作是通过卷积单元内的深度卷积、逐点卷积以及批量归一化中的至少一种操作实现的。为便于描述，将上述包括深度卷积、逐点卷积以及批量归一化中的至少一种操作的卷积单元称为第一卷积单元。

需要说明的是，不同的特征提取层包括的第一卷积单元的数量可以相同，也可以不同。本申请实施例以不同的特征提取层包括的第一卷积单元的数量不同为例进行说明。特征提取层包括的第一卷积单元的数量越多，该特征提取层进行特征提取时的卷积操作越多，该特征提取层输出的特征图的尺度越小。因此，在本申请实施例中，通过上述多个特征提取层进行特征提取，能够得到多个尺度不同的特征图。为便于描述，下面将特征提取层输出的特征图称为第一特征图。

图4为一种特征提取层的示意图。为了更清楚的说明上述特征提取的过程，下面结合图4所示的特征提取层，通过下述步骤(1)-(3)对终端通过多个特征提取层对目标图像进行特征提取的过程进行说明。

首先简单介绍一下目标检测模型中的多个特征提取层。如图4所示，目标检测模型包括1个初始特征提取层和3个特征提取层。其中，初始特征提取层包括一个第二卷积单元。特征提取层包括多个串联的第一卷积单元。第一卷积单元中的卷积操作和第二卷积单元中的卷积操作不同。第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取。第二卷积单元用于通过常规卷积对输入图像进行特征提取。

下面对终端通过上述多个特征提取层对目标图像进行特征提取的过程进行说明。

(1)终端将目标图像输入至目标检测模型的初始特征提取层，通过初始特征提取层中的第二卷积单元，对目标图像进行特征提取，得到目标图像的初始特征图。

其中，输入到目标检测模型的目标图像共有4个维度：N*C*H*W。其中，N表示目标图像的数量，C表示目标图像的通道数，H表示目标图像的高度，W表示目标图像的宽度。例如，在目标图像的尺寸为320*320，目标图像包括R(Red，红色)、G(Green，绿色)、B(Blue，蓝色)三个通道的情况下，目标图像的4个维度为1*3*320*320。

在第二卷积单元的输入通道数为3，输出通道数为48的情况下，终端将目标图像输入至第二卷积单元之后，通过第二卷积单元内的48个卷积核对目标图像进行卷积，得到目标图像的初始特征图。初始特征图的4个维度为1*48*160*160。其中，每个卷积核的尺寸为3*3、卷积步长为2。另外，在卷积之前，终端还可以通过第二卷积单元在目标图像的四周填充1行像素值为0的像素。通过在目标图像的四周填充像素，避免了卷积过程中目标图像边缘的信息丢失，从而能够保证提取到目标图像边缘的特征。

在一些实施例中，初始特征提取层还包括边缘增强单元。边缘增强单元用于通过Sobel算子或者拉普拉斯算子对输入图像进行边缘增强。因此，在初始特征提取层还包括边缘增强单元的情况下，终端可以不执行上述步骤301，直接将原始图像输入至目标检测模型中的初始特征提取层，通过初始特征提取层中的边缘增强单元对原始图像进行边缘增强，得到目标图像。然后，终端通过初始特征提取层中的第二卷积单元，对目标图像进行特征提取，得到目标图像的初始特征图。

(2)终端将初始特征图输入到目标检测模型的第1层特征提取层。在第1层特征提取层，终端通过多个第一卷积单元中的逐点卷积、深度卷积以及批量归一化中的至少一种操作，对初始特征图进行特征提取，得到第1层特征提取层的第一特征图。

其中，多个第一卷积单元中的卷积操作可以相同，也可以不同，本申请实施例不进行限制。例如，多个第一卷积单元中的卷积步长可以不同。第1个第一卷积单元的卷积步长为2，第2个第一卷积单元的卷积步长可以为1。

例如，第1层特征提取层包括2个第一卷积单元。图4还示出了一种第一卷积单元的结构示意图。如图4所示，第一卷积单元包括深度卷积部分和逐点卷积部分。深度卷积部分由深度卷积-批量归一化-激活函数组成。逐点卷积部分由逐点卷积-批量归一化-激活函数组成。其中，第一卷积单元的输入通道数为48，输出通道数为48。终端将初始特征图输入至第1个第一卷积单元之后，通过深度卷积部分的48个卷积核，对初始特征图进行卷积尺寸为3*3、卷积步长为2的深度卷积。然后再经过批量归一化和激活函数处理之后，通过逐点卷积部分的48个卷积核，对初始特征图进行卷积尺寸为1*1、卷积步长为1的逐点卷积，再次经过批量归一化和激活函数处理之后，得到第1个第一卷积单元输出的特征图。然后，终端将该特征图输入到第2个第一卷积单元，在第2个第一卷积单元内通过类似的卷积处理，得到第一特征图。第一特征图的4个维度为1*48*80*80。其中，在第2个第一卷积单元内进行深度卷积的过程中，深度卷积的卷积步长为1。

需要说明的是，图4仅是示出了一种第一卷积单元的结构示意图。在一些实施例中，第一卷积单元的结构还可以为其他结构，本申请实施例对此不进行限制。例如，第一卷积单元的结构可以为深度卷积部分和逐点卷积部分并联，该并联结构再与特征融合、批量归一化和激活函数串联。采用上述结构，终端可以通过第一卷积单元，并行对初始特征图进行深度卷积和逐点卷积，然后对卷积之后得到的特征图进行融合，再经过批量归一化和激活函数处理，得到输出的第一特征图。另外，第一卷积单元中的激活函数可以为ReLU(Rectified Linear Unit，线性修正单元)或者Sigmoid(一种激活函数)等非线性激活函数，本申请实施例对此不进行限制。

然后，终端将第1个特征提取层输出的第一特征图输入到第2个特征提取层。由于第2个特征提取层到第n个特征提取层内部的处理过程类似，因此下面对终端通过第i个特征提取层进行特征提取的过程进行说明。其中，n为特征提取层的总数，i为大于1的整数。

(3)终端将第i-1层输出的第一特征图输入到第i层特征提取层。在第i层特征提取层，终端通过该特征提取层中多个第一卷积单元，对输入的第一特征图进行特征提取，得到第i层特征提取层的第一特征图。然后，终端将该第一特征图输入到下一层特征提取层，继续进行特征提取，直至得到各层特征提取层输出的第一特征图。其中，第一特征图的尺度与对应的特征提取层的层数负相关，也即是特征提取层的层数越深，该特征提取层输出的第一特征图的尺度越小。

例如，如图4所示，目标检测模型包括3个特征提取层。第2个特征提取层内包括8个第一卷积单元，第3个特征提取层内包括10个第一卷积单元。

对于第2个特征提取层，除了第1个第一卷积单元的输入通道数为48，输出通道数为128之外，其他第一卷积单元的输入通道数和输出通道数均为128。

对于第3个特征提取层，除了第1个第一卷积单元的输入通道数为128，输出通道数为256之外，其他第一卷积单元的输入通道数和输出通道数均为256。

在任一特征提取层的任一第一卷积单元内，深度卷积的卷积核的数量与该第一卷积单元的输出通道数相同，逐点卷积的卷积核的数量也与该第一卷积单元的输出通道数相同。因此，经过上述2个特征提取层的特征提取，能够得到第2个特征提取层输出的第一特征图和第3个特征提取层输出的第一特征图。其中，第2个特征提取层输出的第一特征图的4个维度为1*128*40*40。第3个特征提取层输出的第一特征图的4个维度为1*256*20*20。

在一些实施例中，特征提取层也可以包括边缘增强单元。边缘增强单元用于通过Sobel算子或者拉普拉斯算子对输入图像进行边缘增强。因此，通过多个串联的特征提取层中的边缘增强单元，能够构成Sobel算子金字塔或者拉普拉斯算子金字塔，从而实现在每个特征提取层内，对特征提取之前的特征图进行边缘增强，或者对特征提取之后得到的特征图进行边缘增强，以提高特征提取和目标检测的准确率。因此，在特征提取层包括边缘增强单元的情况下，终端也可以不执行上述步骤301，直接将原始图像输入至目标检测模型，并在特征提取的过程中通过目标检测模型中的多个边缘增强单元实现对特征图的边缘增强。

303、终端基于目标检测模型的特征融合层，对多个尺度的第一特征图进行融合，得到第一融合特征图，第一融合特征图包括至少一个目标对象的类别特征和位置特征。

在本申请实施例中，目标检测模型的多个特征提取层分别与目标检测模型的特征融合层相连接。响应于得到任一特征提取层输出的第一特征图，终端将该第一特征图输入到特征融合层。然后，终端通过特征融合层，对多个特征提取层输出的第一特征图进行融合，得到融合特征图。

在一些实施例中，目标检测模型的特征融合层包括多个融合单元和多个检测单元。其中，多个融合单元与多个特征提取层一一对应，多个融合单元与多个检测单元一一对应。融合单元和检测单元均用于融合特征图。下面通过步骤(1)-(4)对终端通过融合单元和检测单元进行特征融合的过程进行说明。

首先简单介绍一下目标检测模型中的多个融合单元和多个检测单元。图5为一种融合单元和检测单元的结构示意图。如图5所示，目标检测模型包括3个融合单元和3个检测单元。3个融合单元分别与3个特征提取层连接，3个检测单元分别与3个特征提取层连接。下面对终端通过上述融合单元和检测单元对多个第一特征图进行融合的过程进行说明。

(1)首先，对于任一尺度的第一特征图，终端将该第一特征图输入到对应的融合单元。其中，第一特征图对应的融合单元是指，与输出该第一特征图的特征提取层相连接的融合单元。然后，终端通过该融合单元，按照第一特征图的尺度，对该尺度的第一特征图和其他尺度的第一特征图进行融合，得到第一中间特征图，以使第一中间特征图的尺度与该第一特征图的尺度相同。其中，第一中间特征图的通道数为融合单元中逐点卷积核的数量。由于上述多个特征提取层输出的第一特征图的通道数不同。因此，为了便于特征融合，终端通过融合单元中的逐点卷积核，对输入的多个第一特征图进行逐点卷积，以使多个第一特征图的通道数相同，且第一特征图的通道数与逐点卷积核的数量相同。因此，终端通过融合单元，能够将尺度不同、通道数不同的多个第一特征图融合为目标尺度和目标通道数的第一中间特征图。

下面对终端通过融合单元统一特征图的尺度和通道数的过程进行说明。

在一些实施例中，终端能够通过逐点卷积对多个第一特征图的通道数进行统一，通过上采样或者下采样对多个第一特征图的尺度进行统一。对于任一尺度的第一特征图，终端通过与第一特征图对应的融合单元，对该尺度的第一特征图和其他尺度的第一特征图分别进行逐点卷积，以使尺度的第一特征图和其他尺度的第一特征图的通道数相同，且通道数与逐点卷积中逐点卷积核的数量相同。然后，终端通过融合单元，按照第一特征图的尺度，对多个其他尺度的第一特征图进行上采样或者下采样，得到多个尺度相同的第一特征图。然后，终端通过融合单元，对最终尺度相同、通道数相同的多个第一特征图进行融合，得到第一中间特征图。

例如，终端通过与第1层特征提取层连接的融合单元1，先融合第2层特征提取层输出的第一特征图(维度为1*128*40*40)和第3层特征提取层输出的第一特征图(维度为1*256*20*20)，再将融合得到的特征图与第1层特征提取层输出的第一特征图(维度为1*48*80*80)进行融合。具体融合过程如下：首先，终端通过融合单元1中的96个1*1的逐点卷积核，对上述3个第一特征图进行逐点卷积，得到通道数均为96的3个第一特征图。然后，终端通过融合单元1，对维度为1*96*20*20的第一特征图进行上采样，得到维度为1*96*40*40的第一特征图。然后，终端通过融合单元1，对两个维度均为1*96*40*40的第一特征图(其中一个是对1*128*40*40的第一特征图进行逐点卷积的到的特征图，另一个是先对1*256*20*20的特征图进行逐点卷积，再进行上采样得到的特征图)进行融合，得到维度为1*96*40*40的中间融合特征图。该中间融合特征图即为对第2层特征提取层输出第一特征图和第3层特征提取层输出的第一特征图进行融合得到的特征图。然后，终端通过融合单元1，对维度为1*96*40*40的中间融合特征图进行上采样，得到维度为1*96*80*80的中间融合特征图，再将该中间融合特征图与维度为1*96*80*80的第一特征图(对1*48*80*80的第一特征图进行逐点卷积得到的特征图)进行融合，得到该融合单元1输出的第一中间特征图。其中，第一中间特征图的维度为1*96*80*80。

其他两个融合单元的融合过程同理。例如，在融合单元2中，先对第1层特征提取层和第3层特征提取层输出的第一特征图进行融合，得到中间融合特征图。再将中间融合特征图与第2层特征提取层输出的第一特征图进行融合，得到融合单元2输出的第一中间特征图。融合单元2输出的第一中间特征图的维度为1*96*40*40。同理，融合单元3输出的第一中间特征图的维度为1*96*20*20。

(2)终端将该融合单元输出的第一中间特征图，输入到与该融合单元连接的检测单元。然后，终端根据该检测单元，对第一中间特征图进行通道分离，将多个通道的第一中间特征图分成至少一个通道的类别特征图和至少一个通道的位置特征图。

其中，类别特征图的通道数量可以通过目标检测模型的预设检测类别的数量确定。其中，预设检测类别为目标检测模型能够检测出的类别。例如，在预设检测类别的数量为8的情况下，目标检测模型能够在图像中检测出至多8种类别的目标对象。在目标检测模型进行目标检测的过程中，对于检测到的任一目标对象，目标检测模型确定该目标对象属于每种类别的概率。然后，目标检测模型将概率最高的类别确定为该目标对象的类别。因此，在终端通过检测单元对第一中间特征图进行通道分离时，能分离出8个通道的类别特征图。其中，一个通道对应一种类别。一个通道的类别特征图用于表示对应类别的目标对象的类别特征。

另外，终端通过检测单元分离出类别特征图之后，还可以通过检测单元中的Sigmoid函数对类别特征图进行处理，使得类别特征图中像素点的像素值位于0-1区间，从而实现对类别特征图进行归一化。

位置特征图的通道数量可以通过调整目标检测模型的超参数确定。例如，位置特征图的通道数量为(1+reg_max)*4。其中，reg_max为可以调节的超参数，在本申请实施例中，以reg_max是7为例进行说明。4表示通过4个数值来表示目标对象在目标图像中的位置。其中，4个数值分别为目标对象的中心点与矩形检测框的四个边之间的距离。因此，在检测单元对第一中间特征图进行通道分离时，通常能分离出32个通道的位置特征图。每4个位置特征图用于表示同一个类别的目标对象的位置特征。

(3)终端根据该检测单元，在通道维度拼接至少一个通道的类别特征图和至少一个通道的位置特征图，得到第二中间特征图。其中，第二中间特征图包括目标对象的类别特征和位置特征。

例如，在检测单元1对第一中间特征图进行通道分离得到8个通道的类别特征图和32个通道的位置特征图之后，终端通过检测单元1，在通道维度上拼接类别特征图和位置特征图，得到40个通道的第二中间特征图。因此，检测单元1输出的第二中间特征图的维度为1*40*80*80。同理，检测单元2输出的第二中间特征图的维度为1*40*40*40，检测单元3输出的第二中间特征图的维度为1*40*20*20。

需要说明的是，检测单元还可以包括多个串联的第三卷积单元和至少一个第四卷积单元。其中，第三卷积单元由深度卷积-批量归一化-激活函数组成。其中，激活函数可以为LeakyReLU(一种非线性激活函数)。第三卷积单元用于进一步提取第一中间特征图中的位置特征和类别特征，从而提高目标检测的准确率。第四卷积单元由一个卷积层组成。第四卷积单元用于对特征图进行卷积，实现上述通道分离和通道拼接的过程。其中，第四卷积单元的输入通道为96，输出通道为num_classes+4*(reg_max+1)。其中，num_classes为预设检测类别的数量，也即是类别特征图的通道数。4*(reg_max+1)为位置特征图的通道数。

(4)终端得到多个检测单元输出的第二中间特征图之后，在尺度维度拼接多个第二中间特征图，得到第一融合特征图。其中，尺度维度为高度和宽度两个维度的乘积。在本申请实施例中，尺度维度也可以称为长度维度。

例如，在3个检测单元输出的第二中间特征图的维度分别为：1*40*80*80、1*40*40*40以及1*40*20*20的情况下，终端拼接3个第二中间特征图得到的第一融合特征图的维度为：1*40*(6400+1600+400)＝1*40*8400。

在一些实施例中，终端在拼接第二特征图之前，先对第二特征图的尺度进行变换。对于任一第二中间特征图，在第二中间特征图存在通道、宽度、高度三个维度的情况下，终端将第二中间特征图中宽度和高度两个维度转换成一个长度维度，得到成第三中间特征图。第三中间特征图存在通道和长度两个维度。长度即为宽度和高度的乘积。终端通过上述方法对多个第二中间特征图进行转换，得到多个第三中间特征图。然后，终端在长度维度拼接多个第三中间特征图，得到第一融合特征图。

例如，终端通过上述方法，将维度为1*40*80*80、1*40*40*40以及1*40*20*20的第二中间特征图分别转换成维度为1*40*6400、1*40*1600以及1*40*400的第三中间特征图。然后，终端在长度维度拼接该3个第三中间特征图，得到维度为1*40*8400的第一融合特征图。

304、终端基于目标检测模型的输出层，对第一融合特征图进行解码，得到目标图像的检测结果，检测结果用于表示至少一个目标对象的类别和位置。

在本申请实施例中，目标检测模型还包括输出层。输出层用于输出目标检测的检测结果。终端将第一融合特征输入到目标检测模型中的输出层，由输出层对第一融合特征图中的类别特征和位置特征进行解码，得到目标图像中至少一个目标对象的类别和位置，也即是得到目标图像的检测结果。

在一些实施例中，在终端通过输出层进行解码之前，终端还能够通过输出层变换第一融合特征图的维度。例如，终端将维度为1*40*8400的第一融合特征图变换维度为1*6400*40，以便于后续的解码处理。

在一些实施例中，目标图像的检测结果可以为向量、多元数组或者图片等多种形式，本申请实施例对此不进行限制。例如，目标检测结果可以为三元数组[k,x,y]。其中，k为目标对象的类别标识，x和y为目标对象的中心点在目标图像中的坐标。或者，检测结果也可以为五元数组[k,q,r,z,h]。其中，k为目标对象的类别标识。q、r、z、h分别为目标对象的中心点与矩形检测框的四条边之间的距离。其中，矩形检测框用于在目标图像中框选目标对象所在的区域。或者，检测结果还可以为标注后的目标图像。在标注后的目标图像中通过矩形框标注目标对象所在的位置，通过矩形框的颜色或者类别标识标注目标对象的类别。

上述实施例介绍了终端通过目标检测模型对目标图像进行目标检测的过程。下面以终端为执行主体为例，通过下述步骤(1)-(5)对目标检测模型的训练过程进行说明。

(1)终端获取样本图像。样本图像中包括至少一个目标对象。终端将样本图像输入至目标检测模型，通过目标检测模型中的多个特征提取层，对样本图像进行特征提取，得到多个尺度的第二特征图。

其中，在训练目标检测模型的过程中，为了训练目标检测模型通过不同卷积操作提取图像特征的能力，终端可以将特征提取层的第一卷积单元设计成其他的结构。例如，图6为一种第一卷积单元的结构示意图。如图6所示，在第一卷积单元内，先通过并行的3个支路，对输入特征图进行卷积尺寸为1*1的逐点卷积、卷积尺寸为3*3的深度卷积以及批量归一化处理。然后，对3个支路输出的特征图依次进行特征融合和激活函数的处理，得到中间特征图。再通过并行的2个支路，对中间特征图进行卷积尺寸为1*1的逐点卷积和批量归一化处理。再对2个支路输出的特征图依次进行特征融合和激活函数的处理，得到第一卷积单元的输出特征图。通过设计上述结构的第一卷积单元，能够使得目标检测模型中的特征提取层通过不同的卷积操作均能够准确提取出表达能力较强的特征图，提高目标检测的准确率。并且，在使用目标检测模型进行目标检测时，能够将第一卷积单元单元的结构更新为上述图4所示的结构，从而减少第一卷积单元中的跳跃连接，降低目标检测模型的参数数量，提高目标检测模型的目标检测效率。另外，通过实验效果可知，在通过microsoft coco数据集进行目标检测时，相较于其他目标检测模型，在同等检测速度上，本申请实施例中的目标检测模型的mAP精度(一种目标检测的评价指标)能够提高2个百分点以上。

(2)终端通过目标检测模型的特征融合层，对多个尺度的第二特征图进行融合，得到第二融合特征图，第二融合特征图包括样本图像中至少一个目标对象的类别特征和位置特征。其中，特征融合的具体过程与上述步骤303同理，在此不再赘述。

(3)终端通过目标检测模型的输出层，对第二融合特征图进行解码，得到样本图像的检测结果。其中，检测结果用于表示样本图像中至少一个目标对象的预测类别和预测位置。

(4)终端根据样本图像的检测结果和样本图像的标签，确定目标检测模型的训练损失。其中，样本图像的标签用于表示样本图像中至少一个目标对象的真实类别和真实位置。

在一些实施例中，训练损失包括类别损失和位置损失。终端根据至少一个目标对象的预测类别和真实类别，确定类别损失。其中，类别损失用于表示至少一个目标对象的预测类别和真实类别之间的差异大小。终端根据至少一个目标对象的预测位置和真实位置，确定位置损失。位置损失用于表示至少一个目标对象的预测位置和真实位置之间的差异大小。类别损失和位置损失均与对应的差异大小正相关。

其中，训练损失可以为Loss_qfl+w1*Loss_dfl+w2*Loss_bbox。其中，Loss_qfl为分类损失，Loss_dfl和Loss_bbox两种不同的位置损失。w1和w2分别为Loss_dfl和Loss_bbox两种损失的权重。w1和w2可以为一个预设的数值，如w1为0.25，w2为2；或者w1为0.5，w2为1.5，本申请实施例对此不进行限制。

(5)终端根据该训练损失，训练目标检测模型。其中，终端根据该训练损失，对目标检测模型的模型参数进行更新，以使目标检测模型的训练损失减小，训练得到更新后的目标检测模型。若更新后的目标检测模型满足训练结束条件，如训练次数为目标次数，或者目标检测模型的训练损失在目标范围内，则将更新后的目标检测模型作为训练完成的目标检测模型。若更新后的目标检测模型不满足训练结束条件，则按照步骤(1)至步骤(5)的方式，再次对目标检测模型的参数进行更新，直至更新后的目标检测模型满足训练结束条件，得到训练完成的目标检测模型。

在一些实施例中，终端还能够通过辅助训练层辅助训练目标检测模型。例如，图7为一种目标检测模型的示意图。如图7所示，目标检测模型还包括辅助训练层。其中，辅助训练层与上述特征融合层的作用同理。终端通过目标检测模型的辅助训练层，对多个尺度的第一特征图进行融合，得到第三融合特征图。然后，终端通过目标检测模型的输出层，对第三融合特征图进行解码，得到目标检测模型的辅助检测结果。终端根据样本图像的辅助检测结果和样本图像的标签，确定目标检测模型的辅助训练损失。然后，终端根据该训练损失和辅助训练损失，对目标检测模型的模型参数进行更新，直至更新后的目标检测模型满足训练结束条件，得到训练完成的目标检测模型。

其中，辅助训练损失可以为ALoss_qfl+w3*ALoss_dfl+w4*ALoss_bbox。其中，ALoss_qfl为辅助训练损失中的类别损失。ALoss_dfl和ALoss_bbox为辅助训练损失中的两种位置损失。w3和w4分别为ALoss_dfl和ALoss_bbox两种损失的权重。w3和w4也可以为一个预设的数值，如w3为0.25，w4为2；或者w3为0.5，w4为1.5，本申请实施例对此不进行限制。

需要说明的是，该辅助训练层仅用于对目标检测模型进行辅助训练。因此，在目标检测模型训练完成之后，在使用目标检测模型进行目标检测的过程中，目标检测模型可以不包括该辅助训练层。

在一些实施例中，终端还可以通过三阶段训练目标检测模型。不同训练阶段的训练样本集不同。首先，终端通过第一样本集对目标检测模型进行第一阶段训练。其中，第一样本集包括多个原始样本图像和第一数量个扩充样本图像。扩充样本图像通过MixUp(混合)、Mosaic(马赛克)以及Random Affine(随机仿射变化)等数据增强方式对多个原始样本图像进行数据增强得到。然后，终端通过第二样本集对目标检测模型进行第二阶段训练。其中，第二样本集包括多个原始样本图像和第二数量个扩充样本图像。第二数量小于第一数量，也即是，在第二阶段训练时，终端在训练样本集中减小了扩充样本图像的比例。然后，终端通过多个原始样本图像对目标检测模型进行第三阶段训练，也即是，在第三阶段训练时，终端仅通过原始样本图像训练目标检测模型。通过在上述三阶段的训练过程中逐步减少扩充样本图像在训练样本集中的比重，不仅能够提高目标检测模型检测复杂的目标对象时的准确率，还能够保证目标对象检测简单的目标对象时的准确率，从而使得目标检测模型能够准确地检测出图像中复杂度不同的目标对象。

另外，在训练目标检测模型的过程中，可以根据目标检测的应用场景，选择合适的训练样本集。例如，在目标检测的应用场景是识别植物种类的情况下，训练样本集可以为包含不同种类植物的样本图像的集合。或者，在目标检测的应用场景是智慧交通的情况下，训练样本集可以为包含行人、交通灯、车辆、车道线以及交通指示牌等对象的样本图像的集合。

需要说明的是，本申请实施例是以终端为执行主体，对终端训练目标检测模型的过程进行的说明。在一些实施例中，还可以由服务器为执行主体，由服务器通过上述过程训练目标检测模型。然后，服务器将训练好的目标检测模型部署在终端，由终端直接调用训练好的目标检测模型进行目标检测。因此，终端无需训练目标检测模型，从而降低了目标检测任务对终端的性能要求。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图8是本申请实施例提供的一种目标检测装置的结构示意图。参见图8，该装置包括：第一提取模块801、第一融合模块802以及第一解码模块803。

第一提取模块801，用于基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，目标图像中包括至少一个目标对象，目标检测模型用于检测至少一个目标对象的类别和位置，多个特征提取层与多个尺度的第一特征图一一对应，特征提取层包括多个串联的第一卷积单元，第一卷积单元用于通过深度卷积、逐点卷积以及批量归一化中的至少一种操作对输入图像进行特征提取；

第一融合模块802，用于基于目标检测模型的特征融合层，对多个尺度的第一特征图进行融合，得到第一融合特征图，第一融合特征图包括至少一个目标对象的类别特征和位置特征；

第一解码模块803，用于基于目标检测模型的输出层，对第一融合特征图进行解码，得到目标图像的检测结果，检测结果用于表示至少一个目标对象的类别和位置。

在一些实施例中，第一提取模块801，用于基于目标检测模型的初始特征提取层，对目标图像进行特征提取，得到目标图像的初始特征图，初始特征提取层包括第二卷积单元，第二卷积单元中的卷积操作与第一卷积单元中的卷积操作不同；在目标检测模型的第1层特征提取层，通过特征提取层中多个第一卷积单元，对初始特征图进行特征提取，得到第1层特征提取层的第一特征图；在目标检测模型的第i层特征提取层，通过特征提取层中多个第一卷积单元，对第i-1层特征提取层的第一特征图进行特征提取，得到第i层特征提取层的第一特征图，直至得到各层特征提取层的第一特征图，第一特征图的尺度与对应的特征提取层的层数负相关，i为大于1的整数。

在一些实施例中，图9是本申请实施例提供的另一种目标检测装置的结构示意图，参见图9，装置还包括：

边缘增强模块804，用于对原始图像进行边缘增强，得到目标图像，边缘增强用于增强原始图像中至少一个目标对象的边缘信息。

在一些实施例中，目标检测模型的特征融合层包括多个融合单元和多个检测单元，多个融合单元与多个特征提取层一一对应，多个融合单元与多个检测单元一一对应；

第一融合模块802，包括：

特征融合单元8021，用于对于任一尺度的第一特征图，基于与第一特征图对应的融合单元，按照第一特征图的尺度，对尺度的第一特征图和其他尺度的第一特征图进行融合，得到第一中间特征图，第一中间特征图的通道数为融合单元中逐点卷积核的数量，逐点卷积核用于对输入特征图进行逐点卷积，以使输入特征图的通道数与逐点卷积核的数量相同；

通道分离单元8022，用于基于融合单元对应的检测单元，对第一中间特征图进行通道分离，得到至少一个通道的类别特征图和至少一个通道的位置特征图；

拼接单元8023，用于基于融合单元对应的检测单元，在通道维度拼接至少一个通道的类别特征图和至少一个通道的位置特征图，得到第二中间特征图；

拼接单元8023，还用于在尺度维度拼接多个第二中间特征图，得到第一融合特征图。

在一些实施例中，特征融合单元8021，用于对于任一尺度的第一特征图，基于与第一特征图对应的融合单元，对尺度的第一特征图和其他尺度的第一特征图分别进行逐点卷积，以使尺度的第一特征图和其他尺度的第一特征图的通道数相同，且通道数与逐点卷积中逐点卷积核的数量相同；基于融合单元，按照第一特征图的尺度，对多个其他尺度的第一特征图进行上采样或者下采样，得到多个尺度的第一特征图；基于融合单元，对尺度的第一特征图和多个尺度的第一特征图进行融合，得到第一中间特征图。

在一些实施例中，拼接单元8023，用于对于任一第二中间特征图，在第二中间特征图包括通道、宽度、高度三个维度的情况下，将第二中间特征图转换成第三中间特征图，第三中间特征图包括通道和长度两个维度，长度为宽度和高度的乘积；在长度维度拼接多个第三中间特征图，得到第一融合特征图。

在一些实施例中，装置还包括：

第二提取模块805，用于基于目标检测模型中的多个特征提取层，对样本图像进行特征提取，得到多个尺度的第二特征图，样本图像中包括至少一个目标对象；

第二融合模块806，用于基于目标检测模型的特征融合层，对多个尺度的第二特征图进行融合，得到第二融合特征图，第二融合特征图包括样本图像中至少一个目标对象的类别特征和位置特征；

第二解码模块807，用于基于目标检测模型的输出层，对第二融合特征图进行解码，得到样本图像的检测结果，检测结果用于表示样本图像中至少一个目标对象的预测类别和预测位置；

损失确定模块808，用于基于样本图像的检测结果和样本图像的标签，确定目标检测模型的训练损失，样本图像的标签用于表示样本图像中至少一个目标对象的真实类别和真实位置；

模型训练模块809，用于基于训练损失，训练目标检测模型。

在一些实施例中，训练损失包括类别损失和位置损失，类别损失用于表示至少一个目标对象的预测类别和真实类别之间的差异大小，位置损失用于表示至少一个目标对象的预测位置和真实位置之间的差异大小。

在一些实施例中，模型训练模块809，用于基于目标检测模型的辅助训练层，对多个尺度的第一特征图进行融合，得到第三融合特征图；基于目标检测模型的输出层，对第三融合特征图进行解码，得到目标检测模型的辅助检测结果；基于样本图像的辅助检测结果和样本图像的标签，确定目标检测模型的辅助训练损失；基于训练损失和辅助训练损失，训练目标检测模型。

在一些实施例中，模型训练模块809，还用于基于第一样本集对目标检测模型进行第一阶段训练，第一样本集包括多个原始样本图像和第一数量个扩充样本图像，扩充样本图像通过对多个原始样本图像进行数据增强得到；基于第二样本集对目标检测模型进行第二阶段训练，第二样本集包括多个原始样本图像和第二数量个扩充样本图像，第二数量小于第一数量；基于多个原始样本图像对目标检测模型进行第三阶段训练。

本申请实施例提供了一种目标检测装置，通过目标检测模型的多个特征提取层对待检测的图像进行特征提取，能够得到多个尺度的特征图。由于不同尺度的特征图能够反映不同尺寸的目标对象的类别特征和位置特征。因此，对多个尺度的特征图进行融合得到的融合特征图能够反映图像中不同尺寸的目标对象的类别特征和位置特征。然后，通过对融合特征进行解码，能够确定图像中不同尺寸的目标对象的类别和位置。采用上述方法，能够成功检测目标图像中的大多数目标对象，提高了目标检测的准确率。

需要说明的是，上述实施例提供的目标检测装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用程序中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种终端，该终端包括处理器和存储器；该存储器存储有至少一条程序代码，该至少一条程序代码用于被处理器执行以实现如上述各个方法实施例提供的目标检测方法。

图10是本申请实施例提供的一种终端的结构方框图。在一些实施例中，终端1000是智能手机、平板电脑、可穿戴设备等能够作为无线站点接入无线局域网的终端。本申请中的终端1000至少包括一个或多个以下部件：处理器1010、存储器1020和至少两个无线链路1030。

在一些实施例中，处理器1010包括一个或者多个处理核心。处理器1010利用各种接口和线路连接整个终端1000内的各个部分，通过运行或执行存储在存储器1020内的程序代码，以及调用存储在存储器1020内的数据，执行终端1000的各种功能和处理数据。在一些实施例中，处理器1010采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1010能集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。能够理解的是，上述调制解调器也能不集成到处理器1010中，单独通过一块芯片进行实现。

在一些实施例中，该处理器1010用于控制至少两个无线链路1030的工作状况，相应的，该处理器1010为集成了无线保真(Wireless Fidelity，Wi-Fi)芯片的处理器。其中，该Wi-Fi芯片为具有双Wi-Fi处理能力的芯片。例如，该Wi-Fi芯片为双频双发(Dual BandDual Concurrent，DBDC)芯片，或者，双频同步(Dual Band Simultaneous，DBS)芯片等。

在一些实施例中，存储器1020包括随机存储器(Random Access Memory，RAM)，在一些实施例中，存储器1020包括只读存储器(Read-Only Memory，ROM)。在一些实施例中，该存储器1020包括非瞬时性计算机可读介质(non-transitory computer-readable storagemedium)。存储器1020可用于存储程序代码。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端1000的使用所创建的数据(比如音频数据、电话本)等。

在一些实施例中，存储器1020中存储有不同的无线链路1030的接收信标帧的接收方案。以及，不同的无线链路1030连接的接入节点的标识、无线链路1030的标识等。

该至少两个无线链路1030用于连接不同的接入节点(Access Point，AP)。接收AP下发的下行数据。其中，该不同的接入节点为同一路由器中的接入节点或者不同路由器中的接入节点。

在一些实施例中，终端1000中还包括显示屏。显示屏是用于显示用户界面的显示组件。在一些实施例中，该显示屏为具有触控功能的显示屏，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏上进行触控操作。在一些实施例中，显示屏通常设置在终端1000的前面板。在一些实施例中，显示屏被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。在一些实施例中，显示屏还被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合等，本实施例对此不加以限定。

除此之外，本领域技术人员能够理解，上述附图所示出的终端1000的结构并不构成对终端1000的限定，终端1000包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1000中还包括麦克风、扬声器、输入单元、传感器、音频电路、模块、电源、蓝牙模块等部件，在此不再赘述。

本申请还提供一种计算机可读存储介质，该存储介质存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的目标检测方法。

本申请还提供一种芯片，该芯片包括可编程逻辑电路和/或程序指令，当该芯片在终端上运行时，用于实现如上各个实施例示出的目标检测方法。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条程序代码，该至少一条程序代码用于被处理器执行以实现如上各个实施例示出的目标检测方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的目标检测方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于目标检测模型的多个特征提取层，对目标图像进行特征提取，得到多个尺度的第一特征图，包括：

基于所述目标检测模型的初始特征提取层，对所述目标图像进行特征提取，得到所述目标图像的初始特征图，所述初始特征提取层包括第二卷积单元，所述第二卷积单元中的卷积操作与所述第一卷积单元中的卷积操作不同；

在所述目标检测模型的第1层特征提取层，通过所述特征提取层中多个第一卷积单元，对所述初始特征图进行特征提取，得到所述第1层特征提取层的第一特征图；

在所述目标检测模型的第i层特征提取层，通过所述特征提取层中多个第一卷积单元，对第i-1层特征提取层的第一特征图进行特征提取，得到所述第i层特征提取层的第一特征图，直至得到各层特征提取层的第一特征图，所述第一特征图的尺度与对应的特征提取层的层数负相关，i为大于1的整数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对原始图像进行边缘增强，得到所述目标图像，所述边缘增强用于增强所述原始图像中至少一个目标对象的边缘信息。

4.根据权利要求1所述的方法，其特征在于，所述目标检测模型的特征融合层包括多个融合单元和多个检测单元，所述多个融合单元与所述多个特征提取层一一对应，所述多个融合单元与所述多个检测单元一一对应；

所述基于所述目标检测模型的特征融合层，对所述多个尺度的第一特征图进行融合，得到第一融合特征图，包括：

对于任一尺度的第一特征图，基于与所述第一特征图对应的融合单元，按照所述第一特征图的尺度，对所述尺度的第一特征图和其他尺度的第一特征图进行融合，得到第一中间特征图，所述第一中间特征图的通道数为所述融合单元中逐点卷积核的数量，所述逐点卷积核用于对输入特征图进行逐点卷积，以使所述输入特征图的通道数与所述逐点卷积核的数量相同；

基于所述融合单元对应的检测单元，对所述第一中间特征图进行通道分离，得到至少一个通道的类别特征图和至少一个通道的位置特征图；

基于所述融合单元对应的检测单元，在通道维度拼接所述至少一个通道的类别特征图和至少一个通道的位置特征图，得到第二中间特征图；

在尺度维度拼接多个第二中间特征图，得到所述第一融合特征图。

5.根据权利要求4所述的方法，其特征在于，所述对于任一尺度的第一特征图，基于与所述第一特征图对应的融合单元，按照所述第一特征图的尺度，对所述尺度的第一特征图和其他尺度的第一特征图进行融合，得到第一中间特征图，包括：

对于任一尺度的第一特征图，基于与所述第一特征图对应的融合单元，对所述尺度的第一特征图和所述其他尺度的第一特征图分别进行逐点卷积，以使所述尺度的第一特征图和所述其他尺度的第一特征图的通道数相同，且所述通道数与所述逐点卷积中逐点卷积核的数量相同；

基于所述融合单元，按照所述第一特征图的尺度，对多个其他尺度的第一特征图进行上采样或者下采样，得到多个所述尺度的第一特征图；

基于所述融合单元，对所述尺度的第一特征图和所述多个所述尺度的第一特征图进行融合，得到所述第一中间特征图。

6.根据权利要求4所述的方法，其特征在于，所述在尺度维度拼接多个第二中间特征图，得到所述第一融合特征图，包括：

对于任一第二中间特征图，在所述第二中间特征图包括通道、宽度、高度三个维度的情况下，将所述第二中间特征图转换成第三中间特征图，所述第三中间特征图包括通道和长度两个维度，所述长度为所述宽度和高度的乘积；

在所述长度维度拼接多个第三中间特征图，得到所述第一融合特征图。

7.根据权利要求1所述的方法，其特征在于，所述目标检测模型的训练过程包括：

基于所述目标检测模型中的多个特征提取层，对样本图像进行特征提取，得到多个尺度的第二特征图，所述样本图像中包括至少一个目标对象；

基于所述目标检测模型的特征融合层，对所述多个尺度的第二特征图进行融合，得到第二融合特征图，所述第二融合特征图包括所述样本图像中至少一个目标对象的类别特征和位置特征；

基于所述目标检测模型的输出层，对所述第二融合特征图进行解码，得到所述样本图像的检测结果，所述检测结果用于表示所述样本图像中至少一个目标对象的预测类别和预测位置；

基于所述样本图像的检测结果和所述样本图像的标签，确定所述目标检测模型的训练损失，所述样本图像的标签用于表示所述样本图像中至少一个目标对象的真实类别和真实位置；

基于所述训练损失，训练所述目标检测模型。

8.根据权利要求7所述的方法，其特征在于，所述训练损失包括类别损失和位置损失，所述类别损失用于表示所述至少一个目标对象的预测类别和真实类别之间的差异大小，所述位置损失用于表示所述至少一个目标对象的预测位置和真实位置之间的差异大小。

9.根据权利要求7所述的方法，其特征在于，所述基于所述训练损失，训练所述目标检测模型，包括：

基于所述目标检测模型的辅助训练层，对所述多个尺度的第一特征图进行融合，得到第三融合特征图；

基于所述目标检测模型的输出层，对所述第三融合特征图进行解码，得到所述目标检测模型的辅助检测结果；

基于所述样本图像的辅助检测结果和所述样本图像的标签，确定所述目标检测模型的辅助训练损失；

基于所述训练损失和所述辅助训练损失，训练所述目标检测模型。

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于第一样本集对所述目标检测模型进行第一阶段训练，所述第一样本集包括多个原始样本图像和第一数量个扩充样本图像，所述扩充样本图像通过对所述多个原始样本图像进行数据增强得到；

基于第二样本集对所述目标检测模型进行第二阶段训练，所述第二样本集包括所述多个原始样本图像和第二数量个扩充样本图像，所述第二数量小于所述第一数量；

基于所述多个原始样本图像对所述目标检测模型进行第三阶段训练。

11.一种目标检测装置，其特征在于，所述装置包括：

12.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如权利要求1至10任一项所述的目标检测方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如权利要求1至10任一项所述的目标检测方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序产品存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如权利要求1至10任一项所述的目标检测方法。