CN116912483A

CN116912483A - 目标检测方法、电子设备以及存储介质

Info

Publication number: CN116912483A
Application number: CN202310867793.6A
Authority: CN
Inventors: 张树钺; 张诚成; 马子昂
Original assignee: Hangzhou Huacheng Software Technology Co Ltd
Current assignee: Hangzhou Huacheng Software Technology Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-20

Abstract

本发明公开了一种目标检测方法、电子设备以及存储介质，其中，目标检测方法包括：获取到目标对象的待检测图像；通过目标检测模型的特征处理网络对待检测图像进行特征处理，以得到待检测图像的图像特征；通过目标检测模型的主检测头对图像特征进行检测，得到目标对象的检测框；其中，目标检测模型是通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练得到的。通过上述方式，本发明能够兼顾目标检测模型的高精度检测以及模型轻量化。

Description

目标检测方法、电子设备以及存储介质

技术领域

本发明涉及图像处理领域，特别是涉及目标检测方法、电子设备以及存储介质。

背景技术

随着社会的不断发展，技术的不断提升，人们对目标检测技术的要求的精度要求却来越高。

目前绝大部分高精度的目标检测算法的网络模型过深，参数量过大，对计算设备的算力需要较高，导致在嵌入式平台上部署的难度较高，也会造成实时检测帧率较低。而过于轻量化的模型可能会出现误检、多噪点等问题，会导致检测准确率低，同时存在检测框偏移较大，不易于其他算法相结合的问题。

目前的目标检测算法无法兼顾高精度检测以及模型轻量化。

发明内容

本发明提供了一种目标检测方法、电子设备以及存储介质，以解决无法兼顾高精度检测以及模型轻量化的问题。

为解决上述技术问题，本发明提供一种目标检测方法，包括：获取到目标对象的待检测图像；通过目标检测模型的特征处理网络对待检测图像进行特征处理，以得到待检测图像的图像特征；通过目标检测模型的主检测头对图像特征进行检测，得到目标对象的检测框；其中，目标检测模型是通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练得到的。

其中，特征处理网络包括相互级联的主干网络以及特征融合网络；通过目标检测模型的特征处理网络对待检测图像进行特征处理，以得到待检测图像的图像特征的步骤包括：通过目标检测模型的主干网络对待检测图像进行特征提取，得到待检测图像的初始特征；通过目标检测模型的特征融合网络对初始特征进行特征融合，得到待检测图像的图像特征。

其中，主干网络包括：相互级联的先处理模块、第一子网络、第二子网络以及第三子网络；通过目标检测模型的主干网络对待检测图像进行特征提取，得到待检测图像的初始特征的步骤包括：通过先处理模块对待检测图像进行下采样以及最大池化处理，得到待检测图像的预处理特征；通过第一子网络对预处理特征进行特征提取，得到第一特征；通过第二子网络对第一特征进行特征提取，得到第二特征；通过第三子网络对第二特征进行特征提取，得到第三特征；将第一特征、第二特征以及第三特征确定为初始特征。

其中，第一子网络、第二子网络以及第三子网络的网络结构相同，网络结构包括相互级联的第一卷积层、全连接层、第四卷积层以及最大池化层，网络结构还包括第二卷积层以及第三卷积层，其中，第二卷积层与第一卷积层并列，并与全连接层连接，第三卷积层分别与第二卷积层以及全连接层连接。

其中，通过目标检测模型的特征融合网络对初始特征进行特征融合，得到待检测图像的图像特征的步骤包括：基于第一特征、第二特征以及第三特征进行多次通道级联，得到多个级联后的特征；通过目标检测模型的特征融合网络，分别对多个级联后的特征第一特征、第二特征以及第三特征进行特征融合，得到特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征；将特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征确定为待检测图像的图像特征。

其中，获取到目标对象的待检测图像，之前包括：获取到目标对象的训练图像；通过训练中的目标检测模型的特征处理网络对训练图像进行特征处理，以得到训练图像的训练图像特征；通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练，直至得到目标检测模型。

其中，通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测的步骤包括：基于训练图像确定训练图像特征的多个不同尺寸的锚框；通过计算各锚框的分类定位任务对齐度，确定主检测头的第一正样本锚框以及辅助检测头的第二正样本锚框；通过训练中的目标检测模型的主检测头对第一正样本锚框进行检测，以及通过训练中的目标检测模型的辅助检测头对第二正样本锚框进行检测。

其中，主检测头为耦合头，辅助检测头为解耦头；通过训练中的目标检测模型的主检测头对第一正样本锚框进行检测，以及通过训练中的目标检测模型的辅助检测头对第二正样本锚框进行检测的步骤包括：通过耦合头对第一正样本锚框进行检测，得到主检测头的检测框；通过解耦头基于归一化指数函数，确定第二正样本锚框在对应的标准框的预设区域内的概率，对概率进行线性积分回归，得到辅助检测头的检测框。

其中，分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练，直至得到目标检测模型的步骤包括：基于主检测头的检测框与训练图像的标准框之间的差异确定主检测头的第一损失；基于辅助检测头的检测框与训练图像的标准框之间的差异确定主检测头的第二损失；将第一损失与第二损失进行加权求和，得到训练中的目标检测模型的训练损失；基于训练损失对训练中的目标检测模型进行训练，直至得到目标检测模型。

为解决上述技术问题，本发明还提供了一种电子设备，电子设备包括：相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一项的目标检测方法。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有程序数据，程序数据能够处理器被执行以实现如上述任一项的目标检测方法。

本发明的有益效果是：区别于现有技术的情况，本发明通过在训练时，同时通过主检测头以及辅助检测头进行检测，并基于检测结果对目标检测模型进行训练，从而提高目标检测模型的训练效果，提高目标检测模型的检测精度，而在目标检测模型的推理过程中，只使用主检测头进行检测，从而使目标检测模型轻量化，进而提高目标检测模型的检测效率，进而兼顾目标检测模型的高精度检测以及模型轻量化。

附图说明

图1是本发明提供的目标检测方法一实施例的流程示意图；

图2是本发明提供的目标检测方法另一实施例的流程示意图；

图3是图2实施例中目标检测模型一实施方式的结构示意图；

图4是第一子网络一实施方式的结构示意图；

图5是第一特征、第二特征以及第三特征的特征融合一实施方式的走向示意图；

图6是特征融合网络一实施方式的结构示意图；

图7是图2实施例的目标检测模型一实施方式的训练流程示意图；

图8是训练中的特征融合网络一实施方式的结构示意图；

图9是训练中的目标检测模型一实施方式的结构示意图；

图10是本发明提供的电子设备一实施例的结构示意图；

图11是本发明提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明提供的目标检测方法一实施例的流程示意图。

步骤S11：获取到目标对象的待检测图像。

目标对象可以包括任意可被图像拍摄到的对象，例如：活体、机械设备或自然对象。具体包括但不限于人体、动物、电动车、汽车、人脸、飞机、地质面貌、云朵等。

待检测图像可以通过摄像头拍摄、也可以通过视频截取，还可以联网获取，具体的获取手段在此不做限定。

步骤S12：通过目标检测模型的特征处理网络对待检测图像进行特征处理，以得到待检测图像的图像特征。

特征处理前，可以先对待检测图像进行预处理。其中，预处理包括图像扩展、图像翻转、归一化处理或图像增强处理等，以消除待检测图像中无关的信息，提高有用的真实信息的占比，增强有关信息的可检测性和最大限度地简化数据，从而提高目标检测的可靠性。

目标检测模型包括相互级联的特征处理网络以及主检测头。特征处理网络用于对待检测图像进行特征处理，特征处理可以包括特征提取以及特征融合，以得到待检测图像的图像特征。

在一个具体的应用场景中，可以对待检测图像进行不同尺度的特征提取，以得到不同尺寸或不同通道数的特征，再将不同尺寸或不同通道数的特征进行特征融合，得到待检测图像的图像特征。

特征处理网络可以包括但不限于残差网络(resnet)、卷积神经网络、SSD(SingleShot MultiBox Detector)、各类YOLO或其他深度学习的特征提取网络等。

其中，本实施例的目标检测模型是通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练得到的。即目标检测模型在训练时，基于主检测头以及辅助检测头分别进行训练，以通过辅助检测头辅助主检测头进行训练，进而提高目标检测模型的训练效果，提高目标检测模型的检测精度以及检测性能。其中，主检测头和辅助检测头有着不同的模型设计。在训练时主检测头和辅助检测头使用共同的特征处理网络。

步骤S13：通过目标检测模型的主检测头对图像特征进行检测，得到目标对象的检测框。

通过特征处理网络对待检测图像进行特征处理得到待检测图像的图像特征后，只通过目标检测模型的主检测头对图像特征进行检测，得到目标对象的检测框，从而使目标检测模型在推理时实现轻量化，进而提高目标检测模型的检测效率，且在训练过程中利用主检测头以及辅助检测头同时进行训练的目标检测模型，能够同时保障目标检测的精度。

得到目标对象的检测框后，可以基于检测框进行目标识别、目标分类、目标定位等多种图像处理。

通过上述步骤，本实施例的目标检测方法通过在训练时，同时通过主检测头以及辅助检测头进行检测，并基于检测结果对目标检测模型进行训练，从而提高目标检测模型的训练效果，提高目标检测模型的检测精度，而在目标检测模型的推理过程中，只使用主检测头进行检测，从而使目标检测模型轻量化，进而提高目标检测模型的检测效率，进而兼顾目标检测模型的高精度检测以及模型轻量化。

请参阅图2，图2是本发明提供的目标检测方法另一实施例的流程示意图。

步骤S21：获取到目标对象的待检测图像。

本步骤与前述实施例的步骤S11相同，请参阅前文，在此不再赘述。

获得待检测图像后，可以先对待检测图像进行预处理。其中，预处理包括图像扩展、图像翻转、归一化处理或图像增强处理等，以消除待检测图像中无关的信息，提高有用的真实信息的占比，增强有关信息的可检测性和最大限度地简化数据，从而提高目标检测的可靠性。

在一个具体的应用场景中，可以对采集到的待检测图像大小进行统一化处理，得到尺寸为320*320*3的图像。在其他应用场景中，也可以采用其他尺寸。

步骤S22：通过目标检测模型的主干网络对待检测图像进行特征提取，得到待检测图像的初始特征。

请参阅图3，图3是图2实施例中目标检测模型一实施方式的结构示意图。

本实施方式的目标检测模型100包括相互级联的特征处理网络140以及多个主检测头130。其中，特征处理网络140包括相互级联的主干网络110以及特征融合网络120。即主干网络110、特征融合网络120以及多个主检测头130依次连接，其中，多个主检测头130之间并列设置，均与特征融合网络120连接。本实施方式以主检测头130为3个为例进行示意。

主干网络110包括：相互级联的先处理模块114、第一子网络111、第二子网络112以及第三子网络113。

则本步骤通过目标检测模型100的主干网络110对待检测图像进行特征提取，得到待检测图像的初始特征具体包括：先通过先处理模块114对待检测图像进行下采样以及最大池化处理，得到待检测图像的预处理特征；在一个具体的应用场景中，可以对待检测图像进行卷积核为3、步长为2的下采样操作，输出通道数为24的特征；对下采样后的特征进行步长为2的最大池化操作，输出的预处理特征的特征图尺寸为80*80，输出通道为24，即先处理模块114包括依次级联的卷积核为3、步长为2的卷积层以及步长为2的最大池化层。在其他应用场景，下采样以及最大池化处理还可以具体采用其他卷积核、步长或通道数，在此不做限定。

再通过第一子网络111对预处理特征进行特征提取，得到第一特征P3；通过第二子网络112对第一特征进行特征提取，得到第二特征P4；通过第三子网络113对第二特征进行特征提取，得到第三特征P5；将第一特征P3、第二特征P4以及第三特征P5确定为初始特征。即第一子网络111的输出为第二子网络112的输入，第二子网络112的输出为第三子网络113。

第一子网络111、第二子网络112以及第三子网络113的网络结构相同。请参阅图4，图4是第一子网络一实施方式的结构示意图。第二子网络112以及第三子网络113的网络结构均与本实施方式的第一子网络111相同，不再赘述。

第一子网络111的网络结构包括相互级联的第一卷积层1111、全连接层1116、第四卷积层1114以及最大池化层1115，网络结构还包括第二卷积层1112以及第三卷积层1113，其中，第二卷积层1112与第一卷积层1111并列，并与全连接层1116连接，第三卷积层1113分别与第二卷积层1112以及全连接层1116连接。在一个具体的应用场景中，第一卷积层1111、第四卷积层1114、第二卷积层1112以及第三卷积层1113的卷积核大小均为1*1，在其他实施方式中，上述卷积层的卷积核大小也可以为其他大小，具体基于实际需求进行设置。

在一个具体的应用场景中，当第一子网络111处理特征时，将先处理模块114输出的预处理特征分别输入到第一卷积层1111以及第二卷积层1112分别进行卷积处理，对应得到两个特征，其中，第二卷积层1112输出的特征还会输入到第三卷积层1113再次进行卷积处理，再得到一个特征，将上述三个特征均输入到全连接层1116中进行处理，随后再依次经过第四卷积层1114以及最大池化层1115进行处理后，得到第一特征P3。第二子网络112以及第三子网络113的特征处理方式均与本实施方式的第一子网络111相同，不再赘述。

在一个具体的应用场景中，对先处理模块114输出的预处理特征进行最大池化步长为2的第一子网络111处理，输出的第一特征P3的尺寸为40*40，通道数为116，再对第一特征P3进行最大池化步长为2的第二子网络112处理，输出第二特征P4的尺寸为20*20，通道数为232，最后对第二特征P4进行最大池化步长为2的第三子网络113处理，输出第三特征P5的尺寸为10*10，通道数为464。在其他应用场景中，上述网络处理还可以包括其他尺寸或通道数，具体基于实际需求进行设置。

网络模型的大小影响目标检测方法的轻量级，本实施例对主干网络110进行改良。在一个具体的应用场景中，Yolov7算法出于梯度传播效率的考虑，同时为了平衡网络的学习能力，当设计网络架构时，在CSP的基础上设计了Efficient Layer AggregationNetwork(ELAN)。但是ELAN结构深度对模型推理时长影响较大，本步骤的第一子网络111、第二子网络112以及第三子网络113对ELAN结构进行改良，并构建主干网络110使其模型深度变小，进而既可以考虑梯度传播效率，又能满足对算法实时性的要求。

步骤S23：通过目标检测模型的特征融合网络对初始特征进行特征融合，得到待检测图像的图像特征。

具体地，先基于第一特征、第二特征以及第三特征进行多次通道级联，得到多个级联后的特征；通过目标检测模型100的特征融合网络120，分别对多个级联后的特征第一特征、第二特征以及第三特征进行特征融合，得到特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征；将特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征确定为待检测图像的图像特征。

请参阅图5，图5是第一特征、第二特征以及第三特征的特征融合一实施方式的走向示意图。

在一个具体的应用场景中，可以使用1*1的卷积核将第三特征P5的通道压缩为96，并进行上采样，使其特征图尺寸变为20*20，记为M5。使用1*1的卷积核将第二特征P4的通道压缩为96，将处理后的第二特征P4与M5进行通道级联操作，再通过特征融合网络120进行特征融合，输出通道为256，记为M4；再将M4进行上采样，使其特征图尺寸变为40*40，记为U4。使用1*1的卷积核将第一特征P3的通道压缩为96，将处理后的第一特征P3与U4进行通道级联操作，再通过特征融合网络120进行特征融合，输出通道为96，记为特征融合后的第一特征H3；将H3进行下采样，使其特征图尺寸变为20*20，记为D3。将D3与M4进行通道级联操作，再通过特征融合网络120进行特征融合，输出通道为96，记为特征融合后的第二特征H4；最后将H4进行下采样，使其特征图尺寸变为10*10，记为D4。将D4与第三特征P5进行通道级联操作，再通过特征融合网络120进行特征融合，输出通道为96，记为特征融合后的第三特征H5。

在一个具体的应用场景中，特征融合网络120是目标检测框架中承上启下的关键环节，起到对主干网络110提取到的初始特征进行特征融合的目的，该结构有利于下一步检测头的具体任务的特征学习。请参阅图6，图6是特征融合网络一实施方式的结构示意图。

特征融合网络120包括相互级联的第一3*3卷积层121、第一激活函数层122、第二3*3卷积层123、第二激活函数层124、第三3*3卷积层125、第三激活函数层126、第四3*3卷积层127以及第四激活函数层128。

其中，本实施方式的第一激活函数层122、第二激活函数层124、第三激活函数层126以及第四激活函数层128的激活函数可以为线性整流函数(RELU，Linearrectification function)。

上述结构的特征融合网络120引入参数重参化技术，可以进一步增加特征融合的效果，并同时平衡推理速度。且结构简单，能够进一步提高目标检测模型100的轻量化。

步骤S24：通过目标检测模型的主检测头对图像特征进行检测，得到目标对象的检测框。

主检测头130的数量可以为一个或多个，本实施例以3个为例进行示意。

主检测头130可以为耦合头(Couple Head)图像特征直接送入几个全连接层或卷积层中，以生成目标对象的检测框，提高检测效率。

本步骤可以使用anchor-based检测头进行检测，输出检测框。

本实施例的目标检测模型100是通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练得到的。即目标检测模型100在训练时，基于主检测头以及辅助检测头分别进行训练，以通过辅助检测头辅助主检测头进行训练，进而提高目标检测模型100的训练效果，提高目标检测模型100的检测精度以及检测性能。其中，主检测头和辅助检测头有着不同的模型设计。在训练时主检测头和辅助检测头使用共同的特征处理网络。

通过特征融合网络120对待检测图像进行特征处理得到待检测图像的图像特征后，只通过目标检测模型100的主检测头对图像特征进行检测，得到目标对象的检测框，从而使目标检测模型100轻量化，进而提高目标检测模型100的检测效率，且在训练过程中利用主检测头以及辅助检测头同时进行训练的目标检测模型，能够保障目标检测的精度。

上述方法，通过在训练时，同时通过主检测头以及辅助检测头进行检测，并基于检测结果对目标检测模型进行训练，从而提高目标检测模型的训练效果，提高目标检测模型的检测精度，而在目标检测模型的推理过程中，只使用主检测头进行检测，从而使目标检测模型轻量化，进而提高目标检测模型的检测效率，进而兼顾目标检测模型的高精度检测以及模型轻量化。

请参阅图7，图7是图2实施例的目标检测模型一实施方式的训练流程示意图。

步骤S31：获取到目标对象的训练图像。

训练图像为包括目标对象的多张图像，每张图像上都标注有目标对象的标准框，以标准框为目标进行目标检测模型的训练。

步骤S32：通过训练中的目标检测模型的特征处理网络对训练图像进行特征处理，以得到训练图像的训练图像特征。

本实施例的特征处理网络的也包括相互级联的主干网络以及特征融合网络。除训练中的特征融合网络的结构外，主干网络的结构、主干网络以及特征融合网络的特征处理方法均与前述实施例相同，不再赘述。

请参阅图8，图8是训练中的特征融合网络一实施方式的结构示意图。

本实施方式的特征融合网络220包括相互级联的第一3*3卷积层221、第一激活函数层222、第二3*3卷积层223、第二激活函数层224、第三3*3卷积层225、第三激活函数层226、第四3*3卷积层227、第四激活函数层228，还包括第一1*1卷积层201、第二1*1卷积层202、第三1*1卷积层203以及第四1*1卷积层204，其中，第一1*1卷积层201与第一激活函数层222连接，第二1*1卷积层202分别与第一激活函数层222以及第二激活函数层224连接，第三1*1卷积层203分别与第二激活函数层224以及连接第三激活函数层226，第四1*1卷积层204分别与第三激活函数层226以及第四激活函数层228连接。

本实施方式的各激活函数层为线性整流函数(RELU，Linear rectificationfunction)。

本实施例的特征融合网络在训练时，使用多分支模型来提高训练精度，而推理时转化成单路模型，以在保证模型精度的情况下，简化模型结构，进一步实现轻量化，提高检测效率。

步骤S33：通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于主检测头的检测结果以及辅助检测头的检测结果对训练中的目标检测模型进行训练，直至得到目标检测模型。

请参阅图9，图9是训练中的目标检测模型一实施方式的结构示意图。

训练中的目标检测模型300的特征提取网络以及主检测头330的结构与前述实施例的目标检测模型100的特征提取网络110以及主检测头130相同，而特征融合网络320与图8所示结构相同。

其中，本实施例的训练中的目标检测模型300还包括多个辅助检测头340，辅助检测头340的数量可以与主检测头330相同，以一一辅助对应的主检测头330进行训练。

在检测时，主检测头330与对应的辅助检测头340可以分别基于相同的训练图像特征进行检测，以保证训练针对性。

先基于训练图像确定训练图像特征的多个不同尺寸的锚框。可以通过人工预先进行固定设置，以先确定多个密集的不同尺寸锚框，使得后续边框回归区域更贴近真实值，检测框回归位置更加精准，进而保证检测框稳定性。锚框的设置可以在检测头检测前或训练前进行执行。

检测时，通过计算各锚框的分类定位任务对齐度，确定主检测头的第一正样本锚框以及辅助检测头的第二正样本锚框。

目标检测通常被表示为通过联合优化目标分类和定位的多任务学习问题。由于分类和定位的学习机制不同，两个任务学习到的特征的空间分布可能不同，当使用两个单独的分支进行预测时，会导致一定程度的错位。因此，通过上述分类定位任务对齐度的计算来确定主检测头以及辅助检测头对应的正样本锚框，能够增强分类定位这两个任务之间的交互性。这使得这两项任务能够更协作地工作，进而更准确地调整它们的预测，缓解由于分类和回归的任务不一致性而带来的问题。

在一个具体的应用场景中，可以对训练图像特征的FPN特征(特征金字塔)进行预测，再使用预测来计算每个锚框的分类定位任务对齐度，选择对齐程度最高的锚框或超过一定阈值的锚框，通过概率图获得更高的分类分数，并通过学习的“偏移量”使模型能够获得更准确的边界框预测。

在一个具体的应用场景中，可以采用任务对齐学习(TAL，Task AlignmentLearning)计算各锚框的分类定位任务对齐度，以确定主检测头以及辅助检测头对应的正样本锚框，以及利用任务对齐学习(TAL)来明确两个任务的最优锚框之间的距离。任务对齐学习(TAL)是通过设计一个样本分配方案和一个与任务相关的损失来执行的。样本分配通过计算每个锚框的任务对齐度来收集训练样本(正样本或负样本)，而任务对齐损失逐渐统一最佳锚点，以便在训练期间预测分类和定位。任务对齐学习(TAL)结合分类得分和IoU匹配得分，缓解由于分类和回归的任务不一致性而带来的问题。

最后，通过训练中的目标检测模型的主检测头对第一正样本锚框进行检测，以及通过训练中的目标检测模型的辅助检测头对第二正样本锚框进行检测。其中，主检测头为耦合头，辅助检测头为解耦头，上述选择可以减小模型大小，进一步实现模型轻量化。由于主检测头和辅助检测头分类和回归分支损失存在差异，解耦辅助头可以更好的帮助主检测头扩充正样本，得到更多更合适的正样本进行回归。

通过耦合头对第一正样本锚框进行检测，得到主检测头的检测框。

在一个具体的应用场景中，以前述实施例中特征融合后的第一特征H3、特征融合后的第二特征H4以及特征融合后的第三特征H5为例进行主检测头检测说明：对于三个尺度的主检测头，分别将H3、H4、H5作为输入，先经过卷积核为1*1，步长为1的卷积操作。然后进行卷积核为3*3，步长为1的卷积操作，各尺度输出的检测框尺寸分别为40*40、20*20、10*10，各尺度上的输出维度分别为3*(类别数+4+1)。类别数基于目标对象进行确定。在其他应用场景中，还可以采用其他卷积处理，具体基于实际需求进行设置。

通过解耦头基于归一化指数函数，确定第二正样本锚框应该在对应的标准框的预设区域内的概率，对概率进行线性积分回归，得到辅助检测头的检测框。预设区域可以包括标准框的左右两个点。

在一个具体的应用场景中，可以通过softmax归一化指数函数或其他概率函数确定第二正样本锚框应该在对应的标准框的预设区域内的概率。

本实施例通过先基于训练图像确定训练图像特征的多个不同尺寸的锚框，并在正样本选择后，利用归一化指数函数确定第二正样本锚框应该在对应的标准框的预设区域内的概率，对概率进行线性积分回归，得到辅助检测头的检测框，从而提高辅助检测头预测检测框的稳定性以及可靠性。其中，每个尺度中预设的睁眼跟锚框边缘需处于网格Grid中间。

在一个具体的应用场景中，以前述实施例中特征融合后的第一特征H3、特征融合后的第二特征H4以及特征融合后的第三特征H5为例进行辅助检测头检测说明：对于三个尺度的辅助检测头，分别将H3、H4、H5作为输入，先经过卷积核为1*1，步长为1的卷积操作。然后分为分类分支和回归分支两个分支，各分支上分别进行卷积核为3*3，步长为1的卷积操作，各尺度输出的检测框尺寸分别为40*40、20*20、10*10，分类分支通道数为类别数，回归分支的两个检测头输出维度分别为4*(reg_max+1)+1，其中reg_max为辅助检测头使用框回归建模预设参数。由于对锚框内外都使用上述边框概率回归方法，reg_max应设置为偶数。

解耦头的辅助检测头可以更好的帮助主检测头扩充正样本，得到更多更合适的正样本进行回归。

得到主检测头的检测结果以及辅助检测头的检测结果后，基于主检测头的检测框与训练图像的标准框之间的差异确定主检测头的第一损失；基于辅助检测头的检测框与训练图像的标准框之间的差异确定主检测头的第二损失；将第一损失与第二损失进行加权求和，得到训练中的目标检测模型的训练损失；基于训练损失对训练中的目标检测模型进行训练，直至得到目标检测模型。

在一个具体的应用场景中，损失函数如(1)所示：

loss＝αloss_a+βloss_b (1)

其中，loss_a包括主检测头的分类损失、回归损失和置信度损失，loss_b包括辅助检测头的分类损失、回归损失和置信度损失，α和β分别表示损失权重系数，且α大于β。其中，辅助检测头的回归损失包括DFL(Distribution Focal Loss)损失和GIOU(GeneralizedIntersection over Union)损失。

其中，辅助检测头使用Distribution Focal Loss(DFL)作为位置回归损失。DFL可以快速聚焦到标签框附近，使用交叉熵函数，优化标准框y附近左右两个位置的概率。DFL表示如(2)所示：

DFL(S_i,S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i-1)log(S_i+1) (2)

其中，y表示标准框，y_i-1和y_i+1表示标准框左右位置。S_i+1和S_i分别表示标准框左右位置上的概率。

在一个具体的应用场景中，在推理阶段，对锚框边缘做积分，锚框为原点，落在锚框内的回归概率由原点向外依次乘负值作积分，落在锚框外的回归概率由原点向外依次乘正值作积分，所得积分作为锚框与标签框的偏移量。积分公式如(3)所示：

其中，表示的是锚框到预测框的距离，X₁-X_{reg_max+1}表示锚框到预测框之间的离散距离权重，S₁-S_{reg_max+1}表示对应离散距离权重上的概率。

通过上述方法通过在训练过程中增加辅助检测头来提高训练精度，保证了模型检测框回归的稳定性。在推理阶段，只使用主检测头进行回归，避免了框回归建模检测头参数量大造成计算资源的占用，保证了算法在计算资源受限平台仍能有较好表现，且为了进一步减轻检测头的参数，使用解耦检测头辅助训练，并且通过改进样本分配方式结合不同方式检测头的特点，为目标检测模型选择更加合适的正样本。推理时，分类分支和回归分支使用同一个检测头进行输出，在保证检测性能的同时，减小了模型大小。本实施例中的方法在移动端部署更加简便、灵活。且本实施例改良主干网络的结构，减少其参数量，并在特征融合的推理过程使用单路模型减少目标检测模型的计算量，可扩展性好、调试便捷、轻量化、灵活性高。

基于同样的发明构思，本发明还提出了一种电子设备，该电子设备能够被执行以实现上述任一实施例的目标检测方法，请参阅图10，图10是本发明提供的电子设备一实施例的结构示意图，电子设备包括处理器101以及存储器102。

处理器101用于执行存储器102中存储的程序指令，以实现上述任一目标检测方法的步骤。在一个具体的实施场景中，电子设备可以包括但不限于：微型计算机、服务器，此外，电子设备还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器101用于控制其自身以及存储器102以实现上述任一实施例的步骤。处理器101还可以称为处理器(Central Processing Unit，中央处理单元)。处理器101可能是一种集成电路芯片，具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器101可以由集成电路芯片共同实现。

上述方案，能够兼顾目标检测模型的高精度检测以及模型轻量化。

基于同样的发明构思，本发明还提出了一种计算机可读存储介质，请参阅图11，图11是本发明提供的计算机可读存储介质一实施例的结构示意图。计算机可读存储介质110中存储有至少一个程序数据111，程序数据111用于实现上述任一方法。在一个实施例中，计算机可读存储介质110包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取到目标对象的待检测图像；

通过目标检测模型的特征处理网络对所述待检测图像进行特征处理，以得到所述待检测图像的图像特征；

通过所述目标检测模型的主检测头对所述图像特征进行检测，得到所述目标对象的检测框；

其中，所述目标检测模型是通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于所述主检测头的检测结果以及所述辅助检测头的检测结果对所述训练中的目标检测模型进行训练得到的。

2.根据权利要求1所述的目标检测方法，其特征在于，所述特征处理网络包括相互级联的主干网络以及特征融合网络；

所述通过目标检测模型的特征处理网络对所述待检测图像进行特征处理，以得到所述待检测图像的图像特征的步骤包括：

通过所述目标检测模型的主干网络对所述待检测图像进行特征提取，得到所述待检测图像的初始特征；

通过所述目标检测模型的特征融合网络对所述初始特征进行特征融合，得到所述待检测图像的图像特征。

3.根据权利要求2所述的目标检测方法，其特征在于，所述主干网络包括：相互级联的先处理模块、第一子网络、第二子网络以及第三子网络；

所述通过所述目标检测模型的主干网络对所述待检测图像进行特征提取，得到所述待检测图像的初始特征的步骤包括：

通过所述先处理模块对所述待检测图像进行下采样以及最大池化处理，得到所述待检测图像的预处理特征；

通过所述第一子网络对所述预处理特征进行特征提取，得到第一特征；

通过所述第二子网络对所述第一特征进行特征提取，得到第二特征；

通过所述第三子网络对所述第二特征进行特征提取，得到第三特征；

将所述第一特征、所述第二特征以及所述第三特征确定为所述初始特征。

4.根据权利要求3所述的目标检测方法，其特征在于，所述第一子网络、所述第二子网络以及所述第三子网络的网络结构相同，所述网络结构包括相互级联的第一卷积层、全连接层、第四卷积层以及最大池化层，所述网络结构还包括第二卷积层以及第三卷积层，其中，所述第二卷积层与所述第一卷积层并列，并与所述全连接层连接，所述第三卷积层分别与所述第二卷积层以及所述全连接层连接。

5.根据权利要求3所述的目标检测方法，其特征在于，所述通过所述目标检测模型的特征融合网络对所述初始特征进行特征融合，得到所述待检测图像的图像特征的步骤包括：

基于所述第一特征、所述第二特征以及所述第三特征进行多次通道级联，得到多个级联后的特征；

通过所述目标检测模型的特征融合网络，分别对多个级联后的特征第一特征、第二特征以及第三特征进行特征融合，得到特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征；

将特征融合后的第一特征、特征融合后的第二特征以及特征融合后的第三特征确定为所述待检测图像的图像特征。

6.根据权利要求1-5任一项所述的目标检测方法，其特征在于，所述获取到目标对象的待检测图像，之前包括：

获取到目标对象的训练图像，所述训练图像上标注有标准框；

通过训练中的目标检测模型的特征处理网络对所述训练图像进行特征处理，以得到所述训练图像的训练图像特征；

通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测，并分别基于所述主检测头的检测结果以及所述辅助检测头的检测结果对所述训练中的目标检测模型进行训练，直至得到所述目标检测模型。

7.根据权利要求6所述的目标检测方法，其特征在于，所述通过训练中的目标检测模型的主检测头以及辅助检测头分别对训练图像的训练图像特征进行检测的步骤包括：

基于所述训练图像确定所述训练图像特征的多个不同尺寸的锚框；

通过计算各所述锚框的分类定位任务对齐度，确定所述主检测头的第一正样本锚框以及所述辅助检测头的第二正样本锚框；

通过训练中的目标检测模型的主检测头对所述第一正样本锚框进行检测，以及通过训练中的目标检测模型的辅助检测头对所述第二正样本锚框进行检测。

8.根据权利要求7所述的目标检测方法，其特征在于，所述主检测头为耦合头，所述辅助检测头为解耦头；

所述通过训练中的目标检测模型的主检测头对所述第一正样本锚框进行检测，以及通过训练中的目标检测模型的辅助检测头对所述第二正样本锚框进行检测的步骤包括：

通过所述耦合头对所述第一正样本锚框进行检测，得到所述主检测头的检测框；

通过所述解耦头基于归一化指数函数，确定所述第二正样本锚框在对应的所述标准框的预设区域内的概率，对所述概率进行线性积分回归，得到所述辅助检测头的检测框。

9.根据权利要求8所述的目标检测方法，其特征在于，所述分别基于所述主检测头的检测结果以及所述辅助检测头的检测结果对所述训练中的目标检测模型进行训练，直至得到所述目标检测模型的步骤包括：

基于所述主检测头的检测框与所述训练图像的标准框之间的差异确定所述主检测头的第一损失；

基于所述辅助检测头的检测框与所述训练图像的标准框之间的差异确定所述主检测头的第二损失；

将所述第一损失与所述第二损失进行加权求和，得到训练中的目标检测模型的训练损失；

基于所述训练损失对所述训练中的目标检测模型进行训练，直至得到所述目标检测模型。

10.一种电子设备，其特征在于，所述电子设备包括：相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至9任一项所述的目标检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序数据，所述程序数据能够被处理器执行以实现如权利要求1至9任一项所述的目标检测方法。