CN115713683A

CN115713683A - 一种目标检测方法、装置、设备及存储介质

Info

Publication number: CN115713683A
Application number: CN202211460829.0A
Authority: CN
Inventors: 张腾飞; 李林超; 王威; 周凯
Original assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Current assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-02-24

Abstract

本发明公开了一种目标检测方法、装置、设备及存储介质，属于计算机视觉技术领域。该方法包括：采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征；根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征；根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征；根据通道融合特征和空间融合特征，确定输出层对应的最终特征；采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

Description

一种目标检测方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、设备及存储介质。

背景技术

目标检测用于对图片中对感兴趣的目标进行定位和识别。随着近些年硬件计算能力的提高、深度学习的发展和高质量数据集的公开，使得目标检测在近些年有了较大发展。目标检测函数大致可以分为一阶段目标检测和二阶段目标检测两类，一阶段目标检测以retinanet和YOLO(You Only Look Once)系列为代表，二阶段目标检测以Faster R-CNN(Faster Region-CNN，快速区域卷积神经网络)和Cascade R-CNN(Cascade Region-CNN，级联的区域卷积神经网络)为代表。

大多数目标检测网络都可以分为骨干网络，瓶颈层网络和预测头几个主要部分。其中较为重要的部分就是瓶颈层网络部分，经过了骨干网络的特征提取之后，一般就会得到不同层的不同分辨率大小的尺寸的特征。特征图不同层次特征的表达能力不同，浅层特征主要反映明暗和边缘等细节，深层特征则反映更全面的整体结构。瓶颈层网络部分大部分检测都是采用特征金字塔网络进行多层次特征的融合。但是，融合过程中仅仅对最底层的特征进行上采样和单一卷积，并与该底层特征进行简单融合，得到高分辨率的特征，使得针对高分辨率特征学习的提升有限，从而影响目标检测的检测精度。因此，亟需改进。

发明内容

本发明提供了一种目标检测方法、装置、设备及存储介质，以提高目标检测的检测精度。

根据本发明的一方面，提供了一种目标检测方法，包括：

采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征；

根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征；

根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征；

根据通道融合特征和空间融合特征，确定输出层对应的最终特征；

采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

根据本发明的另一方面，提供了一种目标检测装置，包括：

初始特征确定模块，用于采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征；

归一化特征确定模块，用于根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征；

融合特征确定模块，用于根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征；

最终特征确定模块，用于根据通道融合特征和空间融合特征，确定输出层对应的最终特征；

预测结果确定模块，用于采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的目标检测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的目标检测方法。

本发明实施例的技术方案，通过采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征；根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征；根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征；根据通道融合特征和空间融合特征，确定输出层对应的最终特征；采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。上述技术方案，引入通道融合特征，可以更好地表征不同通道之间的特性，引入空间融合特征，可以更好地表征不同输出层次之间的相关性，使得基于通道融合特征和空间融合特征得到的最终特征拥有更好的表达能力，从而使得根据最终特征得到的预测结果更准确，提高了目标检测的检测精度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是根据本发明实施例一提供的一种目标检测方法的流程图；

图1B是根据本发明实施例一提供的一种目标检测过程的示意图；

图2A是根据本发明实施例二提供的一种目标检测方法的流程图；

图2B是根据本发明实施例二提供的一种通道融合特征的确定过程示意图；

图3A是根据本发明实施例三提供的一种目标检测方法的流程图；

图3B是根据本发明实施例三提供的一种空间融合特征的确定过程示意图；

图4是根据本发明实施例四提供的一种目标检测装置的结构示意图；

图5是实现本发明实施例的目标检测方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“目标”、“初始”和“最终”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，还需要说明的是，本发明的技术方案中，所涉及的待检测图像等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

实施例一

图1A为本发明实施例一提供的一种目标检测方法的流程图，图1B为本发明实施例一提供的一种目标检测过程的示意图。本实施例可适用于对图像进行目标检测的情况，该方法可以由目标检测装置来执行，该装置可以采用硬件和/或软件的形式实现，可配置于电子设备中，该电子设备可以是嵌入式设备，比如各种在线的开源数据集平台。

如图1A和图1B所示，该方法包括：

S101、采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征。

其中，目标检测网络是指预先训练好的用于进行目标检测的神经网络；目标检测网络包括特征提取网络和预测网络；其中，特征提取网络用于对待检测图像进行特征提取，可选的，特征提取网络包括至少一个网络层；例如可以是骨干网络和/或瓶颈层网络。预测网络用于对待检测图像进行预测。

其中，待检测图像可以是指需要进行目标检测的图像。初始特征可以是指特征提取网络对待检测图像进行提取特征后，每个输出层输出的特征，可以采用向量或矩阵的形式表示。需要说明的是，不同输出层输出的初始特征的尺寸大小可能相同，也可能不同。

具体的，可以将待检测图像输入目标检测网络的特征提取网络，经过网络学习，得到至少一个输出层输出的初始特征。一个具体的例子，如图1B所示，特征提取网络中的瓶颈层输出4个输出层，将待检测图像输入特征提取网络后，分别可以得到4个输出层输出的初始特征。

S102、根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征。

其中，归一化特征可以是指对初始特征进行特征尺度归一化处理后，得到的特征，可以采用向量或矩阵的形式表示；可选的，对于每一输出层对应的至少一个输出层的归一化特征的尺寸大小和该输出层输出的初始特征的尺寸大小一样。

一个具体的例子，如图1B所示，输出层有4层，以输出层0为例，假设输出层0输出的初始特征的特征尺寸为(H,W)，其中，H表示特征的高度，W表示特征的宽度。分别对输出层0关联的输出层1、输出层2和输出层3的初始特征进行特征尺寸归一化处理，即分别将输出层1、输出层2和输出层3的特征尺寸调整为(H,W)。具体的，将输出层1、输出层2和输出层3中特征尺寸大于(H,W)的输出层，采用自适应池化操作将这些输出层的特征尺寸缩小到(H,W)；将输出层1、输出层2和输出层3中特征尺寸小于等于(H,W)的输出层，采用上采样操作将这些输出层的特征尺寸扩大到(H,W)，从而得到输出层0对应的4个归一化特征，记为R0。同理，可以得到输出层1对应的4个归一化特征，记为R1；输出层2对应的4个归一化特征，记为R2；输出层3对应的4个归一化特征，记为R3。其中，自适应池化操作用将输入的特征尺寸，按照指定的输出特征尺寸输出。上采样操作用于将输入的小的特征尺寸转化为满足条件的特征尺寸。

可以理解的是，根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，从而得到输出层对应的至少一个输出层的归一化特征，增加了不同输出层之间语义的丰富程度。

S103、根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征。

其中，通道融合特征可以是指对不同通道特征进行融合得到的特征，可以采用向量或矩阵的形式表示。空间融合特征可以是指在同一空间或不同空间中对不同输出层的特征进行融合得到的特征，可以采用向量或矩阵的形式表示。通道融合特征可以通过二阶特征注意力模块来获取；空间融合特征可以通过多尺寸空间融合模块来获取。

具体的，根据输出层的初始特征，以及输出层对应的至少一个输出层的归一化特征，基于预设的计算规则，确定输出层对应的通道融合特征和空间融合特征。

一个具体的例子，如图1B所示，以输出层0为例，根据输出层0的初始特征，以及输出层0对应的4个归一化特征(记为R0)，通过SOFA(second order feature attentionmodule)确定输出层0对应的通道融合特征，通过MSSF(Multi-scale spatial fusion)确定输出层0对应的空间融合特征。同理，可以得到图1B中输出层1、输出层2和输出层3对应的通道融合特征和空间融合特征。

S104、根据通道融合特征和空间融合特征，确定输出层对应的最终特征。

其中，最终特征可以是指将输出层对应的通道融合特征和空间融合特征进行特定处理后，得到的特征，可以采用向量或矩阵的形式表示。

一个具体的例子，如图1B所示，可以将各输出层对应的通道融合特征和空间融合特征进行相加，从而得到各输出层对应的最终特征。

S105、采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

其中，预测网络用于根据输入的各输出层对应的最终特征对待检测图像进行预测。预测网络可以是一阶段的预测网络，也可以是二阶段的预测网络。

具体的，将各输出层对应的最终特征输入到目标检测网络的预测网络，经过网络学习，得到待检测图像的预测结果。如果是一阶段的预测网络，则直接将输出层对应的最终特征输入预测头，从而得到待检测图像的预测结果；如果是二阶段的预测网络，则需要将输出层对应的最终特征，输入区域候选网络通过卷积神经网络提取的目标候选框中；然后将目标候选框中的最终特征输入预测头，从而得到待检测图像的预测结果。

一个具体的例子，如图1B所示，将输出层0、输出层1、输出层2和输出层3对应的最终特征输入目标检测网络的预测网络中，经过网络学习，得到待检测图像的预测结果。

实施例二

图2A为本发明实施例二提供的一种目标检测方法的流程图，本实施例在上述实施例的基础上，对“根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征”进一步优化，提供一种可选实施方案。需要说明的是，在本发明实施例中未详述部分，可参照前述实施例的相关表述。如图2A和2B所示，该方法包括：

S201、采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征。

S202、根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征。

S203、根据至少一个输出层的归一化特征，确定输出层的至少一个通道的通道分值权重。

其中，通道分值权重用于表示输出层各通道特征对输出层通道融合特征的重要程度。

具体的，基于预设的规则，根据至少一个输出层的归一化特征，确定输出层的至少一个通道的通道分值权重。

示例性的，可以对至少一个输出层的归一化特征进行相加，得到输出层对应的加和特征；计算加和特征的协方差，得到输出层对应的层次相关特征；对层次相关特征进行正交分解，得到层次相关特征的对应的至少一个通道的通道特征；对通道特征进行至少两次卷积操作，得到通道对应的通道分值权重。

其中，加和特征可以是指对各输出层的归一化特征进行相加后得到的特征，可以采用向量或矩阵的形式表示。协方差用于衡量多个输出层的归一化特征的总体误差，以得到各个输出层特征之间的关联性。层次相关特征用于表示不同层次网络之间相关的特征，可以通过对输出层对应的加和特征进行协方差计算得到，可以采用向量或矩阵的形式表示。

具体的，可以对至少一个输出层的归一化特征进行加和，得到输出层对应的加和特征，之后计算加和特征的协方差，得到输出层对应的层次相关特征，示例性的，加和特征为H×W×C的特征，其中C表示通道数，H表示特征的高度，W表示特征的宽度；将加和特征重新记为C×s，s＝H×W，可以通过如下公式确定层次相关特征：

其中，Σ表示层次相关特征，I表示s×s的单位矩阵，1表示全1的矩阵，X^T表示X的转置矩阵。

需要说明的是，采用特征空间标准协方差表征不同通道之间相关性，相比于现有使用global average pool这样的操作，能更好地表征不同通道特性以及不同通道之间的关系，更好地促进通道层次的融合。

在得到层次相关特征后，对层次相关特征进行正交分解，得到层次相关特征的对应的至少一个通道的通道特征，示例性的，可以通过如下公式确定通道特征：

Y＝∑^a＝U∧^aU^T，

其中，Y＝[y₁,…,y_C]表示各输出层对应的通道特征，Σ表示层次相关特征，a表示正实数幂次方，此处a选取

U表示正交矩阵，U^T表示U的转置矩阵，∧表示非递增顺序特征值的对角矩阵(λ₁,…,λ_C)，C表示通道数。

之后，对各输出层的通道特征进行平均池化，得到各输出层的平均通道特征。示例性的，可以通过如下公式确定各输出层的平均通道特征：

其中，Z_C表示各输出层的平均通道特征，C表示通道数，y_i表示第i(i＝0，1，…，C-1)个通道的特征。

在得到Z_C后，对Z_C进行至少两次卷积操作，得到通道对应的通道分值权重。示例性的，可以通过如下公式确定通道对应的通道分值权重：

w＝f(W_aδ(W_bZ_C))

其中，w表示通道分值权重，f()用于计算各通道的通道分值权重，W_a表示卷积操作a(记为conv_a)的卷积权重，W_b表示卷积操作b(记为conv_b)的卷积权重，δ()表示relu和normalise函数，relu和normalise为激活函数。

一个具体的例子，如图2B所示，以输出层0为例，将输出层0对应的4个输出层的归一化特征进行相加，得到输出层0对应的加和特征；计算输出层0对应的加和特征的协方差，得到输出层0对应的层次相关特征；对层次相关特征进行正交分解，得到层次相关特征的对应的至少一个通道的通道特征；对通道特征进行卷积权重为W_a的conv_a，以提取通道特征的重要参数；之后，经过relu和normalise操作，将通道特征从线性转为非线性，以维持模型训练稳定；之后，再进行卷积权重为W_b的conv_b，得到输出层0各通道对应的通道分值权重。

上述示例，提供了一种计算通道分值权重的方法，通过计算加和特征的协方差来获取各个输出层特征之间的关联性；同时，通过对层次相关特征进行正交分解，提取各个输出层中各通道的重要特征，更好地表征不同通道特性以及不同通道之间的关系，更好地促进通道层次的融合。

S204、根据输出层的初始特征、以及输出层的至少一个通道的通道分值权重，确定输出层对应的通道融合特征。

示例性的，可以分别将输出层的初始特征与对应的至少一个通道的通道分值权重相乘，得到输出层对应的通道融合特征。

具体的，将各输出层的初始特征与对应的至少一个通道的通道分值权重相乘，得到各个输出层对应的通道融合特征。

一个具体的例子，如图2B所示，以输出层0为例，将输出层0的初始特征与对应的至少一个通道的通道分值权重相乘，该操作记为x，得到输出层0对应的通道融合特征。

上述示例，提供了一种计算通道融合特征的方法，可以准确得到各通道的重要程度，可以提取到各通道的重要特征，从而可以学习到更加丰富的通道特征，从而为后续的目标检测奠定基础。

S205、根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的空间融合特征。

具体的，根据输出层的初始特征，以及输出层对应的至少一个输出层的归一化特征，基于预设的计算规则，生成输出层对应的空间融合特征。

S206、根据通道融合特征和空间融合特征，确定输出层对应的最终特征。

S207、采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

本发明实施例的技术方案，根据至少一个输出层的归一化特征，确定输出层的至少一个通道的通道分值权重；根据输出层的初始特征、以及输出层的至少一个通道的通道分值权重，确定所述输出层对应的通道融合特征。上述技术方案，提供了一种通道融合特征确定的方法，将所有的输出层特征进行相加，得到不同感受野的特征图，该特征图比现有的单层特征图具有更多的语义信息和表征信息，通过计算通道分值权重来明确各通道特征的重要性，根据输出层的初始特征和通道分值权重，确定输出层对应的通道融合特征，使得获得的通道融合特征更加精确，进而使得根据通道融合特征和空间融合特征确定的输出层对应的最终特征更加精确，从而提高了目标检测的检测精度；该方法具有二阶可导性，可以减少损失爆炸现象。

实施例三

图3A为本发明实施例三提供的一种目标检测方法的流程图，本实施例在上述实施例的基础上，对“根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的空间融合特征”进一步优化，提供一种可选实施方案。需要说明的是，在本发明实施例中未详述部分，可参照前述实施例的相关表述。如图3A和图3B所示，该方法包括：

S301、采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征。

S302、根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征。

S303、根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征。

S304、根据至少一个输出层的归一化特征，确定输出层对应的空间层次特征。

其中，空间层次特征用于表示同一输出层不同空间之间相关的特征，可以利用各输出层的归一化特征得到，可以采用向量或矩阵的形式表示。

具体的，可以基于三维卷积操作，根据至少一个输出层的归一化特征，确定输出层对应的空间层次特征。

可选的，分别对至少一个输出层的归一化特征进行扩维，得到至少一个输出层的经扩维的归一化特征；对至少一个输出层的经扩维的归一化特征进行合并，得到输出层对应的合并特征；对合并特征进行三维卷积，得到输出层对应的空间层次特征。

具体的，对于每一输出层，分别对该输出层对应的各输出层的归一化特征进行扩维，其中，各输出层的归一化特征可分别为H×W×C的特征。具体的，对输出层的归一化特征增加一个维度(记为level axis)，从而得到各输出层的经扩维的归一化特征，可记为1×H×W×C的特征；将各输出层的经扩维的归一化特征沿着扩充的维度(记为level axis)进行合并，得到该输出层对应的合并特征，可记为L×H×W×C的特征，其中，L表示合并特征的维度，示例性的，若输出层的数量为4，则L为4；进而对该输出层对应的合并特征进行至少两次三维卷积操作，得到经处理的合并特征，之后利用reshape函数对经处理的合并特征进行降维处理，从而得到该输出层对应的空间层次特征，可记为H×W×C的特征。

一个具体的例子，如图3B所示，以输出层0为例，将输出层0对应的4个输出层的归一化特征进行扩维处理(记为unsqueeze)，得到输出层0对应的4个输出层的经扩维的归一化特征，分别记为uR0、uR1、uR2和uR3；对输出层0对应的4个输出层的经扩维的归一化特征进行合并，得到输出层0对应的合并特征；将输出层0对应的合并特征沿着level轴进行三维卷积操作(记为3Dconv block)，之后在进行三维标准化的卷积操作，利用AvgPool3d()函数沿着level轴对合并特征进行全局池化，得到经处理的合并特征，之后再利用reshape函数对经处理的合并特征进行降维处理，从而得到输出层0对应的空间层次特征。

上述示例，提供了各输出层对应的空间层次特征的获取方法，通过扩维和三维卷积操作的方法，增强了不同输出层之间特征的相关性，且兼顾了卷积沿着维度变化的融合。

S305、根据输出层的初始特征、以及输出层对应的空间层次特征，确定输出层对应的空间融合特征。

具体的，可以对输出层的初始特征与输出层对应的空间层次特征进行特定的操作，从而得到输出层对应的空间融合特征。

可选的，对输出层的初始特征和输出层对应的空间层次特征进行合并；对合并的空间层次特征进行卷积操作，得到空间融合特征。

具体的，将输出层的初始特征与输出层对应的空间层次特征进行合并，得到H×W×2C的特征，即合并的空间层次特征；对合并的空间层次特征进行卷积核为1×1的卷积操作，得到输出层对应的空间融合特征。

一个具体的例子，如图3B所示，以输出层0为例，将输出层0的初始特征与输出层0对应的空间层次特征进行合并，得到合并的空间层次特征；对合并的空间层次特征进行卷积核为1×1的卷积操作，得到输出层0对应的空间融合特征。

上述示例，提供了一种计算空间融合特征的方法，采用三维卷积操作，对不同尺寸输出层和不同空间的特征进行立体卷积操作，增加了对于同一输出层不同空间和不同输出层同一空间的交互和关系的融合，从而为后续的目标检测奠定基础。

S306、根据通道融合特征和空间融合特征，确定输出层对应的最终特征。

S307、采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

本发明实施例的技术方案，根据至少一个输出层的归一化特征，确定输出层对应的空间层次特征；根据输出层的初始特征、以及输出层对应的空间层次特征，确定输出层对应的空间融合特征。上述技术方案，提供了一种空间融合特征获取的方法，通过扩维和三维卷积操作获取空间融合特征，使得空间融合特征更能表征不同输出层之间特征的相关性，使得根据通道融合特征和空间融合特征确定的输出层对应的最终特征更加精确，进而提高了目标检测的检测精度；将三维卷积引入到二维图像目标检测中，将4层输出层替换为原先的三维卷积的时序，使通过三维卷积得到的空间特征层不仅具有空间特征，同时具有不同输出层之间的语义信息。

实施例四

图4为本发明实施例四提供的一种目标检测装置的结构示意图。本实施例可适用于对图像进行目标检测的情况，该装置可以采用硬件和/或软件的形式实现，可配置于电子设备中，该电子设备可以是嵌入式设备，比如各种在线的开源数据集平台。如图4所示，该装置包括：

初始特征确定模块401，用于采用目标检测网络的特征提取网络，对待检测图像进行特征提取，得到至少一个输出层输出的初始特征；

归一化特征确定模块402，用于根据输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到输出层对应的至少一个输出层的归一化特征；

融合特征确定模块403，用于根据输出层的初始特征、以及输出层对应的至少一个输出层的归一化特征，确定输出层对应的通道融合特征，并确定输出层对应的空间融合特征；

最终特征确定模块404，用于根据通道融合特征和空间融合特征，确定输出层对应的最终特征；

预测结果确定模块405，用于采用目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到待检测图像的预测结果。

本发明实施例的技术方案，通过初始特征获取模块，获取至少一个输出层输出的初始特征；通过归一化特征获取模块，获取输出层对应的至少一个输出层的归一化特征；通过融合特征确定模块，获取输出层对应的通道融合特征和空间融合特征；通过最终特征确定模块，获取输出层对应的最终特征；通过预测结果获取模块，获取待检测图像的预测结果。上述技术方案，引入通道融合特征，可以更好地表征不同通道之间的特性，引入空间融合特征，可以更好地表征不同输出层次之间的相关性，使得基于通道融合特征和空间融合特征得到的最终特征拥有更好的表达能力，从而使得根据最终特征得到的预测结果更准确，提高了目标检测的检测精度。

可选的，所述融合特征确定模块403，包括：

通道分值权重确定单元，用于根据至少一个输出层的归一化特征，确定输出层的至少一个通道的通道分值权重；

通道融合特征确定单元，用于根据输出层的初始特征、以及输出层的至少一个通道的通道分值权重，确定输出层对应的通道融合特征。

可选的，所述通道分值权重确定单元，具体用于：

对至少一个输出层的归一化特征进行相加，得到输出层对应的加和特征；计算加和特征的协方差，得到输出层对应的层次相关特征；对层次相关特征进行正交分解，得到层次相关特征对应的至少一个通道的通道特征；对通道特征进行至少两次卷积操作，得到通道对应的通道分值权重。

可选的，所述通道融合特征确定单元，具体用于：

分别将输出层的初始特征与对应的至少一个通道的通道分值权重相乘，得到输出层对应的通道融合特征。

可选的，所述融合特征确定模块403，包括：

空间层次特征确定单元，用于根据至少一个输出层的归一化特征，确定输出层对应的空间层次特征；

空间融合特征确定单元，用于根据输出层的初始特征、以及输出层对应的空间层次特征，确定输出层对应的空间融合特征。

可选的，所述空间层次特征确定单元，具体用于：

分别对至少一个输出层的归一化特征进行扩维，得到至少一个输出层的经扩维的归一化特征；对至少一个输出层的经扩维的归一化特征进行合并，得到输出层对应的合并特征；对合并特征进行三维卷积，得到输出层对应的空间层次特征。

可选的，所述空间融合特征确定单元，具体用于：

对输出层的初始特征和输出层对应的空间层次特征进行合并；对合并的空间层次特征进行卷积操作，得到空间融合特征。

本发明实施例所提供的目标检测装置可执行本发明任意实施例所提供的目标检测方法，具备执行各目标检测方法相应的功能模块和有益效果。

实施例五

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如目标检测方法。

在一些实施例中，目标检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的目标检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

根据所述输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到所述输出层对应的至少一个输出层的归一化特征；

根据所述输出层的初始特征、以及所述输出层对应的至少一个输出层的归一化特征，确定所述输出层对应的通道融合特征，并确定所述输出层对应的空间融合特征；

根据所述通道融合特征和所述空间融合特征，确定所述输出层对应的最终特征；

采用所述目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到所述待检测图像的预测结果。

2.根据权利要求1所述的方法，其特征在于，根据所述输出层的初始特征、以及所述输出层对应的至少一个输出层的归一化特征，确定所述输出层对应的通道融合特征，包括：

根据所述至少一个输出层的归一化特征，确定所述输出层的至少一个通道的通道分值权重；

根据所述输出层的初始特征、以及所述输出层的至少一个通道的通道分值权重，确定所述输出层对应的通道融合特征。

3.根据权利要求2所述的方法，其特征在于，所述根据至少一个输出层的归一化特征，确定所述输出层的至少一个通道的通道分值权重，包括：

对至少一个输出层的归一化特征进行相加，得到所述输出层对应的加和特征；

计算所述加和特征的协方差，得到所述输出层对应的层次相关特征；

对所述层次相关特征进行正交分解，得到所述层次相关特征对应的至少一个通道的通道特征；

对所述通道特征进行至少两次卷积操作，得到所述通道对应的通道分值权重。

4.根据权利要求2所述的方法，其特征在于，根据所述输出层的初始特征、以及所述输出层的至少一个通道的通道分值权重，确定所述输出层对应的通道融合特征，包括：

分别将所述输出层的初始特征与对应的至少一个通道的通道分值权重相乘，得到所述输出层对应的通道融合特征。

5.根据权利要求1所述的方法，其特征在于，根据所述输出层的初始特征、以及所述输出层对应的至少一个输出层的归一化特征，确定所述输出层对应的空间融合特征，包括：

根据所述至少一个输出层的归一化特征，确定所述输出层对应的空间层次特征；

根据所述输出层的初始特征、以及所述输出层对应的空间层次特征，确定所述输出层对应的空间融合特征。

6.根据权利要求5所述的方法，其特征在于，所述根据至少一个输出层的归一化特征，确定所述输出层对应的空间层次特征，包括：

分别对至少一个输出层的归一化特征进行扩维，得到至少一个输出层的经扩维的归一化特征；

对至少一个输出层的经扩维的归一化特征进行合并，得到所述输出层对应的合并特征；

对所述合并特征进行三维卷积，得到所述输出层对应的空间层次特征。

7.根据权利要求5所述的方法，其特征在于，所述根据所述输出层的初始特征、以及所述输出层对应的空间层次特征，确定所述输出层对应的空间融合特征，包括：

对所述输出层的初始特征和所述输出层对应的空间层次特征进行合并；

对合并的空间层次特征进行卷积操作，得到空间融合特征。

8.一种目标检测装置，其特征在于，包括：

归一化特征确定模块，用于根据所述输出层输出的初始特征，分别对至少一个输出层输出的初始特征进行特征尺寸归一化，得到所述输出层对应的至少一个输出层的归一化特征；

融合特征确定模块，用于根据所述输出层的初始特征、以及所述输出层对应的至少一个输出层的归一化特征，确定所述输出层对应的通道融合特征，并确定所述输出层对应的空间融合特征；

最终特征确定模块，用于根据所述通道融合特征和所述空间融合特征，确定所述输出层对应的最终特征；

预测结果确定模块，用于采用所述目标检测网络的预测网络，对至少一个输出层对应的最终特征进行预测，得到所述待检测图像的预测结果。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的目标检测方法。