CN113344003B

CN113344003B - 目标检测方法及装置、电子设备和存储介质

Info

Publication number: CN113344003B
Application number: CN202110895232.8A
Authority: CN
Inventors: 姚寒星; 娄身强; 高君宇
Original assignee: Beijing LLvision Technology Co ltd
Current assignee: Beijing LLvision Technology Co ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113344003A

Abstract

本发明提供一种目标检测方法及装置、电子设备和存储介质。目标标检测方法通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，通过构建完整的编码—解码的端到端的目标检测模型，避免了CNN固有的平移同变性、局部性等归纳偏置的影响，有利于提升目标检测的效果。

Description

目标检测方法及装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种目标检测方法及装置、电子设备和存储介质。

背景技术

自人工智能领域提出目标检测模型（Transformer）结构后，目标检测模型已在NLP（Neuro-Linguistic Programming，自然语言处理）领域取得巨大成功。在目标检测算法中，GPT（Generative Pre-training Transformer，有效预训练模型）、BERT（BidirectionalEncoder Representations from Transformers，预训练生成模型）等知名人工智能算法都依赖于单纯的目标检测模型的模块堆叠，且采用大规模数据集上预训练+微调的训练方案，在多种NLP任务上都取得了最先进的结果。

目标检测模型一般由骨干网、编码器和解码器组成，其中，骨干网一般是用于从输入图像中提取特征，现有的目标检测算法中，一般是采用CNN（卷积神经网络）或者VIT（基于自注意力网络）作为目标检测骨干网，两者用于图像特征提取时，由于ViT将输入图像分成固定尺寸的子图像块，由此确定网络输入长度，因此，ViT的计算复杂度与网络输入长度L（L =W（宽）*H（高）的平方成正比，而CNN为目标检测骨干网时，网络的计算量仅与网络输入长度

D有关，现有技术中，由于卷积神经网络的平移同变性、局部性等归纳偏置的原因，会影响最终目标检测的效果。

发明内容

本发明提供一种目标检测方法及装置、电子设备和存储介质，用以解决现有技术中CNN固有的平移同变性、局部性等归纳偏置导致检测效果较差的技术缺陷，以提升目标检测的效果。

本发明提供一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像；

将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量；

将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，根据所述解码向量生成目标预测值。

根据本发明提供的一种目标检测方法，所述编码器包括顺次连接的n个编码层，每个编码层包括互相连接的代理编码层和稀疏编码层，n大于1。

根据本发明提供的一种目标检测方法，所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量的步骤包括：

对于第1个编码层：

将所述第一缩放图像进行嵌入处理得到第一嵌入向量，将所述第一嵌入向量输入至第1个代理编码层，输出第一代理编码向量；

将所述第二缩放图像进行嵌入处理得到第二嵌入向量，将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层，输出第一稀疏编码向量；

对于第i个编码层，其中，1＜i≤n：

将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层，输出第i代理编码向量；

将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层，输出第i稀疏编码向量；

将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。

根据本发明提供的一种目标检测方法，所述解码器包括m个解码层，m大于1；

所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括：

对于第1个解码层：

将所述编码向量和参考解码向量输入至第1个解码层，输出第1解码向量；

对于第j个解码层，其中，1＜j≤m：

将所述编码向量和第j-1解码向量输入至第j个解码层，输出第j解码向量；

将第m个解码层输出的第m解码向量作为所述解码器输出的解码向量。

根据本发明提供的一种目标检测方法，所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括：

将所述第一缩放图像切分为块序列，

对每个块序列进行嵌入处理得到原始嵌入向量；

在原始嵌入向量

中插入多个代理编码单元形成混合序列向量，将所述混合序列向量作为所述第一嵌入向量。

根据本发明提供的一种目标检测方法，所述将所述第一嵌入向量输入至第1个代理编码层，输出第一代理编码向量，包括：

将混合序列向量输入至第1个代理编码层执行自注意力处理，输出第一代理编码向量，其中，第一代理编码向量包括与代理编码单元对应的部分代理编码向量。

根据本发明提供的一种目标检测方法，稀疏编码层包括交叉计算注意力层和稀疏注意力层；

所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层，输出第一稀疏编码向量的步骤包括：将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层，输出第一交叉编码向量；

将第一交叉编码向量输入至第一稀疏注意力层，输出第一稀疏注意力向量；

将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。

本发明还提供一种目标检测装置，包括：

待检测图像获取单元，用于获取待检测图像；

预处理单元，用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像；

编码单元，用于将所述第一缩放图像和第二缩放图像进行编码处理，得到输出的编码向量；

解码单元，用于将所述编码向量进行解码处理得到输出的解码向量，并根据所述解码向量生成目标预测值。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标检测方法的步骤。

本发明还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标检测方法的步骤。

本发明提供的目标检测方法，通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量。使得编码器的计算量随着缩放系数而缩小。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，根据所述解码向量生成目标预测值，从而通过构建完整的编码—解码的端到端的目标检测模型，避免了CNN固有的平移同变性、局部性等归纳偏置的影响，有利于提升目标检测的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标检测方法的流程示意图之一；

图2是本发明提供的目标检测方法的流程示意图之二；

图3是本发明提供的目标检测方法中一步骤的过程示意图；

图4是本发明提供的目标检测方法的流程示意图之三；

图5是本发明提供的目标检测方法的模型架构图；

图6是本发明提供的目标检测装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一示例性技术中，DETR（基于目标检测模型的端到端目标检测，主要组成部分是基于集合的全局损失函数）是一种端到端、泛化（anchor-free）的目标检测方法，DETR包含三个主要组件：CNN骨干网、编码器（transformer encoder）和解码器（transformerdecoder）。DETR依赖CNN骨干网从输入图像中提取特征，并将特征序列嵌入后送入编码器进行编码，然后将可训练的目标查询向量（object queries）输入编码器，预测出输入图像包含的目标。在训练时，DETR的预测与标注数据（ground truths）之间采用匈牙利算法进行二分图匹配。然而，DETR方法存在训练收敛慢的问题。而且，由于DETR依赖于CNN网络提取图像特征，无法避免受CNN固有的归纳偏置的影响。

而以ViT（自注意力架构）作为骨干网的目标检测算法，其中，ViT骨干网将输入图像分成固定尺寸的子图像块，并使用线性投影模块将子图像块序列嵌入，加上位置信息嵌入（position embeddings）后输入NLP任务中类似的标准模型（Transformer）编码器。采用纯粹的Transformer编码器替代CNN（卷积神经网络）结构，ViT避免了CNN固有的平移同变性、局部性等归纳偏置，适合在大规模数据集上预训练并在中小数据集上微调。但是，ViT的计算复杂度与网络输入长度

（

）的平方成正比。然而，在目标检测任务中

往往很大，需要检测小目标时尤为如此，将ViT作为目标检测骨干网难以工程化落地。而以 CNN为目标检测骨干网时，网络的计算量与

成正比。

下面结合图1-图4描述本发明的一种目标检测方法。

需要说明的是，目标检测算法是应用于目标检测中的一个大类，包括多种算法模型，而本申请的方法是基于示例性技术的问题的基础上所进行的发明再创造。

在一实施例，如图1所示，目标检测方法包括：

S1、获取待检测图像；

待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。

S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像；

其中，待检测图像按照第一缩放系数得到第一缩放图像，待检测图像按照第二缩放系数得到第二缩放图像，此时的第一缩放系数和第二缩放系数可以大于0，为任意正分数。此时的缩放图像是分辨率缩放，将第一缩放系数记为

，将第二缩放系数记为

，待检测图像的宽度方向上的像素为

，待检测图像的高度方向上的像素为

，待检测图像的分辨率为

，按照第一缩放系数缩放后得到的第一缩放图像的分辨率为

，按照第二缩放系数缩放后得到的第二缩放图像的分辨率为

。

S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量；

S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，根据所述解码向量生成目标预测值。

在上述实施例中，目标检测模型的骨干网由步骤S1和步骤S2所描述的步骤组成，因此，无需采用CNN卷积神经网络。本申请通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像，使得编码器所需要编码的计算量随着缩放系数而缩小，从而减小目标检测方法的计算量，解决现有目标检测方法计算量较大的问题。尤其是在待检测图像数量较多的情况下，可以大幅度提高目标预测值的生成速度。另外，由于此时的前期数据处理并未采用卷积神经网络，从而避免了示例性技术中所提到的卷积神经网络固有的归纳偏置的影响。

可选地，第一缩放系数

小于第二缩放系数

由于第一缩放系数

小于第二缩放系数

，且缩放后的待检测图像经过编码层编码，使得最后本申请的神经网络模型的骨干网部分理论计算量远远小于神经网络模型的骨干网部分为卷积神经网络的理论计算值。

可选地，所述编码器包括顺次连接的n个编码层，每个编码层包括互相连接的代理编码层和稀疏编码层，n大于1。

此时，编码层主要是执行编码运算，用于累计每个缩放图像的特征值，每次累计均可以提升一定程度上的预测准确率，当编码层的n为6或12时，可以实现预测准确率和预测时间上的折中，优化目标检测模型的性能，另外，代理编码层为增加代理权重形成新的代理编码向量（代理特征），稀疏编码层为增加稀疏权重形成新的稀疏编码向量（稀疏特征），通过多重特征加权重，可以充分的提取图像的特征，进一步提高目标预测的准确率。

在一实施例中，如图4所示，所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量的步骤包括：

对于第1个编码层：

对于第i个编码层，其中，1＜i≤n：

在现有技术中，编码器一般由n个编码层组成，有且仅有一种注意力（加权）方式，而在本申请的技术方案中，参照图5所示，发明人将代理编码层和稀疏编码层组成编码器中的一层编码层，巧妙的将相关的参数进行赋值和加权运算，依次经过代理编码层和稀疏编码层进行不同的加权运算，从而保证了编码的复杂度，进一步增加目标检测模型的收敛速度。

在一实施例中，所述解码器包括m个解码层，m大于1；

对于第1个解码层：

其中，参考解码向量为目标检测模型中的预设值。

对于第j个解码层，其中，1＜j≤m：

在本申请的技术方案中，通过上述解码过程，经过解码层的多次解码，即去除加权，可以快速实现目标预测值的输出。需要说明的是，参照图5所示，解码层的数量可以为m个，数量上不必强制与编码层的个数n等同也可实现本发明的目的。

可选地，预设值输出至损失函数中计算损失，通过上述公式，可以方便用户时刻关注自己的机器识别速度情况。

在一实施例中，参照图2和图5所示，所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括：

S311、将所述第一缩放图像切分为块序列；

将待检测图像记为I，第一缩放图像为I_p，将切分后的块序列

记为

，其中

，

表示块序列索引。

S312、对每个块序列进行嵌入处理得到原始嵌入向量；

对

进行嵌入处理，即对每个索引

，找到预训练时原始图像坐标系中与

对应的位置坐标

，其中

，

。设

对应的位置嵌入序列为

}，目标检测模型的位置嵌入序列为

，

可通过对

中与位置

紧邻的4个位置嵌入向量进行2D插值获得。具体的，设

，

，位置

临近的4个位置坐标分别为

，

，

，

。设投影映射嵌入为

，执行对

的嵌入操作获得原始嵌入向量

。以上过程将电子图像信号转换为可以被处理的向量，快速实现图像数据的数学化。

S313、在原始嵌入向量中插入多个代理编码单元形成混合序列向量，将所述混合序列向量作为所述第一嵌入向量

。

在原始嵌入向量

中插入代理编码单元（proxy token）形成新的第一嵌入向量

的具体过程如下，代理编码单元（proxy token）插入采用2D固定间隔方法，如图3所示，即首先将原始嵌入向量（token）重排列成二维(2D)形式，然后每间隔

插入1个新的代理编码单元（proxy token），最后再映射回1D排列形式，从而形成第一嵌入向量

。代理编码单元（proxy token）的位置嵌入采用可学习的位置嵌入方法。

基于上述实施例，在图5中，字母为a、c、e、h分别表示组成第一缩放图像的不同块序列，将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程，因此，通过缩放后的缩放图像与代理编码单元叠加，可以更为快速的进行目标检测，减小目标检测方法的计算量。另外，字母为a、b、c、d、e、f、h分别表示组成第二缩放图像的不同块序列，将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程。

另外，在上述实施例中，由于代码编码单元实际上是将图像嵌入向量部分替代，从而使得最后的运算量进一步减小。

需要说明的是，混合序列向量理论上是与顺序无关的，靠位置嵌入（positionembeddings）提供位置信息。本文中2D tokens默认可按行优先方式转为1D形式混合序列向量。对代理编码单元（proxy token）插入来说，图3只是为了说明本申请的技术方案所给出的一种实施例，代理编码单元（proxy token）事实上可以放在任意位置，如全部放在原始嵌入向量的最前面或者最后面。

在一实施例中，所述将所述第一嵌入向量输入至第1个代理编码层，输出第一代理编码向量，包括：

在此步骤中，为对混合序列向量的第一次加权处理，从而可以保证自注意力处理后的第一代理编码向量具有独立性，从而提高计算效率。

在一实施例中，稀疏编码层包括交叉计算注意力层和稀疏注意力层；

所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层，输出第一稀疏编码向量的步骤包括：

将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层（cross-scale attention），输出第一交叉编码向量Z_csa；

此时，第一交叉计算注意力层所执行的交叉计算注意力为：

将第二嵌入向量

作为查询（query），并将代理编码层中输出的第一代理编码向量

作为key（键）和值（value），输出第一交叉编码向量

。具体地，设交叉计算注意力层的交叉计算注意力头数为

，

。定义注意力操作，单头注意力

。记

，其中

,

。随后计算

，交叉计算注意力层的交叉计算注意力输出结果第一交叉编码向量

。

将第一交叉编码向量输入至第一稀疏注意力层（deformable attention），输出第一稀疏注意力向量Z_dfa；

此时，参照图5执行本申请的编码过程，其中，第一稀疏注意力层执行的编码过程如下：

设头数为

，

，采样键（key）数为

，

。第一稀疏注意力层的稀疏注意力将第一交叉编码向量

输入Offset函数投影映射

，输出 deformable offsets，记为

，

；将第一交叉编码向量

输入Weight函数投影映射

，并紧跟激励函数（SoftMax）操作输出attention weights，记为

，

。设预定义的参考点（Reference Points）坐标序列为

，记单头注意力

，

为采样操作。记

，

。随后计算

，第一稀疏注意力层的稀疏注意力结果为第一稀疏注意力向量

。

将第一交叉编码向量Z_csa和第一稀疏注意力向量Z_dfa的和作为第一稀疏编码向量。

此时，若循环进行编码，则将参考解码向量（Object Queries）序列为输入，执行自注意力（self-attention)操作。再将self-attention的输出作为query，将上一个编码层输出的第一稀疏编码向量Z_cda作为key/value，执行交叉注意力（cross attention）操作。

通过上述方案，以目标训练模型为ViT模型

为例说明上述方案的效果，ViT模型

的分辨率为

，其理论计算量为

。将

直接用作DETR骨干网并将输入分辨率缩放

倍，则骨干网部分的理论计算量

。

以下结合预训练的ViT模型

说明本申请的有益效果，采用本专利方法，设采样key 数为

，代理编码层（Proxy Encoder）插入间隔为

，

，稀疏编码层（Deformable Sparse Encoder）的分辨率缩放系数

，Proxy Encoder的分辨率缩放系数

，则本专利方法DETR骨干网部分的理论计算量为

。按上述参数值设置，本方法骨干网部分的理论计算量仅为直接采用ViT作为骨干网时理论计算量的

倍。

假定采用与预训练的ViT模型

计算量相当的CNN网络作为目标检测模型(DETR)骨干网，输入分辨率缩放

倍时，DETR骨干网部分的理论计算量为

。按上述参数值设置，本方法骨干网部分的理论计算量与CNN作为骨干网时理论计算量比为

。因此，可以证明，本申请在降低计算量上具有突出贡献同时，本方法在采用纯目标预测模型（transformer），即构建全新的骨干网替代CNN，从而避免了CNN固有的归纳偏置的影响。

基于上述任一实施例，图6为本发明实施例提供的目标检测装置，目标检测装置包括待检测图像获取单元10、预处理单元20、编码单元30和解码单元40：

待检测图像获取单元10，用于获取待检测图像；其中，待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。

预处理单元20，用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放，得到对应的第一缩放图像和第二缩放图像；

，将第二缩放系数记为

，待检测图像的宽度方向上的像素为

，待检测图像的高度方向上的像素为

，待检测图像的分辨率为

，按照第一缩放系数缩放后得到的第一缩放图像的分辨率为

，按照第二缩放系数缩放后得到的第二缩放图像的分辨率为

编码单元30，用于将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量；

解码单元40，用于将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，并根据所述解码向量生成目标预测值。

本发明实施例提供的装置，通过预处理单元将待检测图像进行缩放，从而缩减了编码单元和解码单元的计算量，从而减小了目标检测单元的计算量，另外，由于此时的预处理（前期数据处理）并未采用卷积神经网络，避免了卷积神经网络固有的平移同变性、局部性等归纳偏置的影响，有利于提升目标检测的效果。

可选地，所述编码单元30，具体用于：

对于第1个编码层：

对于第i个编码层，其中，1＜i≤n：

可选地，所述解码器包括m个解码层，m大于1；

所述解码单元40，具体用于：

对于第1个解码层：

对于第j个解码层，其中，1＜j≤m：

将第m个编码层输出的第m解码向量作为所述解码器输出的解码向量。

可选地，所述编码单元30，具体用于：

将所述第一缩放图像切分为块序列，

对每个块序列进行嵌入处理得到原始嵌入向量；

在原始嵌入向量中插入多个代理编码单元形成混合序列向量，将所述混合序列向量作为所述第一嵌入向量。

可选地，所述编码单元30，具体用于：

可选地，稀疏编码层包括交叉计算注意力层和稀疏注意力层；

所述编码单元30，具体用于：

将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层，输出第一交叉编码向量；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行目标检测方法，该方法包括：

S1、获取待检测图像；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的目标检测方法，该方法包括：

S1、获取待检测图像；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测图像；

将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量，根据所述解码向量生成目标预测值；

其中，所述编码器包括顺次连接的n个编码层，每个编码层包括互相连接的代理编码层和稀疏编码层，n大于1；

所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理，得到输出的编码向量的步骤包括：

对于第1个编码层：

对于第i个编码层，其中，1＜i≤n：

2.根据权利要求1所述的目标检测方法，其特征在于，所述解码器包括m个解码层，m大于1；

对于第1个解码层：

对于第j个解码层，其中，1＜j≤m：

将所述编码向量和第j解码向量输入至第j个解码层，输出第j解码向量；

将第m个稀疏编码层输出的第m解码向量作为所述解码器输出的解码向量。

3.根据权利要求1所述的目标检测方法，其特征在于，所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括：

将所述第一缩放图像切分为块序列，

对每个块序列进行嵌入处理得到原始嵌入向量；

4.根据权利要求3所述的目标检测方法，其特征在于，所述将所述第一嵌入向量输入至第1个代理编码层，输出第一代理编码向量，包括：

5.根据权利要求4所述的目标检测方法，其特征在于，稀疏编码层包括交叉计算注意力层和稀疏注意力层；

6.一种目标检测装置，其特征在于，包括：

待检测图像获取单元，用于获取待检测图像；

解码单元，用于将所述编码向量进行解码处理得到输出的解码向量，并根据所述解码向量生成目标预测值；

其中，所述编码单元包括顺次连接的n个编码层，每个编码层包括互相连接的代理编码层和稀疏编码层，n大于1；

所述编码单元具体用于：

对于第1个编码层：

对于第i个编码层，其中，1＜i≤n：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述目标检测方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述目标检测方法的步骤。