CN114220063B

CN114220063B - 目标检测方法及装置

Info

Publication number: CN114220063B
Application number: CN202111364353.6A
Authority: CN
Inventors: 周祥明; 殷俊; 郑春煌
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2023-04-07
Anticipated expiration: 2041-11-17
Also published as: CN114220063A

Abstract

本申请提供一种目标检测方法、目标检测装置及计算机可读存储介质。其中，目标检测方法包括：对待处理图像进行目标检测，得到第一检测信息；将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合后的待处理图像进行目标检测，得到第二检测信息；根据第一检测信息和第二检测信息确定待处理图像中目标的检测结果。本申请所提供的技术方案有利于提高目标检测的稳定性和准确性。

Description

目标检测方法及装置

技术领域

本申请涉及计算机视觉的技术领域，具体设计一种目标检测方法及装置。

背景技术

计算机视觉(Computer Vision，CV)是一门研究如何使人工系统从图像或者多维数据中“感知”的科学。目标检测作为计算机视觉的关键方向，主要用于对目标进行定位和分类。目标检测作为人工智能的前沿技术，在诸多领域得到广泛的应用，比如，智能辅助驾驶、智能机器人以及智能安防等等。

在相关技术中，算法在检测连续视频帧时，视频中同一个目标可能会出现抖动，或者若干帧检测不到目标的情况(即漏检)，即使整个视频画面保持不变，目标就停在原地不动，仍然会出现这种问题，导致检测输出结果不准确。

发明内容

本申请提供一种目标检测方法及装置，以提高目标检测的准确性。

本申请一方面提供一种目标检测方法，包括：对待处理图像进行目标检测，得到第一检测信息；将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合的后待处理图像进行目标检测，得到第二检测信息；根据第一检测信息和第二检测信息确定待处理图像中目标的检测结果。

可选地，第一检测信息在待处理图像中对应第一检测框，第二检测信息在待处理图像中对应第二检测框；根据第一检测信息和第二检测信息确定待处理图像中目标的检测结果，包括：确定第一检测框和第二检测框的重叠程度；响应于重叠程度大于预设阈值，将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果。

可选地，第一检测信息包括目标的第一位置，第二检测信息包括目标的第二位置；将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果，包括：将目标的第一位置与目标的第二位置进行加权求和，确定目标的位置。

可选地，第一检测信息包括目标的第一类别和目标属于第一类别的第一置信度，第二检测信息包括目标的第二类别和目标属于第二类别的第二置信度；将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果，包括：响应于第一类别和第二类别为同一类别，对第一置信度和第二置信度进行加权求和得到目标属于该类别的置信度。

可选地，将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果，还包括：响应于第一类别和第二类别为不同类别，降低第一置信度和第二置信度。

可选地，对待处理图像进行目标检测，得到第一检测信息，包括：利用第一特征提取网络对待处理图像进行特征提取，得到待处理图像的第一特征图；利用第二特征提取网络对待处理图像的第一特征图进行特征提取，得到待处理图像的多张第二特征图；对待处理图像的多张第二特征图进行检测，得到第一检测信息。

可选地，将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合后的待处理图像进行目标检测，得到第二检测信息，包括：利用特征融合网络将待处理图像的第一特征图与参考图像的第一特征图进行融合，得到待处理图像的第三特征图；利用第三特征提取网络对待处理图像的第三特征图进行特征提取，得到待处理图像的多张第四特征图；对待处理图像的多张第四特征图进行检测，得到第二检测信息。

可选地，参考图像包括位于待处理图像之前的预设张数的连续图像；利用特征融合网络将待处理图像的第一特征图与参考图像的第一特征图进行融合，得到待处理图像的第三特征图，包括：将待处理图像的第一特征图与待处理图像的前一张图像的第三特征图进行融合，得到待处理图像的第三特征图。

本申请另一方面还提供一种目标检测装置，包括处理器和存储器；存储器中存储有计算机程序，处理器用于执行计算机程序以实现以上的检测方法。

本申请另一方面还提供一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序被执行时实现以上的检测方法。

发明人经长期研究发现，单图像的目标检测有利于保留原始特征比较明显时的检测结果，但会面临由于运动模糊的、遮挡等引起的漏检问题。多张图像的融合虽然有利于克服其中某些帧由于运动模糊的、遮挡等引起的漏检问题，但可能会在一定程度上减弱某些明显的原始特征。本申请通过对待处理图像进行目标检测，得到第一检测信息；将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合后待处理图像进行目标检测，得到第二检测信息；将第一检测信息和第二检测信息融合，既有利于保留原始特征比较明显时的检测结果，又有利于克服其中某些帧由于运动模糊的、遮挡等引起的漏检问题，从而提升目标检测的稳定性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请目标检测网络的训练方法一实施例的流程示意图；

图2是图1中S101一实施例的流程示意图；

图3是本申请目标检测方法一实施例的流程示意图；

图4是图3中S201一实施例的流程示意图；

图5是图3中S202一实施例的流程示意图；

图6是本申请目标检测装置一实施例的结构示意图；

图7是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

需要说明的是，本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请首先提供一种目标检测网络的训练方法。请参阅图1，图1是本申请目标检测网络的训练方法一实施例的流程示意图。具体地，该训练方法可以包括以下步骤：

S101：对样本图像进行特征提取，得到样本图像的第一特征图。

具体地，在S101之前，还包括构造网络架构的步骤。在本实施例中，目标检测网络主要包括预处理网络、第一特征提取网络(即，主干网络)、特征融合网络、第二特征提取网络以及第三特征提取网络等层。其中，第一特征提取网络可以为轻量级卷积神经网络(Convolutional Neural Networks,CNN)。特征融合网络可以为相关技术中通用的循环神经网络(Recurrent Neural Network,RNN)。第二特征提取网络和第三特征提取网络具体可以参考YOLO(YouOnlyLookOnce，是一种基于图像的实时目标检测模型)的检测头部分。本申请对各层的具体结构不作限制，本领域技术人员可以根据实际需求进行选择。

S101中，样本图像具体可以取自训练样本集。训练样本集包括通用检测场景下的连续图像序列，其中每张图像以标注框的形式标注出目标的位置信息和类别信息。样本图像可以是训练样本集中的任意一张图像。举例而言，训练样本集可以是由人工标注的，当然本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

在一些实施例中，该目标检测网络可以应用于智能辅助驾驶。在该应用场景下，训练样本集可以为在道路上拍摄的，包括人、机动车、非机动车等目标的连续图像序列。其中每张图像以标注框的形式标注出人、机动车、非机动车等目标的位置信息和类别信息。

在一些实施例中，该目标检测网络可以应用于行人检测领域，比如自动驾驶、视频监控、刑事侦查、人脸支付等应用场景。在一些实施例中，该目标检测网络还可以应用于人脸检测，比如美颜相机、微笑检测、刷脸支付等应用场景。在一些实施例中，该目标检测网络还可以应用于文本检测，比如对图片中的文字进行定位和识别，帮助视力障碍人士阅读路牌或货币等应用场景。在一些实施例中，该目标检测系统还可以应用于交通信号检测，辅助城市交通管理，或者应用于遥感目标检测领域，辅助军事侦察和灾害监控等。

如图2所示，图2是图1中S101一实施例的流程示意图，本实施例中，S101具体可以通过其所包含的以下步骤实现：

S1011：对样本图像进行预处理。

具体地，利用预处理网络对样本图像进行预处理。对样本图像进行预处理主要是为了消除样本图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性，最大程度的简化数据，从而改进特征提取的可靠性。举例而言，预处理流程可以包括灰度化、几何变换以及图像增强等，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

S1012：对预处理后的样本图像进行特征提取，得到样本图像的第一特征图。

具体地，利用第一特征提取网络对对预处理后的样本图像进行多次卷积和降采样处理，得到第一特征图。举例而言，预处理后的样本图像的分辨率可以为512*384，经S1012进行特征提取后，得到大小为64*48*192的第一特征图。

S102：将样本图像的第一特征图与样本图像的参考图像的第一特征图进行融合，得到样本图像的第二特征图。

具体地，S102可以通过特征融合网络实现。样本图像的参考图像与样本图像属于同一训练样本集，具体地，样本图像的参考图像可以是指该样本图像之前的若干张连续图像，也可以是指该样本图像之后的若干张连续图像。在本实施例中，可以利用样本图像之前的若干张连续图像与样本图像进行特征融合，以使该目标检测网络能够应用于实时检测。在一些实施例中，可以利用样本图像之前的若干张连续图像和/或样本图像之后的若干张连续图像与样本图像进行特征融合，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

在本实施例中，S102具体可以通过如下步骤实现：将样本图像的第一特征图与样本图像的前一张图像的第二特征图进行融合，得到样本图像的第二特征图。

如前所述，训练样本集包括连续的图像序列。假设训练样本集包括N(N为正整数)张图像，样本图像是其中的第j张图像(j为1-N中的任意一个正整数)。训练样本集中的第一张图像作为起始图像，其第一特征图可以直接作为第二特征图。将训练样本集中的第二张图像的第一特征图与第一张图像的第二特征图融合，得到第二张图像的第二特征图。将样本训练集的第三张图像的第一特征图与第二张图像的第二特征图融合，得到第三张图像的第二特征图。以此类推，将样本图像(第j张图像)的第一特征图与与样本图像的前一张图像(第j-1张图像)的第二特征图融合，得到样本图像的第二特征图。也就是说，训练样本集中的每一张图像的第二特征图是由该张图像的第一特征图与该张图像的前一张图像的第二特征图进行特征融合得到的。

S103：对样本图像的第二特征图进行特征提取，得到样本图像的多张第三特征图。

具体地，利用第三特征提取网络对样本图像的第二特征图进行多次卷积和降采样处理，得到具有不同分辨率的多张第三特征图。

S104：对样本图像的第一特征图进行特征提取，得到样本图像的多张第四特征图。

具体地，利用第二特征提取网络对样本图像的第一特征图进行多次卷积和降采样处理，得到具有不同分辨率的多个第四特征图。

S105：分别对样本图像的多张第三特征图和多张第四特征图进行损失计算，以对目标检测网络进行训练。

具体地，分别将多张第三特征图和多张第四特征图分别送入损失计算层进行损失计算，以对目标检测网络进行训练。举例而言，该目标检测网络的损失计算可以与YOLO相同或大致相同，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

本申请首先设计了一种全新的网络架构。首先用第一特征提取网络(即，主干网络)提取样本图像的主干特征，得到样本图像第一特征图，然后利用特征融合网络将样本图像的第一特征图与样本图像的参考图像的第一特征图进行融合，得到样本图像的第二特征图，最后分别在第一特征图和第二特征图上进行特征提取，以训练目标检测网络，使得该目标检测网络可同时支持单图像的目标检测输出和连续多张图像的目标检测输出。其中，单图像的目标检测有利于保留原始特征比较明显时的检测结果，连续多张图像的融合有利于克服其中某些帧由于运动模糊的、遮挡等引起的漏检问题，从而提升目标检测的稳定性和准确性。

另外，本申请还提供一种目标检测方法，在一些实施例中，该目标检测方法可以通过前述的目标检测网络实现。请参阅图3，图3是本申请目标检测方法一实施例的流程示意图。具体地，该目标检测方法可以包括以下步骤：

S201：对待处理图像进行目标检测，得到第一检测信息。

具体地，如图4所示，图4是图3中S201一实施例的流程示意图，S201可以通过其所包括的如下步骤实现：

S2011：利用第一特征提取网络对待处理图像进行特征提取，得到待处理图像的第一特征图。

具体地，S2011可以通过其所包括的如下步骤实现：

S20111：对待处理图像进行预处理。

其中，待处理图像可以是一段待处理视频中的任意一帧。具体地，该段待处理视频可以包括连续的多帧图像。在本实施例中，该段待处理视频是通过摄像设备实时获取。在一些实施例中，该段待处理视频也可以是非实时获取的，比如可以是预先存储在存储器中的，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

具体地，可以利用预处理网络对待处理图像行预处理。对待处理图像进行预处理，主要是为了消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性，最大程度的简化数据，从而改进特征提取的可靠性。举例而言，预处理流程可以包括灰度化、几何变换以及图像增强等，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

S20112：对预处理后的待处理图像进行特征提取，得到待处理图像的第一特征图。

具体地，利用第一特征提取网络对对预处理后的待处理图像进行多次卷积和降采样处理，得到待处理图像的第一特征图。举例而言，预处理后的待处理图像的分辨率可以为512*384，经S2012进行特征提取后，得到大小为64*48*192的第一特征图。

S2012：利用第二特征提取网络对待处理图像的第一特征图进行特征提取，得到待处理图像的多张第二特征图。

具体地，利用第二特征提取网络对待处理图像的第一特征图进行多次卷积和降采样处理，得到具有不同分辨率的多个第二特征图。

S2013：对待处理图像的多张第二特征图进行检测，得到第一检测信息。

具体地，将具有不同分辨率的多张第二特征图进入检测层进行检测得到第一检测信息。第一检测信息在待处理图像中对应第一检测框。在本实施例中，第一检测信息可以包括目标的第一位置

目标的第一类别和目标属于第一类别的第一置信度score¹。在一些实施例中，第一检测信息也可以仅包括目标的第一位置

本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

S202：将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合后的待处理图像进行目标检测，得到第二检测信息。

具体地，如图5所示，图5是图3中S202一实施例的流程示意图，S202可以通过其所包括的如下步骤实现：

S2021：利用特征融合网络将待处理图像的第一特征图与参考图像的第一特征图进行融合，得到待处理图像的第三特征图。

具体地，待处理图像的参考图像与待处理图像属于同一待处理视频。待处理图像的参考图像可以是指该待处理图像之前的若干张连续图像，也可以是指该待处理图像之后的若干张连续图像。在本实施例中，可以利用待处理图像之前的若干张连续图像与待处理图像进行特征融合，以使该目标检测网络能够应用于实时检测。在一些实施例中，可以利用待处理图像之前的若干张连续图像和/或待处理图像之后的若干张连续图像与待处理图像进行特征融合，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

在本实施例中，S2021具体可以通过如下步骤实现：将待处理图像的第一特征图与待处理图像的前一张图像的第三特征图进行融合，得到待处理图像的第三特征图。

如前所述，待处理视频包括连续的多帧图像。假设待处理视频包括N(N为正整数)张图像，待处理图像是其中的第j张图像(j为1-N中的任意一个正整数)。待处理视频中的第一张图像作为起始图像，其第一特征图可以直接作为第三特征图。将待处理视频中的第二张图像的第一特征图与第一张图像的第三特征图融合，得到第二张图像的第三特征图。将待处理视频的第三张图像的第一特征图与第二张图像的第三特征图融合，得到第三张图像的第三特征图。以此类推，将待处理图像(第j张图像)的第一特征图与与待处理图像的前一张图像(第j-1张图像)的第三特征图融合，得到待处理图像的第三特征图。也就是说，待处理视频中的每一张图像的第三特征图是由该张图像的第一特征图与该张图像的前一张图像的第三特征图进行特征融合得到的。

S2022：利用第三特征提取网络对待处理图像的第三特征图进行特征提取，得到待处理图像的多张第四特征图。

具体地，利用第三特征提取网络对待处理图像的第三特征图进行多次卷积和降采样处理，得到具有不同分辨率的多张第四特征图。

S2023：对待处理图像的多张第四特征图进行检测，得到第二检测信息。

具体地，将具有不同分辨率的多张第四特征图进入检测层进行计算得到第二检测信息。第二检测信息在待处理图像中对应第二检测框。在本实施例中，第二检测信息可以包括目标的第二位置

目标的第二类别和目标属于第二类别的第二置信度score²。当然，在一些实施例中，第二检测信息也可以仅包括目标的第二位置

S203：根据第一检测信息和第二检测信息确定待处理图像中目标的检测结果。

如前所述，第一检测信息在待处理图像中对应第一检测框，第二检测信息在待处理图像中对应第二检测框。具体地，该步骤可以通过其所包括的如下步骤实现：

S2031：确定第一检测框和第二检测框的重叠程度。

在本实施例中，第一检测框和第二检测框的重叠程度可以是第一检测框和第二检测框的位置交并比。当然，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

S2032：响应于重叠程度大于预设阈值，将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果。

具体地，当第一检测框和第二检测框的第一检测框和第二检测框的重叠程度大于预设阈值时，说明第一检测框和第二检测框是针对于同一目标的检测框。关于预设阈值的具体数值，本申请不作限制，本领域技术人员可以根据实际需求进行选择。

具体地，将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果可以包括：

S20321：将目标的第一位置与目标的第二位置进行加权求和，确定目标的位置。

具体地，目标的位置(x₁,y₁,x₂,y₂)可以通过如下公式计算：

其中，

和w¹分别代表从第二特征图上检测到的第一位置以及对应设定的第一权重值；

和w²分别代表从第四特征图上检测到的第二位置以及对应设定的第二权重值。

当第一检测框和第二检测框的重叠程度小于或等于预设阈值时，说明第一检测框和第二检测框是针对于不同目标的检测框，此时，可以分别保留第一位置

和第二位置

具体地，将第一检测信息和第二检测信息进行融合，确定待处理图像中目标的检测结果还可以包括：

S20322：响应于第一类别和第二类别为同一类别，对第一置信度和第二置信度进行加权求和得到目标属于该类别的置信度。

当第一检测框与第二检测框的重叠程度大于预设阈值，且第一类别和第二类别为同一类别时，说明从第二特征图上获取的类别检测结果与从第四特征图上获取的类别检测结果一致。此时，目标属于该类别的置信度(score)可以通过如下公式计算：

score＝score¹*w¹+score²*w²

其中，score¹和w¹分别代表从第二特征图上检测到的第一置信度以及对应设定的第一权重值。score²和w²分别代表从第四特征图上检测到的第二置信度以及对应设定的第二权重值。

S20323：响应于第一类别和第二类别为不同类别，降低第一置信度和第二置信度。

当第一检测框与第二检测框的重叠程度大于预设阈值，且第一类别和第二类别为不同类别时，说明从第二特征图上获取的类别检测结果与从第四特征图上获取的类别检测结果不同，此时，可以通过如下公式降低第一置信度和第二置信度：

score＝score¹*w¹或score＝score²*w²

其中，score¹和w¹(0＜w¹＜1)分别代表从第二特征图上检测到的第一置信度以及对应设定的第一权重值。score²和w²(0＜w²＜1)分别代表从第四特征图上检测到的第二置信度以及对应设定的第二权重值。

当第一检测框与第二检测框的位置交并比小于或等于预设阈值时，说明第一检测框和第二检测框是针对于不同目标的检测框，此时，可以分别保留目标属于第一类别的第一置信度和目标属于第二类别的第二置信度。

如前所述，本实施例中，待处理图像中目标的检测结果包括位置、类别以及目标属于该类别的置信度。在一些实施例中，待处理图像中目标的检测结果也可以仅包括目标的类别，本申请对此不作限制，本领域技术人员可以根据实际需求进行选择。

本申请通过对待处理图像进行目标检测，得到第一检测信息；将待处理图像的参考图像与待处理图像进行特征融合，对经特征融合后待处理图像进行目标检测，得到第二检测信息；将第一检测信息和第二检测信息融合，既有利于保留原始特征比较明显时的检测结果，又有利于克服其中某些帧由于运动模糊的、遮挡等引起的漏检问题，从而提升目标检测的稳定性和准确率。

请参阅图6，图6是本申请目标检测装置一实施例的结构示意图。该目标检测装置100包括耦接的处理器10和存储器20；存储器20中存储有计算机程序，处理器10用于执行计算机程序以实现前述的训练方法和/或检测方法的步骤。

其中，处理器10用于目标处理装置100的操作，处理器10还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器10可能是一种集成电路芯片，具有信号的处理能力。处理器10还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器10也可以是任何常规的处理器等。

存储器20可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM，等等。存储器20可以存储有程序数据，程序数据例如可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储器20分布。存储器20可被耦接到处理器10以使得该处理器10能从/向该存储器20读写信息。当然，存储器20可以被整合到处理器10。

请参阅图7，图7是本申请计算机可读存储介质一实施例的结构示意图，计算机存储介质200存储有计算机程序，计算机程序被执行时实现如前述训练方法和/或检测方法的步骤。

本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储装置中，包括若干指令(程序数据)用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的训练方法和训练方法，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，包括：

利用第一特征提取网络对待处理图像进行特征提取，得到所述待处理图像的第一特征图；

利用第二特征提取网络对所述待处理图像的第一特征图进行特征提取，得到所述待处理图像的多张第二特征图；

对所述待处理图像的多张第二特征图进行检测，得到第一检测信息，其中，所述第一检测信息包括目标的第一位置、目标的第一类别和所述目标属于所述第一类别的第一置信度中的至少一种；

利用特征融合网络将所述待处理图像的第一特征图与参考图像的第一特征图进行融合，得到所述待处理图像的第三特征图；

利用第三特征提取网络对所述待处理图像的第三特征图进行特征提取，得到待处理图像的多张第四特征图；

对所述待处理图像的多张第四特征图进行检测，得到第二检测信息，其中，所述第二检测信息包括目标的第二位置、目标的第二类别和所述目标属于所述第二类别的第二置信度中的至少一种；

其中，所述参考图像包括位于待处理图像之前的预设张数的连续图像；

根据所述第一检测信息和所述第二检测信息确定所述待处理图像中目标的检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，所述第一检测信息在所述待处理图像中对应第一检测框，所述第二检测信息在所述待处理图像中对应第二检测框；

所述根据所述第一检测信息和所述第二检测信息确定所述待处理图像中目标的检测结果，包括：

确定所述第一检测框和所述第二检测框的重叠程度；

响应于所述重叠程度大于预设阈值，将所述第一检测信息和所述第二检测信息进行融合，确定所述待处理图像中目标的检测结果。

3.根据权利要求2所述的目标检测方法，其特征在于，所述第一检测信息包括所述目标的第一位置，所述第二检测信息包括所述目标的第二位置；

所述将所述第一检测信息和所述第二检测信息进行融合，确定所述待处理图像中目标的检测结果，包括：

将所述目标的第一位置与所述目标的第二位置进行加权求和，确定所述目标的位置。

4.根据权利要求2所述的目标检测方法，其特征在于，所述第一检测信息包括所述目标的第一类别和所述目标属于所述第一类别的第一置信度，所述第二检测信息包括所述目标的第二类别和所述目标属于所述第二类别的第二置信度；

响应于所述第一类别和所述第二类别为同一类别，对所述第一置信度和所述第二置信度进行加权求和得到所述目标属于该类别的置信度。

5.根据权利要求4所述的目标检测方法，其特征在于，所述将所述第一检测信息和所述第二检测信息进行融合，确定所述待处理图像中目标的检测结果，还包括：

响应于所述第一类别和所述第二类别为不同类别，降低所述第一置信度和所述第二置信度。

6.根据权利要求1所述的目标检测方法，其特征在于，所述参考图像包括位于所述待处理图像之前的预设张数的连续图像；

所述利用特征融合网络将所述待处理图像的第一特征图与所述参考图像的第一特征图进行融合，得到所述待处理图像的第三特征图，包括：

将所述待处理图像的第一特征图与所述待处理图像的前一张图像的第一特征图进行融合，得到所述待处理图像的第三特征图。

7.一种目标检测装置，包括处理器和存储器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1～6中任一项所述的检测方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现如权利要求1～6中任一项所述的检测方法。