CN112329616B

CN112329616B - 目标检测方法、装置、设备以及存储介质

Info

Publication number: CN112329616B
Application number: CN202011215947.6A
Authority: CN
Inventors: 杨喜鹏; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-08-11
Anticipated expiration: 2040-11-04
Also published as: CN112329616A

Abstract

本公开提供一种目标检测方法、装置、设备以及存储介质，涉及计算机视觉、图像处理、深度学习等人工智能领域。目标检测方法包括：获取待检测图像；获取与待检测图像相应的背景图像；将待检测图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的待检测图像的特征图和背景图像的特征图；以及将待检测图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的目标检测结果。

Description

目标检测方法、装置、设备以及存储介质

技术领域

本公开涉及计算机视觉、图像处理、深度学习等人工智能领域，更具体地，涉及一种目标检测方法、装置、设备以及存储介质。

背景技术

目标检测是计算机视觉和图像处理的一个热门方向，广泛应用于自动驾驶、智能视频监控、工业检测等诸多领域。通过实现计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点。由于深度学习的广泛运用，目标检测方法得到了快速的发展，但现有的目标检测方法对场景的感知能力弱，仍有一定的局限性。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一方面，提供了一种目标检测方法，包括：获取待检测图像；获取与待检测图像相应的背景图像；将待检测图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的待检测图像的特征图和背景图像的特征图；以及将待检测图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的目标检测结果。

根据本公开的另一方面，还提供了一种神经网络的训练方法，包括：获取样本图像，并标记样本图像包括的目标的真实类别和真实目标框；获取与样本图像相应的背景图像；将样本图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的样本图像的特征图和背景图像的特征图；将样本图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的预测类别和预测目标框及其预测置信度；基于真实类别、真实目标框、预测类别和预测目标框及其预测置信度，计算损失函数；以及基于损失函数，调整第一目标检测子模型和第二目标检测子模型的参数。

根据本公开的另一方面，还提供了一种目标检测装置，包括：第一图像获取模块，被配置用于获取待检测图像；第二图像获取模块，被配置用于获取与待检测图像相应的背景图像；第一目标检测子模块，被配置用于分别基于待检测图像和背景图像，输出待检测图像的特征图和背景图像的特征图；以及第二目标检测子模块，被配置用于基于待检测图像的特征图和背景图像的特征图，输出目标检测结果。

根据本公开的另一方面，还提供了一种神经网络，包括：第一目标检测子模型，被配置用于分别基于待检测图像和背景图像，输出待检测图像的特征图和背景图像的特征图；以及第二目标检测子模型，被配置用于基于待检测图像的特征图和背景图像的特征图生成的特征图，输出目标检测结果。

根据本公开的另一方面，还提供了一种电子设备，包括：处理器；以及存储程序的存储器，上述程序包括指令，并且指令在由处理器执行时使处理器执行根据上述的目标检测方法和/或根据上述的训练方法。

根据本公开的另一方面，还提供了一种存储程序的计算机可读存储介质，上述程序包括指令，并且指令在由电子设备的处理器执行时，致使电子设备执行根据上述的目标检测方法和/或根据上述的训练方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述的目标检测方法和/或根据上述的训练方法。

本公开的技术方案通过将待检测图像和相应的背景图像输入目标检测模型，让目标检测模型学习到更多的场景信息，从而提升目标检测模型对当前场景的感知能力，进而能够更好地将待检测图片中的待检测目标与背景图像进行区分，提高目标检测模型的准确率。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1-图2是示出根据示例性实施例的目标检测方法的流程图；

图3是示出根据示例性实施例的获取与待检测图像相应的背景图像的流程图；

图4是示出根据示例性实施例的获取第一目标检测子模型输出的待检测图像的特征图和背景图像的特征图的流程图；

图5是示出根据本公开示例性实施例的目标检测模型的示意性结构图；

图6-图7是示出根据示例性实施例的神经网络的训练方法的流程图；

图8-图9是示出根据示例性实施例的目标检测装置的框图；以及

图10是能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，现有的目标检测方法中，目标检测模型的输入没有对场景信息的额外描述，因此的对场景信息的获取并不全面，导致模型的准确率不高，尤其是在场景中目标多、背景复杂的情况下。

为了解决上述技术问题，本公开提供一种目标检测方法：将待检测图像和相应的背景图像分别输入目标检测模型的主干卷积神经网络，得到待检测图像的特征图和背景图像的特征图；将上述两个特征图输入目标检测模型的检测头，得到目标检测结果。由此，通过将待检测图像和相应的背景图像输入目标检测模型，让目标检测模型学习到更多的场景信息，从而提升目标检测模型对当前场景的感知能力，进而能够更好地将待检测图片中的待检测目标与背景图像进行区分，提高目标检测模型的准确率。

以下将结合附图对本公开的目标检测方法进行进一步描述。

图1是示出根据本公开示例性实施例的目标检测方法的流程图。如图1所示，目标检测方法可以包括：步骤S101、获取待检测图像；步骤S102、获取与待检测图像相应的背景图像；步骤S103、将待检测图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的待检测图像的特征图和背景图像的特征图；以及步骤S104、将待检测图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的目标检测结果。由此，通过将待检测图像和背景图像输入包括第一目标检测子模型和第二目标检测子模型的目标检测模型，使得目标检测模型可以学习到更多关于背景的信息，从而提升目标检测模型对当前场景的感知能力。此外，由于待检测图像的特征图和背景图像的特征图是由同一个第一目标检测子模型得到的，因此待检测图像的背景部分的一些特征与背景图像中同一部分的一些特征是高度相似的，从而目标检测模型能够更好地将待检测图片中的待检测目标与背景图像进行区分，进而提高目标检测模型的准确率。

根据一些实施例，步骤S101、获取待检测图像可以包括：从多个视频帧中选取一帧作为待检测图像，其中，多个视频帧都是由摄像机在第一拍摄条件下拍摄的。

视频帧由摄像机拍摄得到，每一个视频帧可以包括拍摄时的拍摄条件。

待检测图像可以包括一个或多个待检测目标，也可以不包括待检测目标。待检测图像可以为保存的多个视频帧中的一帧，也可以为实时获取的视频帧，在此不做限定。

根据一些实施例，第一拍摄条件限定了下列拍摄参数中的至少一者：摄像机位置、摄像机视角、摄像机旋转角度和画面缩放大小。由此，通过限定第一拍摄条件，能够获取摄像机在固定场景下拍摄的具有与第一拍摄条件相应的拍摄参数的视频帧，从而能够在后续步骤中基于视频帧对背景进行建模。

第一拍摄条件用于限定视频的场景固定，同时也是后续步骤中的背景建模的要求。根据一些实施例，摄像机位置例如可以是摄像机在现实世界中的具体位置，可以通过现实世界坐标系的三维坐标来表示，也可以通过精确的经纬度和海拔高度来表示。摄像机视角例如可以是摄像机镜头光轴的方向，可以通过成像的中心像素对应的真实世界中的方向来表示。摄像机旋转角度例如可以是摄像机绕光轴旋转的角度，可以设定摄像机成像的水平方向与地面平行时，摄像机旋转角度为0，并以摄像机绕光轴逆时针旋转或逆时针旋转的角度作为摄像机旋转角度。可以理解的是，摄像机旋转角度可以有多种设定方式，例如还可以设定摄像机成像的水平方向与地面垂直时，摄像机的旋转角度为0，在此不做限定。画面缩放大小例如可以是摄像机成像对应真实世界中的区域大小，可以通过光学变焦的焦距和/或电子变焦的放大、缩小比例来表示。

根据一些实施例，如图3所示，步骤S102、获取与待检测图像相应的背景图像可以包括：步骤S1021、判断背景图像库中是否包括在第一拍摄条件下拍摄的背景图像；步骤S1022、响应于背景图像库中不包括在第一拍摄条件下拍摄的背景图像，基于多个视频帧进行背景建模，生成拍摄参数符合第一拍摄条件的第一背景图像；以及步骤S1023、将第一背景图像作为与待检测图像相应的背景图像。由此，通过基于多个视频帧进行背景建模，能够生成与待检测图像相应的背景图像，减少了使用人工获取背景图像的成本，并解决了在待检测目标较多且场景长期包括待检测目标的情况下无法通过单帧来得到背景图像的问题。此外，背景图像是基于包括待检测图像的由同一摄像头在同一拍摄条件下拍摄的视频帧得到的，因此背景图像与待检测图像中的背景部分相似度高，从而可以使用准确的背景图像帮助目标检测模型学习场景信息，进而提升模型的准确率。示例性的，例如在一个设置有摄像头的超市停车场中，背景图像可以是基于摄像头在第一拍摄条件下拍摄的多个视频帧生成的空旷的停车场图像，待检测图像可以是摄像头在第一拍摄条件下拍摄的每一个视频帧，可能包括轿车、货车、行人、超市推车等待识别目标。

根据一些实施例，如图3所示，步骤S102、获取与待检测图像相应的背景图像还可以包括：步骤S1024、响应于背景图像库中包括在第一拍摄条件下拍摄的背景图像，将在第一拍摄条件下拍摄的背景图像作为与待检测图像相应的背景图像。

根据一些实施例，上述目标检测方法还可以包括：将第一背景图像存入背景图像库中，并设置与第一背景图像相应的最大保存时间。由此，通过使用背景图像库，能够使用建模好的背景图像进行目标检测，避免在短时间内且场景信息没有改变的情况下重复生成背景图像，进而提升执行目标检测任务的速度。

背景图像库可以用于保存预先保存的或已经生成的背景图像。每一个背景图像可以与一个拍摄条件相对应，表示为该拍摄条件下的背景图像。在需要获取与待检测图像相应的背景图像的情况下，可以先判断背景图像库中是否包括在拍摄条件下拍摄的背景图像。若有，则可以直接将该背景图像输入目标检测模型；若没有，则可以进行背景建模，生成新的背景图像，并将新的背景图像存入背景图像库，以便后续使用。存入背景图像库的图像还可以设置最大保存时间，保证背景图像的准确性。最大保存时间例如可以是30分钟、1小时、3小时、6小时、12小时、24小时、一周、一个月，也可以是其他的时间长度，在此不做限定。

背景建模可以而根据场景、角度、光线等因素，选择合适的背景建模方法。背景建模方法例如可以包括帧间差分法、背景差分法、ViBe背景提取，在此不做限定。

根据一些实施例，第一目标检测子模型可以为卷积神经网络，如图4所示，步骤S103、将待检测图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的待检测图像的特征图和背景图像的特征图可以包括：步骤S1031、选取第一目标检测子模型的多个层；步骤S1032、将待检测图像输入第一目标检测子模型，获取多个层输出的待检测图像的多个子特征图；步骤S1033、将待检测图像的多个子特征图融合，得到待检测图像的特征图；步骤S1034、将背景图像输入第一目标检测子模型，获取多个层输出的背景图像的多个子特征图；以及步骤S1035、将背景图像的多个子特征图融合，得到背景图像的特征图。由此，如图5所示，通过选取第一目标检测子模型1000的多个层1001，可以得到包含不同层次语义信息的多张子特征图，从而丰富了待检测图像5001和背景图像5002的特征信息，提升模型对待检测目标和场景的感知能力，进而提升模型的准确率。

根据一些实施例，可以依据目标检测模型的应用场景，可以选择适当大小的卷积神经网络作为第一目标检测子模型，例如可以选择轻型的结构如ResNet18、ResNet34、DarkNet19，中型结构如ResNet50、RexNeXt50、DarkNet53，重型结构如ResNet101、ResNeXt152等，也可以选择其他的卷积神经网络结构或自行搭建一个网络，在此不做限定。

根据一些实施例，步骤S1031例如可以选取第一目标检测子模型的两个、三个、四个或更多个卷积层、池化层、其他神经网络中的层或多种层的组合，在此不做限定。如图5所示，例如可以选取第一目标检测模型1000中的三个层1001。一种优选的实施例中，可以选取输出的子特征图的降采样比例为输入图像的8分之1，16分之1，32分之1的三个层。靠近第一目标检测模型输入端的层输出的子特征图包括浅层语义信息，靠近第一目标检测子模型出端的的层输出的子特征图包括深层语义信息。通过选取多个层输出的子特征图，能够得到不同层次的语义信息。

根据一些实施例，将子特征图融合为特征图例如可以是将最后一个子特征图经过1*1卷积，得到第一组金字塔特征，再经过上采样，得到和前一个子特征图尺寸相同的子特征图，并与经过1*1卷积后的前一个子特征图做矩阵加法，得到第二组金字塔特征，以此类推，最终将所有的金字塔特征组合成特征图。子特征图的融合过程还可以以其他方式进行，例如将所有子特征层沿通道方向合并，在此不做限定。

根据一些实施例，如图2所示，上述目标检测方法还可以包括：步骤S204、将待检测图像的特征图输入第三目标检测子模型，获取第三目标检测子模型输出的空间上被强化的待检测图像的特征图；步骤S205、将背景图像的特征图输入第四目标检测子模型，获取第四目标检测子模型输出的通道上被强化的背景图像的特征图。图2中步骤S201-S203、S206分别与图1中步骤S101-S104类似。由此，通过使用第三目标检测子模型和第四目标检测子模型，待检测图像的特征图在空间上得到强化，从而使得模型更多地关注待检测目标的区域，降低背景图像带来的干扰；而背景图像的特征图在通道上得到强化，从而使得模型更多地关注背景图像中较为重要的特征，提升模型对场景的感知能力，进而能够更好的将待检测目标和背景图像区分并对待检测目标进行识别与定位，提升模型的准确率。

根据一些实施例，如图5所示，第三目标检测子模型3000可以为空间注意力机制。步骤S204可以包括：为待检测图像的特征图中每一个子特征图的每一个像素设置一个注意力权重参数；将待检测图像的特征图中每一个子特征图的每一个像素乘上该像素的注意力权重参数，得到一个新的待检测图像的特征图5003。这些注意力权重参数中，与待检测目标的空间位置相关的注意力权重值较高，而其他空间位置的相关注意力权重值较低。因此，相比于原先的特征图，新的特征图中与待检测目标相应的空间区域被强化，与背景图像相应的空间区域被弱化，从而能够更好地识别并定位待检测目标。

根据一些实施例，如图5所示，第四目标检测子模型4000可以为通道注意力机制。步骤S205可以包括：为背景图像的特征图中每一个子特征图的每一个通道设置一个注意力权重参数；将背景图像的特征图中每一个子特征图的每一个通道乘上该通道的注意力权重参数，得到一个新的背景图像的特征图5004。在这些注意力权重参数中，容易对目标检测产生干扰的背景图像的突出特征的注意力权重值较高，而背景图像的其他特征的注意力权重值较低。因此，相比于原先的特征图，新的特征图中背景特征突出的通道被强化，从而能够减少场景信息对目标检测过程带来的干扰。

需要注意的是，在此并不限定步骤S204和S205的执行顺序，均可以实现本公开的技术方案。

根据一些实施例，如图5所示，第二目标检测子模型2000可以为检测头，目标检测结果5005可以包括待检测目标的类别、标识待检测目标位置与大小的目标框及其预测置信度中的至少一者，步骤S104、将待检测图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的目标检测结果可以包括：将待检测图像的特征图和背景图像的特征图沿通道方向合并，得到合并特征图；将合并特征图输入第二目标检测子模型，获取第二目标检测子模型输出的目标检测结果。由此，通过将待检测图像的特征图和背景图像的特征图输入第二目标检测子模型从而获取目标检测结果，能够使得目标检测模型在待检测图像的特征图的基础上，还考虑了由背景图像的特征图带来的场景信息，从而能够更准确地对待检测目标进行识别；通过使用检测头，可以基于特征图，得到准确的目标检测结果，即待检测目标的类别、标识待检测目标位置与大小的目标框及其预测置信度。

根据一些实施例，如图5所示，检测头为目标检测模型中用于基于输入的特征图输出目标检测结果的一个常用模型。检测头例如可以通过判断设定好的若干个不同大小的目标框中是否包括待检测目标、包括的待检测目标的类别及其预测置信度来确定一个或多个包括待检测目标的目标框，再使用后处理算法，例如可以使用最大值抑制(NMS)方法，滤除冗余目标框，得到最终的目标检测结果。可以理解的是，可以使用其他的后处理方法滤除冗余目标框，或者可以使用通过其他方法获得目标框的检测头，在此不做限定。

根据本公开的另一方面，还提供一种神经网络的训练方法，如图6所示，神经网络可以包括第一目标检测子模型和第二目标检测子模型。训练方法可以包括：步骤S601、获取样本图像，并标记样本图像包括的目标的真实类别和真实目标框；步骤S602、获取与样本图像相应的背景图像；步骤S603、将样本图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的样本图像的特征图和背景图像的特征图；步骤S604、将样本图像的特征图和背景图像的特征图输入第二目标检测子模型，获取第二目标检测子模型输出的预测类别和预测目标框及其预测置信度；步骤S605、基于真实类别、真实目标框、预测类别和预测目标框及其预测置信度，计算损失函数；以及步骤S606、基于损失函数，调整第一目标检测子模型和第二目标检测子模型的参数。可以对上述训练过程进行迭代，直至第一损失函数满足预设的条件，完成神经网络的训练。由此，通过对神经网络的训练，使得神经网络可以基于输入的待检测图像和相应的背景图像，输出准确的目标检测结果，实现结合场景信息的目标检测。

根据一些实施例，步骤S603、将样本图像和背景图像分别输入第一目标检测子模型，获取第一目标检测子模型输出的样本图像的特征图和背景图像的特征图可以包括：选取第一目标检测子模型的多个层；将样本图像输入第一目标检测子模型，获取多个层输出的样本图像的多个子特征图；将样本图像的多个子特征图融合，得到样本图像的特征图；将背景图像输入第一目标检测子模型，获取多个层输出的背景图像的多个子特征图；以及将背景图像的多个子特征图融合，得到背景图像的特征图。由此，通过将多个层输出的子特征图融合为特征图，使得神经网络在训练的时候结合不同层次语义信息进行参数调整，从而提升神经网络进行目标检测的准确率。

根据一些实施例，上述神经网络还可以包括第三目标检测子模型和第四目标检测子模型，如图7所示，上述训练方法还可以包括：步骤S704、将样本图像的特征图输入第三目标检测子模型，获取第三目标检测子模型输出的空间上被强化的样本图像的特征图；步骤S705、将背景图像的特征图输入第四目标检测子模型，获取第四目标检测子模型输出的通道上被强化的背景图像的特征图；以及步骤S708、在计算损失函数后，基于损失函数，调整第一目标检测子模型、第二目标检测子模型、第三目标检测子模型和第四目标检测子模型的参数。图7中步骤S701-S703、S706-S707分别与图6中步骤S601-S605类似。由此，通过训练包括第三目标检测子模型和第四目标检测子模型的神经网络，使得神经网络可以更关注待检测图像的特征图的包括待检测目标的空间区域和背景图像的特征图的对待检测目标产生干扰的特征，从而更好地区分待检测目标与背景图像，进而提升神经网络进行目标检测的准确率。

上述技术方案通过对第一目标子模型、第二目标子模型、第三目标子模型、第四目标子模型同步进行训练，使得神经网络可以基于输入的待检测图像和相应的背景图像输出目标检测结果，并且能够在结合不同层次语义层次的基础上，在空间上强化待检测图像的特征图、在通道上强化背景图像的特征图，从而得到更准确的目标检测结果。

根据一些实施例，步骤S605、基于真实类别、真实目标框、预测类别和预测目标框及其预测置信度，计算损失函数可以包括：计算真实类别和预测类别的交叉熵损失函数，计算真实目标框和预测目标框的IoU损失函数，计算预测置信度的损失，并将上述三种损失函数加权求和，得到神经网络的损失函数。可以理解的是，上述仅是一种损失计算方法，每一组也可以使用多种不同的损失计算方法，例如还可以通过真实目标框和预测目标框各自的中心坐标与宽高比分别计算中心坐标损失函数和宽高损失函数，再将中心坐标损失函数和宽高损失函数加权求和得到与目标框相应的损失函数。

根据本公开的另一方面，还提供一种目标检测装置。如图8所示，目标检测装置800可以包括：第一图像获取模块801，被配置用于获取待检测图像；第二图像获取模块802，被配置用于获取与待检测图像相应的背景图像；第一目标检测子模块803，被配置用于而分别基于待检测图像和背景图像，输出待检测图像的特征图和背景图像的特征图；以及第二目标检测子模块804，被配置用于基于待检测图像的特征图和背景图像的特征图，输出目标检测结果。

根据一些实施例，如图9所示，目标检测装置900还可以包括：第三目标检测子模块901，被配置用于基于待检测图像的特征图，输出空间上被强化的待检测图像的特征图；第四目标检测子模块902，被配置用于基于背景图像的特征图，输出通道上被强化的背景图像的特征图。

目标检测装置900的模块801-804和901-902的操作分别于前面描述的步骤S101-S104和S204-S205的操作类似，在此不做赘述。

根据一些实施例，如图9所示，目标检测装900还可以包括：摄像机903，被配置用于获取视频帧。摄像机903可以但不限于为监控摄像机、固定摄像机等图像或视频获取设备。

根据本公开的另一方面，还提供一种电子设备，可以包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的目标检测方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述的目标检测方法。

参见图9所示，现将描述计算设备10000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备10000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述目标检测方法可以全部或至少部分地由计算设备10000或类似设备或系统实现。

计算设备10000可以包括(可能经由一个或多个接口)与总线10002连接或与总线10002通信的元件。例如，计算设备10000可以包括总线10002、一个或多个处理器10004、一个或多个输入设备10006以及一个或多个输出设备10008。一个或多个处理器10004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备10006可以是能向计算设备10000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备10008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备10000还可以包括非暂时性存储设备10010或者与非暂时性存储设备10010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备10010可以从接口拆卸。非暂时性存储设备10010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备10000还可以包括通信设备10012。通信设备10012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备10000还可以包括工作存储器10014，其可以是可以存储对处理器10004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器10014中，包括但不限于操作系统10016、一个或多个应用程序10018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序10018中，并且上述目标检测方法可以通过由处理器10004读取和执行一个或多个应用程序10018的指令来实现。更具体地，上述目标检测方法中，步骤S101-步骤S106可以例如通过处理器10004执行具有步骤S101-步骤S106的指令的应用程序10018而实现。此外，上述目标检测方法中的其它步骤可以例如通过处理器10004执行具有执行相应步骤中的指令的应用程序10018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备10010)中，并且在执行时可以被存入工作存储器10014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备10000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统10000的其他组件也可以类似地分布。这样，计算设备10000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种目标检测方法，包括：

获取待检测图像；

获取与所述待检测图像相应的背景图像；

将所述待检测图像和所述背景图像分别输入第一目标检测子模型，获取所述第一目标检测子模型输出的所述待检测图像的特征图和所述背景图像的特征图，包括：

选取所述第一目标检测子模型的多个层，所述第一目标检测子模型为卷积神经网络；

将所述待检测图像输入所述第一目标检测子模型，获取所述多个层输出的所述待检测图像的多个子特征图；

将所述待检测图像的多个子特征图融合，得到所述待检测图像的特征图；

将所述背景图像输入所述第一目标检测子模型，获取所述多个层输出的所述背景图像的多个子特征图；以及

将所述背景图像的多个子特征图融合，得到所述背景图像的特征图；以及

将所述待检测图像的特征图和所述背景图像的特征图输入第二目标检测子模型，获取所述第二目标检测子模型输出的目标检测结果，其中，所述第二目标检测子模型为检测头，所述目标检测结果包括所述待检测图像中的待检测目标的类别、标识所述待检测目标的位置与大小的目标框以及所述目标框的预测置信度中的至少一者。

2.如权利要求1所述的目标检测方法，还包括：

将所述待检测图像的特征图输入第三目标检测子模型，获取所述第三目标检测子模型输出的空间上被强化的待检测图像的特征图；以及

将所述背景图像的特征图输入第四目标检测子模型，获取所述第四目标检测子模型输出的通道上被强化的背景图像的特征图。

3.如权利要求1-2中任一项所述的目标检测方法，其中，所述将所述待检测图像的特征图和所述背景图像的特征图输入第二目标检测子模型，获取所述第二目标检测子模型输出的目标检测结果包括：

将所述待检测图像的特征图和所述背景图像的特征图沿通道方向合并，得到合并特征图；以及

将所述合并特征图输入所述第二目标检测子模型，获取所述第二目标检测子模型输出的目标检测结果。

4.如权利要求1所述的目标检测方法，其中，所述获取待检测图像包括：

从多个视频帧中选取一帧作为待检测图像，其中，所述多个视频帧都是由摄像机在第一拍摄条件下拍摄的。

5.如权利要求4所述的目标检测方法，其中，所述第一拍摄条件限定了下列拍摄参数中的至少一者：摄像机位置、摄像机视角、摄像机旋转角度和画面缩放大小。

6.如权利要求4或5所述的目标检测方法，其中，所述获取与所述待检测图像相应的背景图像包括：

判断背景图像库中是否包括在所述第一拍摄条件下拍摄的背景图像；

响应于所述背景图像库中不包括在所述第一拍摄条件下拍摄的背景图像，基于所述多个视频帧进行背景建模，生成拍摄参数符合所述第一拍摄条件的第一背景图像；以及

将所述第一背景图像作为与所述待检测图像相应的背景图像。

7.如权利要求6所述的目标检测方法，还包括：

将所述第一背景图像存入所述背景图像库中，并设置与所述第一背景图像相应的最大保存时间。

8.如权利要求6所述的目标检测方法，其中，所述获取与所述待检测图像相应的背景图像还包括：

响应于所述背景图像库中包括在所述第一拍摄条件下拍摄的背景图像，将所述在第一拍摄条件下拍摄的背景图像作为与所述待检测图像相应的背景图像。

9.一种神经网络的训练方法，所述神经网络包括第一目标检测子模型和第二目标检测子模型，所述训练方法包括：

获取样本图像，并标记所述样本图像包括的目标的真实类别和真实目标框；

获取与所述样本图像相应的背景图像；

将所述样本图像和所述背景图像分别输入所述第一目标检测子模型，获取所述第一目标检测子模型输出的所述样本图像的特征图和所述背景图像的特征图，包括：

选取所述第一目标检测子模型的多个层；

将所述样本图像输入所述第一目标检测子模型，获取所述多个层输出的所述样本图像的多个子特征图；

将所述样本图像的多个子特征图融合，得到所述样本图像的特征图；

将所述背景图像的多个子特征图融合，得到所述背景图像的特征图；

将所述样本图像的特征图和所述背景图像的特征图输入所述第二目标检测子模型，获取所述第二目标检测子模型输出的预测类别和预测目标框及其预测置信度；

基于所述真实类别、所述真实目标框、所述预测类别和所述预测目标框及其预测置信度，计算损失函数；以及

基于所述损失函数，调整所述第一目标检测子模型和所述第二目标检测子模型的参数。

10.如权利要求9所述的训练方法，其中，所述神经网络还包括第三目标检测子模型和第四目标检测子模型；

其中，所述训练方法还包括：

将所述样本图像的特征图输入所述第三目标检测子模型，获取所述第三目标检测子模型输出的空间上被强化的样本图像的特征图；

将所述背景图像的特征图输入所述第四目标检测子模型，获取所述第四目标检测子模型输出的通道上被强化的背景图像的特征图；以及

在计算损失函数后，基于所述损失函数，调整所述第一目标检测子模型、所述第二目标检测子模型、所述第三目标检测子模型和所述第四目标检测子模型的参数。

11.一种目标检测装置，包括：

第一图像获取模块，被配置用于获取待检测图像；

第二图像获取模块，被配置用于获取与所述待检测图像相应的背景图像；

第一目标检测子模块，被配置用于分别基于所述待检测图像和背景图像，输出所述待检测图像的特征图和所述背景图像的特征图，包括：

选取第一目标检测子模型的多个层，所述第一目标检测子模型为卷积神经网络；

第二目标检测子模块，被配置用于基于所述待检测图像的特征图和所述背景图像的特征图，输出目标检测结果，其中，第二目标检测子模型为检测头，所述目标检测结果包括所述待检测图像中的待检测目标的类别、标识所述待检测目标的位置与大小的目标框以及所述目标框的预测置信度中的至少一者。

12.如权利要求11所述的目标检测装置，还包括：

第三目标检测子模块，被配置用于基于所述待检测图像的特征图，输出空间上被强化的待检测图像的特征图；以及

第四目标检测子模块，被配置用于基于所述背景图像的特征图，输出通道上被强化的背景图像的特征图。

13.如权利要求12所述的目标检测装置，还包括：

摄像机，被配置用于获取视频帧。

14.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的方法。

15.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-10中任一项所述的方法。