CN110222686B

CN110222686B - 物体检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110222686B
Application number: CN201910446799.XA
Authority: CN
Inventors: 戴宇榮; 范琦; 卓炜; 沈小勇; 賈佳亞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2021-05-07
Anticipated expiration: 2039-05-27
Also published as: CN110222686A

Abstract

本申请实施例公开了一种物体检测方法、装置、计算机设备和存储介质；本申请实施例获取待检测图像和已知物体类型的物体样本图像；分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对特征信息和样本特征信息进行相互关联操作，得到第一注意力特征信息；基于第一注意力特征信息检测待检测图像中的候选物体区域；从特征信息中提取候选物体区域内的特征信息，得到第一区域特征信息，并根据样本特征信息获取样本物体区域内的第二区域特征信息；基于第一区域特征信息和第二区域特征信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。该方案可以提升物体检测效率。

Description

物体检测方法、装置、计算机设备和存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种物体检测方法、装置、计算机设备和存储介质。

背景技术

物体检测是指识别或检测出图像中每个物体的类型。随着用户对图像处理要求的不断提升，物体检测技术的应用也愈加广泛。目前常用的物体检测方式是利用深度学习网络模型来实现物体检测。具体地，采用大量标注了某种物体类型的训练样本对深度学习网络模型进行训练，然后，将训练后的模型应用到物体检测任务中，通过训练后的模型检测出图像中的物体类型。

然而，目前物体检测方式首先需要大量高质量的训练样本，这些样本需要耗费大量的人力物力、时间去标注得到；并且由于采用大量训练样本对模型训练，模型的训练也需要耗费很多时间，因此物体检测的实现过程比较繁琐耗时，物体检测的效率较低。

发明内容

本申请实施例提供一种物体检测方法、装置、计算机设备和存储介质，可以提高物体检测的效率。

本申请实施例提供一种物体检测方法，包括：

获取待检测图像和已知物体类型的物体样本图像；

分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；

对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；

基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；

从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；

基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

相应的，本申请实施例还提供一种物体检测装置，包括：

获取单元，用于获取待检测图像和已知物体类型的物体样本图像；

第一特征提取单元，用于分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；

关联操作单元，用于对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；

区域检测单元，用于基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；

第二特征提取单元，用于从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；

确定单元，用于基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述确定单元，包括：

匹配度获取子单元，用于基于所述第一区域特征信息和所述第二区域特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的匹配度信息；

确定子单元，用于基于所述匹配度信息从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述匹配度获取子单元，用于对所述第一区域特征信息和所述第二区域特征信息进行特征融合，得到融合后特征信息；基于所述融合后特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第一匹配度信息；对所述第一区域特征信息和所述第二区域特征信息进行相互关联操作，得到第二注意力特征信息；基于所述第二注意力特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第二匹配度信息；

所述确定子单元，用于基于所述第一匹配度信息和所述第二匹配度信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述第一匹配度信息包括第一子匹配度信息和第二子匹配度信息；所述匹配度获取子单元，用于在所述融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息；对所述建立关系后特征信息进行分类处理，得到分类结果，所述分类结果包括所述第一区域特征信息与所述第二区域特征信息之间的第一子匹配度信息；对所述融合后特征信息进行下采样操作，得到采样后特征信息；对采样后特征信息进行分类，得到所述第一区域特征信息与所述第二区域特征信息之间的第二子匹配度信息。

在一些实施例中，所述匹配度获取子单元，用于采用图块关系模块中第一平均采样层对所述融合后特征信息进行平均下采样操作，所述图块关系模块包括：依次连接的第一平均采样层、卷积网络以及第二平均采样层；采用所述卷积网络对下采样后特征信息进行卷积运算，得到卷积特征信息；采用所述第二平均采样层从所述卷积特征信息进行平均下采样操作，得到建立关系后特征信息。

在一些实施例中，所述分类结果还包括候选物体区域的位置调整量信息；所述物体检测装置还包括调整单元；

所述调整单元，用于根据所述位置调整量信息对所述候选物体区域的位置进行调整，得到调整后候选物体区域；

所述确定子单元，用于基于所述第一子匹配度信息、第二子匹配度信息和所述第二匹配度信息，从所述调整后候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述匹配度获取子单元，用于将所述样本特征信息作为卷积核，在不同颜色通道对所述特征信息进行卷积运算，得到第一注意力特征信息。

在一些实施例中，第一特征提取单元，包括：

第一子特征提取单元，用于采用第一残差网络对所述待检测图像进行特征提取，得到待检测图像的特征信息；

第二子特征提取单元，用于采用第二残差网络对所述物体样本图像进行特征提取，得到物体样本图像的样本特征信息，其中，所述第一残差网络与所述第二残差网络为孪生网络。

在一些实施例中，所述第一残差网络包括依次连接的多个残差卷积子网络；

第一子特征提取单元，用于：从多个残差卷积子网络中确定目标残差卷积子网络，其中，目标残差卷积子网络包括多个残差模块；通过所述目标残差卷积子网络、以及所述目标残差卷积子网络之前的残差卷积子网络，对所述待检测图像进行特征提取，得到待检测图像的特征信息；

所述关联操作单元，用于通过所述目标残差卷积子网络中的最后一个残差模块，对所述特征信息和所述样本特征信息进行相互关联操作，得到初始注意力特征信息；通过所述目标残差卷积子网络之后的残差卷积子网络，对所述初始注意力特征信息进行特征提取，得到第一注意力特征信息。

在一些实施例中，所述区域检测单元，包括：

选取子单元，用于基于滑动窗口方式从所述第一注意力特征信息对应的特征图中选取所有可能包含物体的可能物体区域；

区域特征提取子单元，用于对所述可能物体区域进行特征提取，得到可能物体区域的特征信息；

区域确定子单元，用于基于所述可能物体区域的特征信息从可能物体区域中确定待检测图像中的候选物体区域。

相应的，本申请还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现本申请实施例提供的任一种物体检测方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的任一种物体检测方法中的步骤。

本申请实施例可以获取待检测图像和已知物体类型的物体样本图像；分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。由于该方案无需对模型训练，不依赖大量样本训练，只需给定待检测图像以及少量已知类型物体的样本图像，便可以将待检测图像中与样本图像的物体具有相同类型的物体检测出来，省去标记大量训练数据和训练模型的时间和成本，大大提升了物体检测效率以及节省了资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的物体检测方法的场景示意图；

图1b是本申请实施例提供的物体检测方法的流程图；

图1c是本申请实施例提供的医学影像分割方法中感受野的示意图；

图2a是本申请实施例提供的残差网络的结构示意图；

图2b是本申请实施例提供的残差模块的结构示意图；

图2c是本申请实施例提供的残差网络的另一结构示意图；

图2d是本申请实施例提供的特征关联操作示意图；

图2e是本申请实施例提供的候选区域生成示意图；

图3是本申请实施例提供的物体检测的效果图；

图4a是本申请实施例提供的小样本检测模型结构示意图；

图4b是本申请实施例提供的物体检测方法的流程图；

图4c是本申请实施例提供的采样小样本检测模型检测物体的示意图；

图5a是本申请实施例提供的物体检测装置的结构示意图；

图5b是本申请实施例提供的物体检测装置的另一结构示意图；

图5c是本申请实施例提供的物体检测装置的另一结构示意图；

图5d是本申请实施例提供的物体检测装置的另一结构示意图；

图5e是本申请实施例提供的物体检测装置的另一结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种物体检测方法、装置、计算机设备和存储介质。其中，该物体检测装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

所谓物体检测，是指识别或检测出图像中每个物体的类型、以及物体所在区域，在实际应用中，还可以将物体所在区域标记出来。例如，以矩形框标记物体所在区域。

例如，参见图1a，以该物体检测装置集成在计算设备中为例，该计算机设备可以获取待检测图像和已知物体类型的物体样本图像；分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对特征信息和样本特征信息进行相互关联操作，得到第一注意力特征信息；基于第一注意力特征信息检测待检测图像中的候选物体区域；从特征信息中提取候选物体区域内的特征信息，得到第一区域特征信息，并根据样本特征信息获取样本物体区域内的第二区域特征信息；基于第一区域特征信息和第二区域特征信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从物体检测装置的角度进行描述，该物体检测装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、微型处理盒子、或者其他设备等。

如图1b所示，该物体检测方法的具体流程可以如下：

101、获取待检测图像和已知物体类型的物体样本图像。

其中，待检测图像可以为需要进行物体检测的图像，可以称为Query image(疑问图像)，采用本申请实施例方法可以将待检测图像中的物体检测出来。该待检测图像可以由用户输入，也可以从其他途径获取，如通过网络下载等。

其中，物体样本图像可以为某个类型物体的图像，比如用户感兴趣的物体的物体图像；该物体样本图像在进行物体检测时使用的物体样本图像，其中，该物体样本图像的物体类型是已知，在一实施例中，该物体样本图像可以为标注了物体类型的物体样本图像。本申请实施例方法是：将待检测图像中具有与物体样本相同类别(或类型)的所有物体检测出来。实际应用中该物体样本图像可以为称为Support image(支持图像)。该物体样本图像可以由用户输入，也可以从其他途径获取，如通过网络下载等。又比如，还可以从其他图像中提取。

例如，当需要检测出图像1中A类型的物体时，可以获取A类型物体的物体图像2，此时图像1为待检测图像，图像2为物体样本图像。譬如，当用户需要检测图像1中自行车时，可以获取自行车的图像2；然后，采用本申请实施例方法物体检测方法将图像1中的所有自行车检测出来。

其中，物体样本图像包括物体区域，物体区域包含已知物体类型的物体，该物体样本图像的尺寸可以基于物体区域尺寸设定。比如，将物体轮廓区域向外延伸预定尺寸构成矩形图像，从而得到物体样本图像。

102、分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息。

其中，图像(待检测图像或物体样本图像)的特征信息为图像的高层特征信息，所谓“高层特征”一般可以包含与类别、以及高级抽象等相关的信息。比如，在一实施例中，当采用深度神经网络提取图像特征时，该深度神经网络最后输出的特征图即为高层特征信息。

在一实施例中，可以采用不同感受野分别对待检测图像和物体样本图像进行特征提取，得到每检测图像的特征信息、和物体样本图像的样本特征信息。

其中，在卷积神经网络中，感受野决定了某一层输出结果中一个元素所对应的输入层的区域大小。也就是说，感受野是卷积神经网络中的某一层输出结果(即特征图，feature map，也称为特征信息)上的元素点在输入影像上映射的大小，比如，参见图1c。一般的，第一层卷积层(比如C₁)的输出特征影像素的感受野的大小等于卷积核的大小(滤波器，Filter size)，而高层卷积层(比如C₄等)的感受野大小则和它之前所有层的卷积核大小和步长有关系，因此，基于不同的感受野，便可以捕获到不同级别的信息，进而达到提取不同尺度特征信息的目的；也就是说，通过采用不同感受野对该切片进行特征提取后，可以得到每一切片的多个尺度的高层特征信息和多个尺度的低层特征信息。

在一实施例中，待检测图像和物体样本图像的特征提取方式可以多种，比如，可以采用卷积神经网络分别提取待检测图像和物体样本图像的特征。又比如，在一实施例中，为了提升特征提取的精确性，可以采用残差网络分别提取待检测图像和物体样本图像的特征信息。

比如，步骤“分别对待检测图像和样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息”，可以包括：

采用第一残差网络对待检测图像进行特征提取，得到待检测图像的特征信息；

采用第二残差网络对物体样本图像进行特征提取，得到物体样本图像的样本特征信息。

在一实施例中，为了节省资源，其中，第一残差网络与第二残差网络为孪生网络(Siamese Network)。也即，第一残差网络与第二残差网络结构相同，并且权重共享。

孪生网络(Siamese Network)，是指使用权重共享的网络对两个不同的输入同时进行处理，这个权重共享的网络就是孪生网络。

参考图2a，孪生网络包括第一残差网络和第二残差网络，采用第一残差网络对Query image进行特征提取，得到Query image的特征图(feature map)；采用第二残差网络对Support image进行特征提取，得到Support image的特征图(feature map)。

其中，残差网络可以包括依次连接的多个残差卷积子网络(Conv)，每个残差卷积子网络可以包括至少一个残差模块(block)，其中，残差模块可以由串联的卷积层构成，每个卷积层可以接有激活函数层和归一化层等。

其中，其中，第一残差网络和第二残差网络的网络结构具体可以根据实际应用的需求而定，比如，在一实施例中，残差网络可以为ResNet50网络，网络结构如表1所示，包括残差卷积子网络Conv1、残差卷积子网Conv2_x、残差卷积子网Conv3_x、残差卷积子网Conv4_x、残差卷积子网Conv5_x。其中，Conv3_x和Conv4_x的第一层的步长stride都为2。每个卷积层之后都接有ReLU(激活函数)层和Batch Normalization(归一化)层。

其中，每个残差模块(block)的结构如图2b所示，包括卷积核分别为(1×1，64)、(3×3，64)、(1×1，256)的卷积层。

表1

在一实施例中，可以待检测图像的特征信息可以为低层特征信息，低层特征信息是相对于高层特征信息来说的，可以指的是残差网络在对待检测图像进行特征提取的过程中，所得到的特征图，所谓“低层特征”一般可以包含诸如边缘和纹理等图像细节。

比如，在采用残差网络提取待检测图像的特征时，高层特征为残差网络最终输出的特征图，即最后一个残差卷积子网络输出的特征图，而低层特征可以为残差网络中除最后一个残差卷积子网络输出的特征图以外的特征图，比如，第一个、第二个等残差卷积子网络输出的特征图。

因此，在一实施例中，可以确定输出用于生成注意力特征的低层特征信息的目标残差卷积子网络，然后，通过该目标残差卷积子网络和其之前的子网络提取待检测图像的特征信息。比如，步骤“采用第一残差网络对待检测图像进行特征提取，得到待检测图像的特征信息”，可以包括：

从多个残差卷积子网络中确定目标残差卷积子网络，其中，目标残差卷积子网络包括多个残差模块；

通过目标残差卷积子网络、以及目标残差卷积子网络之前的残差卷积子网络，对待检测图像进行特征提取，得到待检测图像的特征信息。

例如，参考图2a和图2c，通过残差网络中残差卷积子网络Conv1、残差卷积子网Conv2_x、残差卷积子网Conv3_x、残差卷积子网Conv4_x依次提取query image的特征图(feature map)，在Conv4_x的最后一层即在Conv4_6残差模块输出特征图，并基于输出的特征图生成注意力特征图(attention feature map)。

103、对特征信息和样本特征信息进行相互关联操作，得到第一注意力特征信息。

其中，注意力特征信息为关注包含物体的区域的特征信息，注意力特征信息对应物体区域具有更强烈的响应，实际应用中，注意力特征信息可以包括注意力特征图(attention feature map)。

其中，相互关联操作可以为深度相互关联操作(Depth-wise Crosscorrelation)。其中，Depth-wise Cross correlation可以是指将物体样本图像(supportimage)的特征图作为滤波器(即卷积核)在待检测图像(query image)的特征图上逐通道进行一对一的卷积。物体样本图像(support image)和待检测图像(query image)的特征图具有相同的输入通道数，并且输出通道数与输入通道数相同。

也即，步骤“对特征信息和样本特征信息进行相互关联操作”，可以包括：将样本特征信息作为卷积核，在不同颜色通道对特征信息进行卷积运算，得到第一注意力特征信息。具体地，以样本特征信息为卷积核在待检测图像(query image)的特征图上逐通道进行一对一的卷积。

参考图2d，对support image的特征图(例如Conv4_x的最后一层即Conv4_6输出的qsupport image的特征图)进行下采样操作如全局下采样操作(global pooling)或者平均下采样操作(average pooling)，得到采样后特征图像，例如使用global pooling将support image的feature map变为1x1xC(C是通道数，下同)大小；然后，将query image的采样后特征图像作为滤波器与query image的feature map进行depth-wise crosscorrelation操作，生成与query feature map具有相同尺寸的注意力特征图attentionfeature map。该注意力特征图attention feature map用于检测候选区域。

例如，参考图2d和图2c，在Conv4_6残差模块对Conv4_6残差模块输出的queryimage的特征图进行平均下采样操作，然后，进行depth-wise cross correlation操作，生成注意力特征图attention feature map。

在一实施例中，步骤“对特征信息和样本特征信息进行相互关联操作，得到第一注意力特征信息”，可以包括：

通过目标残差卷积子网络中的最后一个残差模块，对特征信息和样本特征信息进行相互关联操作，得到初始注意力特征信息；

通过目标残差卷积子网络之后的残差卷积子网络，对初始注意力特征信息进行特征提取，得到第一注意力特征信息。

例如，参考图2d和图2c，在Conv4_6残差模块对Conv4_6残差模块输出的queryimage的特征图进行平均下采样操作，然后，进行depth-wise cross correlation操作，生成初始的注意力特征图attention feature map；然后将初始的attention feature map输入至最后一个残差卷积子网络Conv5_x进行卷积操作，得到最终的注意力特征图attentionfeature map。

104、基于第一注意力特征信息检测待检测图像中的候选物体区域。

其中，候选物体区域为待检测图像中物体所在的候选区域，在实际应用中，利用矩形框标记候选物体区域时，该候选物体区域可以称为矩形框。

其中，基于注意力特征信息检测候选物体区域的方式有多种，比如，在一实施例中，可以基于RPN(Region Proposal Network，候选区域网络)来实现。

具体地，在一实施例中，步骤“基于第一注意力特征信息检测待检测图像中的候选物体区域”，可以包括：

基于滑动窗口方式从第一注意力特征信息对应的特征图中选取所有可能包含物体的可能物体区域；

对可能物体区域进行特征提取，得到可能物体区域的特征信息；

基于可能物体区域的特征信息从可能物体区域中确定待检测图像中的候选物体区域。

例如，参考图2e，RPN可以包括RPN头部模块、中间层(intermediate layer)RPN分类层(cls layer)、回归层(reg layer)；RPN头部模块在卷积特征图(conv feature map)上滑动窗口(sliding widow)确定所有可能包含物体的可能物体区域即图2e右边的锚框(anchor boxes)；通过中间层从可能物体区域如锚框(anchor boxes)提取特征如提取256维的特征向量(256-d)；然后，通过分类层预测可能区域的物体类型、通过回归层预测可能物体区域的位置信息(如坐标coordinaes)；根据可能区域的物体类型和位置信息确定包含物体的候选区域。例如，可以预测每个锚框属于物体类型的得分(scores)、以及每个锚框的4个坐标(coordinae)，该4个坐标为锚框的四个点的三维坐标如四个顶点的坐标等。其中，k为可能物体区域的数量，即锚框的数量。

本申请实施例可以添加RPN基于attention feature map在待检测图像queryimage中生成候选物体区域如物体矩形框。

105、从特征信息中提取候选物体区域内的特征信息，得到第一区域特征信息，并根据样本特征信息获取样本物体区域内的第二区域特征信息。

其中，第一区域特征信息可以为从待检测图像中位于候选物体区域(如物体矩形框)内的特征信息，可以从待检测图像的特征信息中提取。比如，从query image的featuremap中提取的候选物体区域(内的特征。

具体地，根据候选物体区域的位置信息(位置信息可以通过候选区域检测得到)，将候选物体区域投射到待检测图像的特征信息中；对投射区域内的特征信息进行下采样操作，得到预定尺寸的区域特征信息。

例如，特征信息为特征图为例，可以根据候选物体区域(如物体矩形框)的位置信息将候选物体区域投射到query image的feature map上，采用RoI Pooling(Region ofinterest pooling，感兴趣区域池化)方式提取query image的候选物体区域(如物体矩形框)内的特征，得到区域特征。

RoI Pooling:是指根据输入矩形框的位置在特征图中将相应区域池化为固定尺寸的特征图。

其中，第二区域特征信息可以为物体样本图像中样本物体区域内的区域特征信息，其中，样本物体区域为物体样本图像中物体所在的区域，在实际应用中采用矩形框标记区域时，可以称为物体矩形框。

本申请第二区域特征信息可以基于物体样本图像的特征信息获取，获取方式可以有多种，比如，在一实施例中，可以直接将物体样本图像的样本特征信息作为样本物体区域内的第二区域特征信息。例如，当输入的support image为样本物体的区域图像时，此时，可以直接将提取的support image的feature map作为样本物体区域内的区域特征图。

又比如，在一实施例中，根据样本物体区域的位置信息(位置信息可以为已知，比如输入已知物体区域位置的support image)，将样本物体区域投射到物体样本图像的样本特征信息中；对投射区域内的特征信息进行下采样操作，得到预定尺寸的区域特征信息，即得到第二区域特征信息。

例如，特征信息为特征图为例，可以根据已知的样本物体区域(如物体矩形框)的位置信息将样本物体区域投射到query image的feature map上，采用RoI Pooling(Regionof interest pooling，感兴趣区域池化)方式提取support image的样本物体区域(如物体矩形框)内的特征，得到support image的区域特征。

在一实施例中，为了提升物体检测效率和准确性，物体样本图像和待检测图像的特征信息的尺寸相同，譬如，support image的feature map与query image矩形框的特征尺寸相同。

例如，参考图2a，可以采用第一残差网络对query image进行特征提取，得到queryimage的特征信息如query image的feature map，然后，基于query image的特征信息生成注意力特征信息，根据注意力特征信息检测query image的候选物体区域，采用RoIPooling从query image的特征信息如query image的feature map提取预定尺寸的第一区域特征。

同时可以采用第二残差网络对物体样本图像support image进行特征提取，得到物体样本图像的样本特征信息如support image的feature map，然后，对样本特征信息如support image的feature map进行RoI Pooling处理，得到预定尺寸的第二区域特征信息。第一区域特征信息与第二区域特征信息的尺寸相同。

例如，support image的feature map、query image的区域特征图均可以为7×7×C(通道数)的特征图。

106、基于第一区域特征信息和第二区域特征信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

其中，目标物体区域为候选物体区域中物体类型与物体样本图像的物体类型相同的区域。

比如，可以基于query image的第一区域特征信息和support image的第二区域特征信息，从候选物体区域中，确定物体类型与support image物体类型相同的候选物体区域，将确定的候选物体区域作为目标物体区域。也即，基于query image的第一区域特征信息和support image的第二区域特征信息，将query image中具有与support image相同类别的所有物体检测出来。

其中，确定目标物体区域的方式可以有多种，比如，可以计算区域特征信息之间的匹配度信息，基于匹配度信息来确定目标物体区域。

比如，在一实施例中，基于第一区域特征信息和第二区域特征信息，获取第一区域特征信息与第二区域特征信息之间的匹配度信息；基于匹配度信息从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

其中，匹配度信息为用于表征或度量第一区域特征信息与第二区域特征信息之间匹配程度的信息，比如，可以为匹配得分、匹配概率等等。

为了提升物体检测的准确性，可采用多个维度的匹配度信息来确定目标物体区域，在一实施例中，可以通过对第一区域特征信息和第二区域特征信息进行不同的处理，得到多个匹配度信息，从而基于多个匹配度信息确定目标物体区域。

比如，步骤“基于第一区域特征信息和第二区域特征信息，获取第一区域特征信息与第二区域特征信息之间的匹配度信息”，可以包括：

对第一区域特征信息和第二区域特征信息进行特征融合，得到融合后特征信息；

基于融合后特征信息，获取第一区域特征信息与第二区域特征信息之间的第一匹配度信息；

对第一区域特征信息和第二区域特征信息进行相互关联操作，得到第二注意力特征信息；

基于第二注意力特征信息，获取第一区域特征信息与第二区域特征信息之间的第二匹配度信息。

此时，步骤“基于匹配度信息从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域”，可以包括：基于第一匹配度信息和第二匹配度信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

其中，特征融合的方式可以有多种，比如，特征串联、特征并联等。比如，可以将第一区域特征信息和第二区域特征信息在通道维度上并联起来，得到并联后特征信息(即融合后特征信息)。例如，在使用RoI Pooling分别提取query image和support image矩形框内的特征之后，将query image矩形框内feature和support image矩形框内的feature并联起来(在通道维度上)。

在一实施例中，为了提升物体检测的准确性，可以基于融合后特征信息生成多个匹配度信息，也即，第一匹配度信息可以包括多个子匹配度信息。比如，第一匹配度信息可以包括第一子匹配度信息和第二子匹配度信息。其中，第一、二子匹配度信息可以通过对融合后特征信息进行两种不同的特征处理来得到。比如，步骤“基于融合后特征信息，获取第一区域特征信息与第二区域特征信息之间的第一匹配度信息”，可以包括：

在融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息；

对建立关系后特征信息进行分类处理，得到分类结果，分类结果包括第一区域特征信息与第二区域特征信息之间的第一子匹配度信息；

对融合后特征信息进行下采样操作，得到采样后特征信息；

对采样后特征信息进行分类，得到第一区域特征信息与第二区域特征信息之间。

本申请实施例可以通过刻画或建立物体之间的位置映射关系，可以提升物体检测效果。目前大部分的目标检测(object detection)算法都是独立地检测图像中的object，但如果模型能学到object之间的关系会对于检测效果提升会有帮助，因此本申请实施例在在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容(context)来优化检测效果，这种关系既包括相对位置关系也包括图像特征关系。

在一实施例中，可以通过图块关系模块(Patch Relation Module)来建立映射关系。具体地，步骤“在融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息”，可以包括：

采用图块关系模块中第一平均采样层对融合后特征信息进行平均下采样操作，图块关系模块包括：依次连接的第一平均采样层、卷积网络以及第二平均采样层；

采用卷积网络对下采样后特征信息进行卷积运算，得到卷积特征信息；

采用第二平均采样层从卷积特征信息进行平均下采样操作，得到建立关系后特征信息。

例如，图块关系模块(Patch Relation Module)的结构可以参考下面的表2:

表2

本申请实施例可在得到建立关系后特征信息之后，可以采用全连接层对其进行分类，便可以得到第一区域特征信息与第二区域特征信息之间的第一子匹配度信息如匹配得分(score)。

此外，本申请实施例还可以在将第一区域特征信息与第二区域特征信息融合后，对融合后特征信息进行下采样操作(如用average pooling)，将其转换为相应尺寸的特征信息，然后，对转换后特征信息进行分类如采用全连接层(FC)分类。在一实施例中，为了提升分类精确性，可以采用多个全连接层来分类。例如，可以采用多层感知机(MLP,Multilayer Perceptron)来进行分类，得到第二子匹配度信息如匹配得分。

此外，本申请实施例还可以对第一区域特征信息和第二区域特征信息进行相互关联操作，得到第二注意力特征信息，然后，对第二注意力特征信息分类如采用全连接层分类，得到另一种匹配度信息即第二匹配度信息。

其中，注意力特征信息的生成可以参考上述实施例的描述。

在一实施例中，在对建立关系后特征信息进行分类处理，还可以得到候选物体区域的位置调整量信息；也即，分类结果还包括候选物体区域的位置调整量信息。为了提升物体检测的准确性，还可以：分类结果还包括候选物体区域的位置调整量信息。

其中，位置调整量信息可以包括候选物体区域的位置偏移信息等等。

此时，步骤“基于第一匹配度信息和第二匹配度信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域”，可以包括：基于第一子匹配度信息、第二子匹配度信息和第二匹配度信息，从调整后候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

例如，在得到query image feature(第一区域特征信息)和support imagefeature(第二区域特征信息)之后，可以采用三种方式来处理这两种特征，得到三种匹配度得分，具体如下：

(1)、将query image feature和support image feature在并联起来(在通道维度上)，然后使用一个Patch Relation Module(图块关系模块)对其进行处理，最后使用一个全连接层得到query image feature和support image feature的匹配得分和这个queryimage矩形框的坐标调整量。其中Patch Relation Module的结构如表2所示。此外，还可以基于坐标调整量对query image的矩形框进行位置调整。

(2)、将query image feature和support image feature在并联起来(在通道维度上)，然后使用average pooling将其变为1x1x2C大小，并使用两个全连接层对其进行处理，最后使用一个全连接层得到query image feature和support image feature的匹配得分。

(3)、将support image feature作为滤波器，与query image的feature map进行depth-wise cross correlation操作，得到1x1xC大小的输出，最后使用一个全连接层得到query image feature和support image feature的匹配得分。

本申请实施例中，通过上述方式可以得到第一匹配度信息和第二匹配度信息，可以对第一匹配度信息和第二匹配度信息进行处理，得到最终匹配度信息，然后，基于最终匹配度信息来确定目标物体区域。

比如，可以第一匹配度值和第二匹配度值进行求和运算、加权平均等运算，得到最终匹配度值，基于最终匹配度值来确定目标物体区域。

譬如，当候选物体区域的匹配度信息包括第一子匹配度值(如匹配得分)、第二子匹配度值、和第二匹配度值的情况下，可以将三种匹配度值进行相加，得到匹配度值总和，当匹配度值总和大于预设阈值时，确定候选物体区域的物体类型与已知物体类型相同；否则不相同。

由上可知，本申请实施例获取待检测图像和已知物体类型的物体样本图像；分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对特征信息和样本特征信息进行相互关联操作，得到第一注意力特征信息；基于第一注意力特征信息检测待检测图像中的候选物体区域；从特征信息中提取候选物体区域内的特征信息，得到第一区域特征信息，并根据样本特征信息获取样本物体区域内的第二区域特征信息；基于第一区域特征信息和第二区域特征信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。由于该方案无需对模型训练，不依赖大量样本训练，只需给定待检测图像以及少量相同类型的物体样本图像，便可以将待检测图像中与样本图像的物体具有相同类型的物体检测出来，省去标记大量训练数据和训练模型的时间和成本，大大提升了物体检测效率以及节省了资源。并且，在面对新类别物体的检测时，也无需任何训练，只需要少数几张相同类别的物体样本图像即可在待检测图像上进行检测，在节省时间和成本的同时，提升了物体检测的适应性。

例如，参考图3，采用本申请实施例提供的物体检测方法，在给定support 1(头盔图像)和query image时，可以将query image中所有相同类别的物体检测出来，即将queryimage中所有头盔检测出来；同样在给定support 2(自行车图像)和query image时，可以将query image中所有相同类别的物体检测出来，即将query image中所有自行车检测出来。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该物体检测装置具体集成在计算机设备、以物体检测方法由小样本检测模型实现为例进行说明。

(一)提供基于深度孪生网络的小样本检测模型。

小样本检测(Few-shot Object Detection):是指只使用很少量的样本训练目标检测模型，并且在进行目标检测时可以根据给定的少量模板物体(即样本物体)将图片中具有相同类别的物体检测出来。

参考图4a，其中，小样本检测模型可以包括：深度孪生网络、第一注意力特征模块、RPN、区域特征提取模块、第一分类支路、第二分类支路、第三分类支路、输出模块等。

其中，深度孪生网络，用于提取待检测图像和物体样本图像的特征信息，可以包括结构相同的两个残差网络(ResNet)，比如ResNet50，具体结构可以参数上述实施例的介绍。

RPN，用于生成候选物体区域，具体结构可以参考上述实施例。

区域特征提取模块，用于分别提取待检测图像和物体样本图像的物体区域内的特征信息；

第一分类支路，用于获取区域特征信息之间的匹配度信息，包括融合模块、PatchRelation Module(图块关系模块)、以及全连接层；

第二分类支路，用于获取区域特征信息之间的匹配度信息，包括池化模块和MPL(包含两个全连接层)；

第三分类支路，用于获取区域特征信息之间的匹配度信息，包括第二注意力特征模块、全连接层(fc)。

(二)、小样本检测模型的训练

(1)、建立训练数据集

从已有的样本图集筛选出用于小样本检测模型的训练数据集；比如煤科院在OpenImage(一种训练数据库)和ImageNet(一种训练数据库)中筛选得到作为小样本检测模型的训练数据集

将训练数据集中的所有图片都进行水平翻转操作生成相应的翻转图片和标签，此时训练集扩大为原有数据集的两倍，将其作为训练数据集。

(2)、模型的参数初始化：

初始化残差网络的参数、以及Patch Relation Module等模块的参数，比如，Conv1-Conv5采用在ImageNet数据集和MS COCO数据集上预训练的ResNet50的参数，新添加的层如Patch Relation Module采用方差为0.01，均值为0的高斯分布进行初始化。

(3)、模型训练

采用基于SGD(Stochastic Gradient Descent)的梯度下降法求解神经网络模型的卷积模板参数w和偏置参数b，在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。在训练时，每次向网络输入一个support image和一个query image，只将query image中与support具有相同类别的物体标记为前景类，并去除其他类别物体的标记(将其视为背景)。

(二)通过该训练后小样本检测模型，便可以对进行物体检测。

如图4b所示，一种物体检测方法，具体流程可以如下：

401、计算机设备获取待检测图像和已知物体类型的物体样本图像。

比如，参考图4c，计算机设备可以获取用户输入的待检测图像Query image以及物体样本图像Support image。

其中，物体样本图像可以为用户感兴趣物体的图像，比如，自行车的图像，其数量可以为一张或者多张。

402、计算机设备通过孪生的第一残差网络、第二残差网络分别提取待检测图像的特征信息、物体样本图像的样本特征信息。

例如，参考图4c，通过第一残差网络ResNet(conv1-4)层提取Query image的feature map；通过第二残差网络ResNet(conv1-4)层提取Support image的feature map。

403、计算机设备通过注意力特征模块对待检测图像的特征信息、物体样本图像的样本特征信息进行相互关联操作，得到第一注意力特征信息。

比如，参考图4a和4c，第一注意力特征模块可以使用global pooling将supportimage的feature map变为1x1xC(C是通道数，下同)大小，然后将其作为滤波器与queryimage的feature map进行depth-wise cross correlation操作，并生成与query featuremap具有相同尺寸的attention feature map。

404、计算机设备采用RPN网络基于第一注意力特征信息检测待检测图像中的候选物体区域。

例如，参考图4a和图4c，可以将生成的attention feature map输入至RPN网络，RPN网络将检测出Query image的候选物体区域如矩形框。

具体地，RPN网络生成候选物体区域的过程可以参考上述实施例的描述。

405、计算机设备通过区域特征提取模块从待检测图像的特征信息中提取候选物体区域内的第一区域特征信息，以及从物体样本图像的样本特征信息中提取样本物体区域内的第二区域特征信息。

具体地，区域内特征提取方式可以参考上述介绍的描述，比如，可以采用Pooling(Region of interest pooling，感兴趣区域池化)方式提取。

例如，参考图4a和图4c，区域特征提取模块可以将RPN产生的矩形框会投射在Query image的feature map如Conv4_6的feature map上，然后使用RoI Pooling分别提取query image和support image矩形框内的特征(其大小为7x7xC)。

406、计算机设备通过第一分类支路对第一区域特征信息和第二区域特征信息进行特征融合，在融合后特征信息中建立物体之间的位置映射关系，对建立关系后特征信息进行分类处理，得到第一区域特征信息与第二区域特征信息之间的匹配度信息。

其中，第一分类支路可以包括融合模块、Patch Relation Module(图块关系模块)、以及全连接层。

比如，参考图4c，第一分类支路可以通过融合模块将第一区域特征信息(queryimage feature)和第二区域特征信息(support image feature)并联起来(在通道维度上)，然后使用一个Patch Relation Module(图块关系模块)对其进行处理，最后使用一个全连接层(fc)进行分类(cls)得到query image feature和support image feature的匹配得分(即cls score)和这个query image矩形框的坐标调整量。

407、计算机设备通过第二分类支路对第一区域特征信息和第二区域特征信息进行特征融合，基于多层感知机对融合后特征信息进行分类，得到第一区域特征信息与第二区域特征信息之间的匹配度信息。

其中，第二分类支路包括融合模块、平均池化模块以及MPL(包含两个全连接层)。其中，第一分类支路和第二分类支路可以共用一个融合模块。

例如，参考图4c，第二分类支路通过融合模块将query image feature和supportimage feature在并联起来(在通道维度上)，然后池化模块使用average pooling将其变为1x1x2C大小，并使用两个全连接层对其进行处理，最后使用一个全连接层得到query imagefeature和support image feature的匹配得分(即cls score)。

408、计算机设备通过第三分类支路对第一区域特征信息和第二区域特征信息进行相互关联操作，得到第二注意力特征信息，并对第二注意力特征信息进行分类，得到第一区域特征信息与第二区域特征信息之间的匹配度信息。

其中，第三分类支路包括：第二注意力特征模块、全连接层；

例如，参考图4c，第三分类支路将support image feature作为滤波器，与queryimage的feature map进行depth-wise cross correlation操作，得到1x1xC大小的输出，最后使用一个全连接层得到query image feature和support image feature的匹配得分。

409、计算机设备根据第一、二、三分类支路输出的匹配特征信息，从候选物体区域中，确定物体类型与已知物体类型相同的目标物体区域。

例如，参考图4c，可以将三个分类支路输出的匹配得分进行相加(score)，得到匹配得分总和，并通过输出模块输出，然后，当匹配得分总和大于预设阈值时，确定候选物体区域的物体类型与物体样本图像Support image的物体类型相同，从而将query image中具有与support image相同类别的所有物体检测出来。

本申请实施例提出了一种基于深度孪生网络的小样本目标检测模型，这种方法可以根据用户给定的少量相同类别的support image，将query image中的所有具有相同类别的物体检测出来。本申请实施例方案可以非常简单快速地应用到新类别新样本的检测中，无需任何训练，只需要少数几张相同类别的support image即可在query image上进行检测，省去了标记大量训练数据和训练模型的时间和成本。

为了更好地实施以上方法，本申请实施例还提供一种物体检测装置，该物体检测装置可以集成在计算机设备，比如服务器或终端等设备中。

例如，如图5a所示，该物体检测装置可以获取单元301、第一特征提取单元502、关联操作单元503、区域检测单元504、第二特征提取单元505和确定单元506等，如下：

获取单元501，用于获取待检测图像和已知物体类型的物体样本图像；

第一特征提取单元502，用于分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；

关联操作单元503，用于对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；

区域检测单元504，用于基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；

第二特征提取单元505，用于从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；

确定单元506，用于基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，参考图5b，所述确定单元506，可以包括：

匹配度获取子单元5061，用于基于所述第一区域特征信息和所述第二区域特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的匹配度信息；

确定子单元5062，用于基于所述匹配度信息从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述匹配度获取子单元5061，用于对所述第一区域特征信息和所述第二区域特征信息进行特征融合，得到融合后特征信息；基于所述融合后特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第一匹配度信息；对所述第一区域特征信息和所述第二区域特征信息进行相互关联操作，得到第二注意力特征信息；基于所述第二注意力特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第二匹配度信息；

所述确定子单元5062，用于基于所述第一匹配度信息和所述第二匹配度信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述第一匹配度信息包括第一子匹配度信息和第二子匹配度信息；所述匹配度获取子单元5061，可以具体用于在所述融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息；对所述建立关系后特征信息进行分类处理，得到分类结果，所述分类结果包括所述第一区域特征信息与所述第二区域特征信息之间的第一子匹配度信息；对所述融合后特征信息进行下采样操作，得到采样后特征信息；对采样后特征信息进行分类，得到所述第一区域特征信息与所述第二区域特征信息之间的第二子匹配度信息。

在一些实施例中，所述匹配度获取子单元5061，用于采用图块关系模块中第一平均采样层对所述融合后特征信息进行平均下采样操作，所述图块关系模块包括：依次连接的第一平均采样层、卷积网络以及第二平均采样层；采用所述卷积网络对下采样后特征信息进行卷积运算，得到卷积特征信息；采用所述第二平均采样层从所述卷积特征信息进行平均下采样操作，得到建立关系后特征信息。

在一些实施例中，参考图5c，所述分类结果还包括候选物体区域的位置调整量信息；所述物体检测装置还包括调整单元507；

所述调整单元507，用于根据所述位置调整量信息对所述候选物体区域的位置进行调整，得到调整后候选物体区域；

所述确定子单元5062，用于基于所述第一子匹配度信息、第二子匹配度信息和所述第二匹配度信息，从所述调整后候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

在一些实施例中，所述匹配度获取子单元5061，用于将所述样本特征信息作为卷积核，在不同颜色通道对所述特征信息进行卷积运算，得到第一注意力特征信息。

在一些实施例中，参考图5d，第一特征提取单元502，可以包括：

第一子特征提取单元5021，用于采用第一残差网络对所述待检测图像进行特征提取，得到待检测图像的特征信息；

第二子特征提取单元5022，用于采用第二残差网络对所述物体样本图像进行特征提取，得到物体样本图像的样本特征信息，其中，所述第一残差网络与所述第二残差网络为孪生网络。

第一子特征提取单元5021，用于：从多个残差卷积子网络中确定目标残差卷积子网络，其中，目标残差卷积子网络包括多个残差模块；通过所述目标残差卷积子网络、以及所述目标残差卷积子网络之前的残差卷积子网络，对所述待检测图像进行特征提取，得到待检测图像的特征信息；

所述关联操作单元503，用于通过所述目标残差卷积子网络中的最后一个残差模块，对所述特征信息和所述样本特征信息进行相互关联操作，得到初始注意力特征信息；通过所述目标残差卷积子网络之后的残差卷积子网络，对所述初始注意力特征信息进行特征提取，得到第一注意力特征信息。

在一些实施例中，参考图5e，所述区域检测单元504，包括：

选取子单元5041，用于基于滑动窗口方式从所述第一注意力特征信息对应的特征图中选取所有可能包含物体的可能物体区域；

区域特征提取子单元5042，用于对所述可能物体区域进行特征提取，得到可能物体区域的特征信息；

区域确定子单元5043，用于基于所述可能物体区域的特征信息从可能物体区域中确定待检测图像中的候选物体区域。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以通过获取单元501获取待检测图像和已知物体类型的物体样本图像；由第一特征提取单元502分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；由关联操作单元503对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；由区域检测单元504基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；由第二特征提取单元505从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；由确定单元506基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。由于该方案无需对模型训练，不依赖大量样本训练，只需给定待检测图像以及少量已知类型物体的样本图像，便可以将待检测图像中与样本图像的物体具有相同类型的物体检测出来，省去标记大量训练数据和训练模型的时间和成本，大大提升了物体检测效率以及节省了资源。

本申请实施例还提供一种计算机设备，如图6所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

计算机设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取待检测图像和已知物体类型的物体样本图像；分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

以上各个操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例的计算机设备在获取待检测图像和已知物体类型的物体样本图像之后，可以分别对待检测图像和物体样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息；对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息；基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域；从所述特征信息中提取所述候选物体区域内的特征信息，得到第一区域特征信息，并根据所述样本特征信息获取样本物体区域内的第二区域特征信息；基于所述第一区域特征信息和所述第二区域特征信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。由于该方案无需对模型训练，不依赖大量样本训练，只需给定待检测图像以及少量已知类型物体的样本图像，便可以将待检测图像中与样本图像的物体具有相同类型的物体检测出来，省去标记大量训练数据和训练模型的时间和成本，大大提升了物体检测效率以及节省了资源。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种物体检测方法中的步骤。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种物体检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种物体检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种物体检测方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物体检测方法，其特征在于，包括：

获取待检测图像和已知物体类型的物体样本图像；

对所述第一区域特征信息和所述第二区域特征信息进行特征融合，得到融合后特征信息；

基于所述融合后特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第一匹配度信息；

对所述第一区域特征信息和所述第二区域特征信息进行相互关联操作，得到第二注意力特征信息；

基于所述第二注意力特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第二匹配度信息；

基于所述第一匹配度信息和所述第二匹配度信息从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

2.如权利要求1所述的物体检测方法，其特征在于，所述第一匹配度信息包括第一子匹配度信息和第二子匹配度信息；基于所述融合后特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第一匹配度信息，包括：

在所述融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息；

对所述建立关系后特征信息进行分类处理，得到分类结果，所述分类结果包括所述第一区域特征信息与所述第二区域特征信息之间的第一子匹配度信息；

对所述融合后特征信息进行下采样操作，得到采样后特征信息；

对采样后特征信息进行分类，得到所述第一区域特征信息与所述第二区域特征信息之间的第二子匹配度信息。

3.如权利要求2所述的物体检测方法，其特征在于，在所述融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息，包括：

采用图块关系模块中第一平均采样层对所述融合后特征信息进行平均下采样操作，所述图块关系模块包括：依次连接的第一平均采样层、卷积网络以及第二平均采样层；

采用所述卷积网络对下采样后特征信息进行卷积运算，得到卷积特征信息；

采用所述第二平均采样层从所述卷积特征信息进行平均下采样操作，得到建立关系后特征信息。

4.如权利要求2所述的物体检测方法，其特征在于，所述分类结果还包括候选物体区域的位置调整量信息；

所述物体检测方法，还包括：

根据所述位置调整量信息对所述候选物体区域的位置进行调整，得到调整后候选物体区域；

基于所述第一匹配度信息和所述第二匹配度信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域，包括：基于所述第一子匹配度信息、第二子匹配度信息和所述第二匹配度信息，从所述调整后候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

5.如权利要求1所述的物体检测方法，其特征在于，对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息，包括：

将所述样本特征信息作为卷积核，在不同颜色通道对所述特征信息进行卷积运算，得到第一注意力特征信息。

6.如权利要求1所述的物体检测方法，其特征在于，分别对待检测图像和样本图像进行特征提取，得到待检测图像的特征信息、和物体样本图像的样本特征信息，包括：

采用第一残差网络对所述待检测图像进行特征提取，得到待检测图像的特征信息；

采用第二残差网络对所述物体样本图像进行特征提取，得到物体样本图像的样本特征信息，其中，所述第一残差网络与所述第二残差网络为孪生网络。

7.如权利要求6所述的物体检测方法，其特征在于，所述第一残差网络包括依次连接的多个残差卷积子网络；

采用第一残差网络对所述待检测图像进行特征提取，得到待检测图像的特征信息，包括：

通过所述目标残差卷积子网络、以及所述目标残差卷积子网络之前的残差卷积子网络，对所述待检测图像进行特征提取，得到待检测图像的特征信息；

对所述特征信息和所述样本特征信息进行相互关联操作，得到第一注意力特征信息，包括：

通过所述目标残差卷积子网络中的最后一个残差模块，对所述特征信息和所述样本特征信息进行相互关联操作，得到初始注意力特征信息；

通过所述目标残差卷积子网络之后的残差卷积子网络，对所述初始注意力特征信息进行特征提取，得到第一注意力特征信息。

8.如权利要求1所述的物体检测方法，其特征在于，基于所述第一注意力特征信息检测所述待检测图像中的候选物体区域，包括：

基于滑动窗口方式从所述第一注意力特征信息对应的特征图中选取所有可能包含物体的可能物体区域；

对所述可能物体区域进行特征提取，得到可能物体区域的特征信息；

基于所述可能物体区域的特征信息从可能物体区域中确定待检测图像中的候选物体区域。

9.一种物体检测装置，其特征在于，包括：

确定单元，包括：

匹配度获取子单元，用于对所述第一区域特征信息和所述第二区域特征信息进行特征融合，得到融合后特征信息；基于所述融合后特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第一匹配度信息；对所述第一区域特征信息和所述第二区域特征信息进行相互关联操作，得到第二注意力特征信息；基于所述第二注意力特征信息，获取所述第一区域特征信息与所述第二区域特征信息之间的第二匹配度信息；

确定子单元，用于基于所述第一匹配度信息和所述第二匹配度信息，从所述候选物体区域中，确定物体类型与所述已知物体类型相同的目标物体区域。

10.如权利要求9所述的物体检测装置，其特征在于，所述第一匹配度信息包括第一子匹配度信息和第二子匹配度信息；

所述匹配度获取子单元，用于在所述融合后特征信息中建立物体之间的位置映射关系，得到建立关系后特征信息；对所述建立关系后特征信息进行分类处理，得到分类结果，所述分类结果包括所述第一区域特征信息与所述第二区域特征信息之间的第一子匹配度信息；对所述融合后特征信息进行下采样操作，得到采样后特征信息；对采样后特征信息进行分类，得到所述第一区域特征信息与所述第二区域特征信息之间的第二子匹配度信息。

11.如权利要求10所述的物体检测装置，其特征在于，所述匹配度获取子单元，用于采用图块关系模块中第一平均采样层对所述融合后特征信息进行平均下采样操作，所述图块关系模块包括：依次连接的第一平均采样层、卷积网络以及第二平均采样层；采用所述卷积网络对下采样后特征信息进行卷积运算，得到卷积特征信息；采用所述第二平均采样层从所述卷积特征信息进行平均下采样操作，得到建立关系后特征信息。

12.如权利要求10所述的物体检测装置，其特征在于，所述分类结果还包括候选物体区域的位置调整量信息；所述物体检测装置还包括调整单元；

13.如权利要求9所述的物体检测装置，其特征在于，所述关联操作单元，用于将所述样本特征信息作为卷积核，在不同颜色通道对所述特征信息进行卷积运算，得到第一注意力特征信息。

14.如权利要求9所述的物体检测装置，其特征在于，所述第一特征提取单元，包括：

15.一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述方法的步骤。

16.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-8任一项所述方法的步骤。