CN109872362A

CN109872362A - 一种目标检测方法及装置

Info

Publication number: CN109872362A
Application number: CN201910047009.0A
Authority: CN
Inventors: 赵世杰; 李峰; 易阳; 邱日明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-06-11
Anticipated expiration: 2039-01-18
Also published as: CN109872362B

Abstract

本申请实施例提供了一种目标检测方法及装置，涉及机器学习技术领域，该方法包括：在检测视频中的目标对象时，采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，待检测视频图像为待检测视频中的一帧视频图像，然后采用神经网络模型中的非局部模块，确定第一图像特征与参考视频图像的参考图像特征之间的关联信息，之后再基于第一图像特征和关联信息确定待检测视频图像中的目标对象。采用第一图像特征与参考图像特征之间的关联信息对待检测视频图像中的第一图像特征进行补充，由此获取更多与待检测视频图像中的目标对象相关的信息，从而有效缓解物体遮挡以及运动模糊的情况，提高检测视频中的目标对象的精度。

Description

一种目标检测方法及装置

技术领域

本申请实施例涉及机器学习技术领域，尤其涉及一种目标检测方法及装置。

背景技术

图像目标检测是指对图像中的目标进行位置检测并分类。在目标检测中，通常采用从待检测的图像或者待检测的图像的特征图中提取目标候选框的方法，目标候选框用于指示可能存在目标的矩形区域。

但是对视频进行目标检测时，有时视频中某一帧图像中的物体之间会出现遮挡的情况，有时视频中高速移动的物体会出现运动模糊的情况，这时，基于单张图像的目标检测方法难以适应视频中的目标检测。

发明内容

由于现有技术中基于单张图像的目标检测方法难以适应视频中的目标检测的问题，本申请实施例提供了一种目标检测方法及装置，用以提高对视频进行目标检测的准确性。

一方面，本申请实施例提供了一种目标对象检测方法，包括：

采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，所述待检测视频图像为待检测视频中的多帧视频图像的其中一帧视频图像；

采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，所述参考视频图像为所述多帧待检测图像中除所述待检测视频图像之外的其他一帧关联图像，所述参考图像特征为所述第一目标卷积层从所述参考视频图像中提取的；

根据所述第一图像特征和所述关联信息，获得所述待检测视频图像中的目标对象。

一方面，本申请实施例提供了一种神经网络模型，包括：

第一目标卷积层、非局部模块、全连接层；

所述第一目标卷积层，用于从待检测视频图像中提取第一图像特征，从参考视频图像中提取参考图像特征，所述待检测视频图像为待检测视频的多帧视频图像中的其中一帧视频图像，所述参考视频图像为所述多帧待检测图像中除所述待检测视频图像之外的其他一帧关联图像；

所述非局部模块，用于确定所述待检测视频图像的第一图像特征与所述参考视频图像的参考图像特征之间的关联信息，对所述待检测视频图像的第一图像特征和所述关联信息求和，确定所述待检测视频图像的非局部特征；

所述全连接层，用于从所述非局部特征中获得所述待检测视频图像中的目标对象。

一方面，本申请实施例提供了一种目标对象检测装置，包括：

特征提取模块，用于采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，所述待检测视频图像为待检测视频中的多帧视频图像的其中一帧视频图像；

关联模块，用于采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，所述参考视频图像为所述多帧待检测图像中除所述待检测视频图像之外的其他一帧关联图像，所述参考图像特征为所述第一目标卷积层从所述参考视频图像中提取的；

检测模块，用于根据所述第一图像特征和所述关联信息，获得所述待检测视频图像中的目标对象。

一方面，本申请实施例提供了一种终端设备，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行目标对象检测方法的步骤。

一方面，本申请实施例提供了一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行目标对象检测方法的步骤。

本申请实施例中，在检测视频中的目标对象时，采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，待检测视频图像为待检测视频中的一帧视频图像，然后采用神经网络模型中的非局部模块，确定待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，之后再基于待检测图像的第一图像特征和待检测图像与参考视频图像之间的关联信息，确定待检测视频图像中的目标对象。由于在检测待检测视频图像的目标对象时，采用待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息对待检测视频图像中的第一图像特征进行补充，由此获取了更多与待检测视频图像中的目标对象相关的信息，从而能有效缓解物体遮挡以及运动模糊的情况，提高检测视频中的目标对象的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频图像的示意图；

图2为本申请实施例提供的一种视频图像的示意图；

图3为本申请实施例适用的一种应用场景的示意图；

图4为本申请实施例提供的一种神经网络模型的结构示意图；

图5为本申请实施例提供的一种目标对象检测方法的流程示意图；

图6a为本申请实施例提供的一种视频图像的示意图；

图6b为本申请实施例提供的一种目标候选框的示意图；

图6c为本申请实施例提供的一种目标候选框的示意图；

图7为本申请实施例提供的一种提取关联信息的方法的流程示意图；

图8为本申请实施例提供的一种非局部模块的示意图；

图9为本申请实施例提供的一种提取关联信息的方法的流程示意图；

图10为本申请实施例提供的一种神经网络模型的结构示意图；

图11为本申请实施例提供的一种神经网络模型的结构示意图；

图12为本申请实施例提供的一种神经网络模型的结构示意图；

图13为本申请实施例提供的一种目标对象检测装置的结构示意图；

图14为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在具体实施中，本申请的发明人发现，对视频进行目标检测时，有时视频中某一帧图像中的物体之间会出现遮挡的情况，示例性地，如图1所示，图中牛被树木遮挡住了大部分区域。有时视频中高速移动的物体会出现运动模糊的情况，示例性地，如图2所示，图中展示了视频中t-10时刻、t时刻以及t+10时刻的图像，视频中两只猫在高速移动，导致视频中单帧图像出现运动模糊的情况。此时若还采用单帧图像目标检测的方法对视频进行目标检测，将导致从视频中检测出的目标不完整或者模糊，从而影响目标检测效果。

对此，考虑到一个目标对象可能在视频中的多帧图像中出现，且在不同帧图像中，该目标对象与其他对象之间的关系可能也不同，故可以在检测视频中的目标对象时，先采用神经网络模型中的卷积层提取待检测视频中待检测视频图像的第一图像特征。然后采用神经网络模型中的非局部模块，确定待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，之后再结合待检测视频图像的第一图像特征以及得到的关联信息确定待检测视频图像的目标对象。由于在检测视频中一帧待检测视频图像的目标对象时，结合了该目标对象在视频其他帧视频图像中的相关信息，从而缓解了检测目标对象时出现的物体遮挡以及运动模糊问题，提高对视频进行目标对象检测的效果。

本申请实施例中的目标检测方法可以应用对视频进行目标检测的场景，比如监控安防场景、智能交通场景、军事目标检测场景以及医学导航手术场景等。下面以监控安防场景为例进行示例性说明，如图3所示，该应用场景包括监控设备301、服务器302、终端设备303。

监控设备301实时采集待检测视频，然后将采集的待检测视频发送至服务器302，监控设备301通过无线网络与服务器302连接，监控设备是具备采集图像功能的电子设备，比如摄像头、摄像机、录像机等。

服务器302可以直接对接收的待检测视频中的待检测视频图像进行目标检测，确定待检测视频图像中的目标对象。服务器302检测出待检测视频中每帧待检测视频图像中的目标对象之后，对待检测视频图像中的目标对象进行标记。然后将标记了目标对象的待检测视频发送至终端设备303，终端设备303上可以播放标记了目标对象的待检测视频，以便相关人员对视频中的目标对象进行跟踪和分析。

服务器302在接收到待检测视频后，可以保存待检测视频，然后将待检测视频发送至终端设备303，终端设备303对接收的待检测视频中的待检测视频图像进行目标检测，确定每帧待检测视频图像中的目标对象，然后对待检测视频图像中的目标对象进行标记，之后再播放标记了目标对象的待检测视频，以便相关人员对视频中的目标对象进行跟踪和分析。

上述服务器302通过无线网络与终端设备303连接，终端设备303是具备网络通信能力的电子设备，该电子设备可以是智能手机、平板电脑或便携式个人计算机等。服务器302是一台服务器或若干台服务器组成的服务器集群或云计算中心。

本申请实施例中，目标对象检测方法所采用的神经网络模型包括第一目标卷积层、非局部模块、全连接层，第一目标卷积层用于从待检测视频图像中提取第一图像特征，从参考视频图像中提取参考图像特征，待检测视频图像为待检测视频的多帧视频图像中的其中一帧视频图像，参考视频图像为多帧待检测图像中除待检测视频图像之外的其他一帧关联图像。非局部模块用于确定待检测图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，对待检测视频图像的第一图像特征和关联信息求和，确定待检测视频图像的非局部特征。全连接层用于从非局部特征中获得待检测视频图像中的目标对象。

具体地，神经网络模型中除第一目标卷积层之外还包括其他卷积层，非局部模块可以为一个或多个、全连接层可以为一层或多层。第一目标卷积层的输出结果输入非局部模块，非局部模块的输出结果可以输入神经网络模型中另一个卷积层，也可以输入神经网络模型中的全连接层。示例性地，如图4所示，设定神经网络模型中包括6个卷积层、一个非局部模块、两层全连接层，6个卷积层分别为第一卷积层至第六卷积层，其中，第一目标卷积层为第三卷积层，两层全连接层分别为第一全连接层、第二全连接层，非局部模块位于第一目标卷积层和第四卷积层之间。

基于图3所示的应用场景图和图4所示的神经网络模型结构图，本申请实施例提供了一种目标对象检测方法的流程，如图5所示，该方法的流程可以由目标对象检测装置执行，目标对象检测装置可以是上述图3中的服务器302或终端设备303，该方法包括以下步骤：

步骤S501，采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征。

具体地，待检测视频包括多帧视频图像，待检测视频图像为待检测视频中的一帧视频图像。神经网络模型中包括多个卷积层，第一目标卷积层为非局部模块的前一层。

在一种可能的实施方式中，神经网络模型中的第一目标卷积层为第一层卷积层，将待检测视频图像输入神经网络模型后，采用第一目标卷积层从待检测视频图像中提取第一图像特征。

在一种可能的实施方式中，在神经网络模型中，第一目标卷积层之前还包括一层或多层卷积层。示例性地，第一目标卷积层之前包括两层卷积层，分别为第一卷积层和第二卷积层，将待检测视频图像输入神经网络模型，第一卷积层对待检测视频图像进行特征提取，输出待检测视频图像的第一局部图像特征。将待检测视频图像的第一局部图像特征输入第二卷积层，第二卷积层对待检测视频图像进行特征提取，输出待检测视频图像的第二局部图像特征。然后将待检测视频图像的第二局部图像特征输入第一目标卷积层，输出待检测视频图像的第一图像特征。

步骤S502，采用神经网络模型中的非局部模块，确定待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息。

具体地，非局部模块(Non-local Block)是用于处理全局信息的模块，该模块可以直接插入已有的神经网络模型，而不会破坏已有的神经网络模型，比如非局部模块可以插入YOLO网络、卷积神经网络模型(Convolutional Neural Networks，简称CNN)等。关联信息包括但不限于时间关联信息以及空间关联信息。

参考视频图像为多帧待检测图像中除所述待检测视频图像之外的其他一帧关联图像，参考图像特征为第一目标卷积层从参考视频图像中提取的。从参考视频图像中提取参考图像特征的过程与从待检测视频图像中提取第一图像特征的过程相同，此处不再赘述。

待检测视频图像的参考视频图像可以是在待检测视频图像之前采集的视频图像，也可以是在待检测视频图像之后采集的视频图像。待检测视频图像的参考视频图像可以为一帧或多帧。

步骤S503，根据第一图像特征和关联信息，获得待检测视频图像中的目标对象。

具体地，目标对象可以是人、动物、植物、生活物品等预设对象。

在一种可能的实施方式中，当待检测视频图像的参考视频图像为一帧时，根据第一图像特征和第一图像特征与该帧参考视频图像的参考图像特征之间的关联信息，获得待检测视频图像中的目标对象。

在一种可能的实施方式中，当待检测视频图像的参考视频图像为多帧时，根据第一图像特征和第一图像特征与每帧参考视频图像的参考图像特征之间的关联信息，获得待检测视频图像中的目标对象。

可选地，可以采用目标候选框标记待检测视频图像中的目标对象。示例性地，设定待检测视频图像如图6a所示。设定目标对象为“狗”，对图6a所示的待检测视频图像进行目标检测，确定待检测视频图像中的目标对象后，输出的待检测视频图像如图6b所示。在图6b中，待检测视频图像包括两个目标候选框，分别为目标候选框A和目标候选框B，目标候选框A和目标候选框B分别标记了目标对象“狗”。

可选地，可以采用目标候选框标记待检测视频图像中的目标对象，同时可以预测目标候选框中的对象为目标对象的概率。示例性地，设定待检测视频图像如图6a所示。设定目标对象为“狗”，对图6a所示的待检测视频图像进行目标检测，确定待检测视频图像中的目标对象后，输出的待检测视频图像如图6c所示。在图6c中，待检测视频图像包括两个目标候选框，分别为目标候选框A和目标候选框B，目标候选框A和目标候选框B分别标记了目标对象“狗”，其中目标候选框A中的对象为目标对象“狗”的概率为0.8，目标候选框B中的对象为目标对象“狗”的概率为0.85。

由于在检测待检测视频图像的目标对象时，采用待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息对待检测视频图像中的第一图像特征进行补充，由此获取了更多与待检测视频图像中的目标对象相关的信息，从而能有效缓解物体遮挡以及运动模糊的情况，提高检测视频中的目标对象的精度。

可选地，在上述步骤S502中，神经网络模型中的非局部模块可以采用以下方式确定检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，如图7所示，包括以下步骤：

步骤S701，将第一图像特征进行第一线性映射，确定第一映射特征。

步骤S702，将参考视频图像的参考图像特征进行第二线性映射，确定第二映射特征。

具体地，第一线性映射为采用第一线性映射函数对第一图像特征进行运算，第二线性映射为采用第二线性映射函数对参考视频图像的参考图像特征进行运算，其中第一线性映射函数和第二线性映射函数为不同的线性映射函数。具体在实施时，可以采用卷积层对第一图像特征和参考图像特征进行线性映射，卷积核大小根据实际情况确定，比如卷积核大小为1*1*1。

步骤S703，根据第一映射特征与第二映射特征确定待检测视频图像与参考视频图像之间的关联度矩阵。

具体地，本申请实施例中至少提供一下几种确定关联度矩阵实施方式：

在一种可能的实施方式中，确定第一映射特征与第二映射特征的乘积，然后将乘积的指数确定为待检测视频图像与参考视频图像之间的关联度矩阵，具体可以是下述公式(1)：

其中，f(x_i，x_j)为关联度矩阵，x_i为待检测视频图像的第一图像特征，x_j为参考视频图像的参考图像特征，θ(x_i)为第一映射特征，为第二映射特征。

在一种可能的实施方式中，将第一映射特征与第二映射特征的乘积确定为待检测视频图像与参考视频图像之间的关联度矩阵，具体可以是下述公式(2)：

在一种可能的实施方式中，确定将第一映射特征中的第一图像特征与第二映射特征的参考图像特征的乘积，将乘积的指数确定为待检测视频图像与参考视频图像之间的关联度矩阵，具体可以是下述公式(3)：

其中，f(x_i，x_j)为关联度矩阵，x_i为待检测视频图像的第一图像特征，x_j为参考视频图像的参考图像特征。

步骤S704，将参考视频图像的参考图像特征进行第三线性映射，确定第三映射特征。

具体地，采用第三线性映射函数对参考视频图像的参考图像特征进行运算，确定第三映射特征。

步骤S705，根据第三映射特征以及关联度矩阵，获得待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息。

具体地，将第三映射特征与关联度矩阵相乘，获得待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，具体符合下述公式(4)：

y_i＝f(x_i，x_j)*g(x_j)…………………………(4)

其中，f(x_i，x_j)为关联度矩阵，g(x_j)为第三映射特征，y_i为待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息。

下面结合神经网络模型中的非局部模块的具体结构，介绍确定关联信息的具体过程。非局部模块包括映射层、矩阵乘法层、卷积层以及矩阵加法层。映射层，用于将第一图像特征进行第一线性映射，确定第一映射特征，将参考视频图像的参考图像特征进行第二线性映射，确定第二映射特征。将参考视频图像的参考图像特征进行第三线性映射，确定第三映射特征。矩阵乘法层，用于根据第一映射特征与第二映射特征确定待检测视频图像与参考视频图像之间的关联度矩阵。根据第三映射特征以及关联度矩阵，获得待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息。卷积层，用于对待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息进行卷积运算。矩阵加法层，用于对待检测视频图像的第一图像特征和关联信息求和，确定待检测视频图像的非局部特征。

示例性地，设定神经网络模型中非局部模块的结构如图8所示。由图8可知，非局部模块包括三个映射层、两个矩阵乘法层、一个卷积层以及一个矩阵加法层。三个映射层分别为θ映射层、映射层以及g映射层，θ映射层、映射层以及g映射层均包括一个1*1*1的卷积核。两个矩阵乘法层，分别为第一矩阵乘法层、第二矩阵乘法层。

神经网络模型中的第一目标卷积层将待检测视频中的T帧视频图像的图像特征输入非局部模块，每帧视频图像的图像特征的属性为H×W×1024，其中，H代表高度，W代表宽度，1024为通道数。按照待检测视频中的T帧视频图像的时序依次为T帧视频图像进行目标检测。下面以T帧视频图像中第1帧视频图像为例进行具体说明，将第1帧视频图像作为待检测视频图像，待检测视频图像的参考视频图像可以是一帧或多帧，设定T帧视频图像中第2帧视频图像至第T帧视频图像作为参考视频图像。将待检测视频图像的第一图像特征x_i输入θ映射层，θ映射层输出第一映射特征θ(x_i)，其属性为：H×W×512。针对任意一帧参考视频图像，将参考视频图像的参考图像特征x_j输入映射层，映射层输出第二映射特征其属性为：H×W×512。将参考视频图像的参考图像特征x_j的输入g映射层，g映射层输出第三映射特征g(x_j)，其属性为：H×W×512。

将第一映射特θ(x_i)和第二映射特征输入第一矩阵乘法层，第一矩阵乘法层将第一映射特θ(x_i)和第二映射特征进行矩阵相乘并进行(归一化)softmax处理后，输出关联度矩阵f(x_i，x_j)，将关联度矩阵f(x_i，x_j)以及第三映射特征g(x_j)输入第二矩阵乘法层，第二矩阵乘法层将关联度矩阵f(x_i，x_j)和第三映射特征g(x_j)进行矩阵相乘，得到待检测视频图像的第一图像特征x_i与参考视频图像的参考图像特征x_j之间的关联信息f(x_i，x_j)g(x_j)，关联信息的属性为H×W×512。为了便于后续根据关联信息与第一图像特征x_i确定待检测视频图像中的目标对象，需要将关联信息的通道数转换为与第一图像特征x_i的通道数相同。因此，将关联信息输入卷积层，卷积层中包括一个1*1*1的卷积核，卷积层对关联信息进行卷积运算，输出最终的关联信息，此时关联信息的属性为H×W×1024，与第一图像特征x_i的通道数相同。由于T帧视频图像中第2帧视频图像至第T帧视频图像为参考视频图像，故采用上述方法可以确定第一图像特征x_i与每帧参考视频图像的参考图像特征x_j之间的关联信息。之后将第一图像特征x_i以及第一图像特征x_i与每帧参考视频图像的参考图像特征x_j之间的关联信息输入矩阵加法层，矩阵加法层将第一图像特征x_i与关联信息相加后输出待检测图像的非局部特征。

通过非局部模块提取视频中待检测视频图像与视频中参考视频图像之间的关联信息，采用待检测视频图像的第一图像特征和关联信息实现对待检测视频图像的全局表达，故在检测待检测视频图像中的目标对象时，能有效提高目标对象的检测精度和检测效果。

可选地，由于神经网络模型中的卷积层提取的是视频图像的局部特征，很难捕捉视频图像中图像特征的空间关系，但是在检测视频图像中的目标对象时，图像特征之间的空间关系对目标检测的影响较大。比如一个足球运动员在踢足球时，卷积层可以提取视频图像中的足球、足球运动员的手部、脚部、头部等局部特征。但是在踢足球时，足球运动员的手部、脚部、头部等部位之间的空间关系以及足球运动员与足球之间的空间关系，是判断视频图像中的人物在踢足球而不是普通站立的关键。为此，本申请实施例中，采用神经网络模型中的非局部模块，确定待检测视频图像的第一图像特征之间的关联信息。

具体实施中，非局部模块可以采用以下方式确定待检测视频图像的第一图像特征之间的关联信息，如图9所示，具体包括以下步骤：

步骤S901，将第一图像特征进行第一线性映射，确定第一映射特征。

步骤S902，将第一图像特征进行第二线性映射，确定第四映射特征。

步骤S903，根据第一映射特征与第四映射特征确定待检测视频图像的第一图像特征之间的关联度矩阵。

具体地，计算关联度矩阵的公式与公式(1)至公式(3)类似，此处不再赘述。

步骤S904，将第一图像特征进行第三线性映射，确定第五映射特征。

步骤S905，根据第五映射特征以及待检测视频图像的第一图像特征之间的关联度矩阵，获得待检测视频图像的第一图像特征之间的关联信息。

具体地，将第五映射特征与关联度矩阵相乘，获得待检测视频图像的第一图像特征之间的关联信息。在确定出待检测视频图像的第一图像特征之间的关联信息后，可以采用第一图像特征、第一图像特征之间的关联信息、第一图像特征与参考视频图像的参考图像特征之间的关联信息确定待监测视频图像的目标对象，进一步提高目标检测的精度。

可选地，在上述步骤S503中，本申请实施例中至少提供以下几种检测待检测视频图像中的目标对象的实施方式：

在一种可能的实施方式中，对待检测视频图像的第一图像特征和关联信息求和，确定待检测视频图像的非局部特征。然后采用神经网络模型中的全连接层从非局部特征中获得待检测视频图像中的目标对象。

具体地，非局部模型对待检测视频图像的第一图像特征和关联信息求和后输入神经网络模型中的全连接层，全连接层输出标记了目标候选框的目标对象。当关联信息为第一图像特征与参考视频图像的参考图像特征之间的关联信息时，非局部模型将第一图像特征和第一图像特征与参考图像特征之间的关联信息求和后输入全连接层。

当关联信息包括第一图像特征与参考视频图像的参考图像特征之间的关联信息以及第一图像特征之间的关联信息时，非局部模型将第一图像特征、第一图像特征与参考图像特征之间的关联信息、第一图像特征之间的关联信息求和后输入全连接层。

下面结合神经网络模型的具体结构进行举例说明，如图10所示，神经网络模型包括5个卷积层、一个非局部模块、一个全连接层，其中，5个卷积层分别为第一卷积层至第五卷积层，第五卷积层为第一目标卷积层。待检测视频图像和参考视频图像依次经过5个卷积层进行特征提取后，第一目标卷积层输出第一图像特征和参考图像特征，然后将第一图像特征和参考图像特征输入非局部模块，获得待检测视频图像的非局部特征。将待检测视频图像的非局部特征输入全连接层，输出标记了目标候选框的待检测视频图像。

在另一种可能的实施方式中，对待检测视频图像的第一图像特征和关联信息求和，确定待检测视频图像的非局部特征，然后采用神经网络模型中的第二目标卷积层，从待检测视频图像的非局部特征中提取待检测视频图像的第二图像特征，之后再采用神经网络模型中的全连接层，从第二图像特征中获得待检测视频图像中的目标对象。

下面结合神经网络模型的具体结构进行举例说明，如图11所示，神经网络模型包括5个卷积层、一个非局部模块、一个全连接层，其中，5个卷积层分别为第一卷积层至第五卷积层，第三卷积层为第一目标卷积层，第四卷积层和第五卷积层为第二目标卷积层。待检测视频图像和参考视频图像依次经过3个卷积层进行特征提取后，第一目标卷积层输出第一图像特征和参考图像特征，然后将第一图像特征和参考图像特征输入非局部模块，获得待检测视频图像的非局部特征。将待检测视频图像的非局部特征依次输入两个第二目标卷积层提取图像特征，确定待检测视频图像的第二图像特征。将待检测视频图像的第二图像特征输入全连接层，输出标记了目标候选框的待检测视频图像。

由于在检测视频中的目标对象时，采用非局部模块提取待检测视频图像与参考视频图像之间的关联信息，然后采用关联信息补充待检测视频图像中被遮挡或者被模糊的目标对象，从而提高目标检测准确性。

为了更好的解释本申请实施例，下面结合具体的实施场景描述本申请实施例提供的一种目标对象检测方法，该方法可以由目标对象检测装置执行。设定待检测视频为监控设备采集的监控视频，监控视频包括T帧视频图像，目标对象为人脸。神经网络模型的结构如图12所示，神经网络模型中包括5个卷积层、一个非局部模块、两层全连接层。5个卷积层分别为第一卷积层、第二卷积层、第一目标卷积层、第四卷积层、第五卷积层，两层全连接层分别为第一全连接层和第二全连接层，非局部模块位于第一目标卷积层和第四卷积层之间。非局部模块包括三个映射层、两个矩阵乘法层、一个卷积层以及一个矩阵加法层，三个映射层分别为θ映射层、映射层以及g映射层，θ映射层、映射层以及g映射层均包括一个1*1*1的卷积核。两个矩阵乘法层分别为第一矩阵乘法层和第二矩阵乘法层。

监控视频中的T帧视频图像依次经过3个卷积层进行特征提取后，第一目标卷积层输出T帧视频图像的图像特征，每帧视频图像的图像特征的属性为H×W×1024，其中，H代表高度，W代表宽度，1024为通道数。然后将T帧视频图像的图像特征输入非局部模块，非局部模块按照监控视频中的T帧视频图像的时序依次确定每帧视频图像的关联信息。具体地，首先检测T帧视频图像中第一帧视频图像的关联信息，检测其他帧视频图像的关联信息的方法与第一帧视频图像相同。将T帧视频图像中第一帧视频图像作为待检测视频图像，T帧视频图像中第2帧视频图像至第T帧视频图像作为参考视频图像。

将待检测视频图像的第一图像特征x_i输入θ映射层，θ映射层输出第一映射特征θ(x_i)，其属性为：H×W×512。针对任意一帧参考视频图像，将参考视频图像的参考图像特征x_j输入映射层，映射层输出第二映射特征其属性为：H×W×512。将参考视频图像的参考图像特征x_j输入g映射层，g映射层输出第三映射特征g(x_j)，其属性为：H×W×512。将第一映射特θ(x_i)和第二映射特征输入第一矩阵乘法层，第一矩阵乘法层将第一映射特θ(x_i)和第二映射特征进行矩阵相乘并进行(归一化)softmax处理后，输出关联度矩阵f(x_i，x_j)，将关联度矩阵f(x_i，x_j)以及第三映射特征g(x_j)输入第二矩阵乘法层，第二矩阵乘法层将关联度矩阵f(x_i，x_j)和第三映射特征g(x_j)进行矩阵相乘，得到待检测视频图像的第一图像特征x_i与参考视频图像的参考图像特征x_j之间的关联信息f(x_i，x_j)g(x_j)，关联信息的属性为H×W×512。将关联信息输入卷积层，卷积层中包括一个1*1*1的卷积核，卷积层对关联信息进行卷积运算，输出第一关联信息，第一关联信息的属性为H×W×1024。

将待检测视频图像的第一图像特征x_i输入映射层，映射层输出第四映射特征其属性为：H×W×512。将待检测视频图像的第一图像特征x_i输入g映射层，g映射层输出第三映射特征g(x_i)，其属性为：H×W×512。将第一映射特θ(x_i)和第二映射特征输入第一矩阵乘法层，第一矩阵乘法层将第一映射特θ(x_i)和第二映射特征进行矩阵相乘并进行(归一化)softmax处理后，输出第一图像特征之间的关联度矩阵f(x_i，x_i)，将关联度矩阵f(x_i，x_i)以及第三映射特征g(x_i)输入第二矩阵乘法层，第二矩阵乘法层将关联度矩阵f(x_i，x_i)和第三映射特征g(x_i)进行矩阵相乘，得到待检测视频图像的第一图像特征x_i之间的关联信息f(x_i，x_i)g(x_i)，关联信息的属性为H×W×512。将关联信息输入卷积层，卷积层对关联信息进行卷积运算，输出第二关联信息，第二关联信息的属性为H×W×1024。将第一图像特征x_i、第一图像特征x_i与每帧参考视频图像的参考图像特征之间的第一关联信息、第一图像特征x_i第二关联信息输入矩阵加法层，矩阵加法层输出待检测视频图像的非局部特征至第四卷积层。

进一步地，第四卷积层、第五卷积层依次对待检测视频图像的非局部特征进行特征提取，第五卷积层输出待检测视频图像的第二图像特征。将待检测视频图像的第二图像特征依次输入第一全连接层和第二全连接层，输出标记了人脸框的待检测视频图像。

采用上述方法对T帧视频图像进行目标检测后，将标记了人脸框的T帧视频图像发送至终端设备，以便相关人员对监控视频中的人脸进行跟踪和分析。进一步地，可以在对T帧视频图像进行目标检测后，为每帧视频图像中人脸框分配更多的码率，从而提高监控视频中人脸的清晰度。由于在检测待检测视频图像的目标对象时，采用待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息以及第一图像特征之间的关联信息对待检测视频图像中的第一图像特征进行补充，由此获取了更多与待检测视频图像中的目标对象相关的信息，从而能有效缓解物体遮挡以及运动模糊的情况，提高检测视频中的目标对象的精度。其次，相较于现有采用光流技术检测视频中目标对象的方法来说，减小了计算量，提高了检测效率。

基于相同的技术构思，本申请实施例提供了一种目标对象检测装置，如图13所示，该装置1300包括：

特征提取模块1301，用于采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，所述待检测视频图像为待检测视频的多帧视频图像中的其中一帧视频图像，所述待检测视频包括多帧视频图像；

关联模块1302，用于采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，所述参考视频图像为所述多帧待检测图像中除所述待检测视频图像之外的其他一帧关联图像，所述参考图像特征为所述第一目标卷积层从所述参考视频图像中提取的；

检测模块1303，用于根据所述第一图像特征和所述关联信息，获得所述待检测视频图像中的目标对象。

可选地，所述关联模块1302具体用于：

将所述第一图像特征进行第一线性映射，确定第一映射特征；

将参考视频图像的参考图像特征进行第二线性映射，确定第二映射特征；

根据所述第一映射特征与所述第二映射特征确定所述待检测视频图像与所述参考视频图像之间的关联度矩阵；

将所述参考视频图像的参考图像特征进行第三线性映射，确定第三映射特征；

根据所述第三映射特征以及所述关联度矩阵，获得所述待检测视频图像的第一图像特征与所述参考视频图像的参考图像特征之间的关联信息。

所述关联模块1302具体用于：

确定所述第一映射特征与所述第二映射特征的乘积；

将所述乘积的指数确定为所述待检测视频图像与所述参考视频图像之间的关联度矩阵。

所述关联模块1302具体用于：

将所述第一映射特征与所述第二映射特征的乘积确定为所述待检测视频图像与所述参考视频图像之间的关联度矩阵。

所述关联模块1302具体用于：

确定将所述第一映射特征中的第一图像特征与所述第二映射特征的参考图像特征的乘积；

可选地，所述检测模块1303具体用于：

对所述待检测视频图像的第一图像特征和所述关联信息求和，确定所述待检测视频图像的非局部特征；

采用所述神经网络模型中的全连接层从所述非局部特征中获得所述待检测视频图像中的目标对象。

可选地，所述检测模块1303具体用于：

采用所述神经网络模型中的第二目标卷积层，从所述待检测视频图像的非局部特征中提取所述待检测视频图像的第二图像特征；

采用所述神经网络模型中的全连接层，从所述第二图像特征中获得所述待检测视频图像中的目标对象。

可选地，所述关联模块1302还用于：

采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征之间的关联信息。

所述关联模块1302具体用于：

将所述第一图像特征进行第一线性映射，确定第一映射特征。

将所述第一图像特征进行第二线性映射，确定第四映射特征。

根据所述第一映射特征与所述第四映射特征确定所述待检测视频图像的第一图像特征之间的关联度矩阵。

将所述第一图像特征进行第三线性映射，确定第五映射特征。

根据所述第五映射特征以及所述待检测视频图像的第一图像特征之间的关联度矩阵，获得所述待检测视频图像的第一图像特征之间的关联信息。

基于相同的技术构思，本申请实施例提供了一种终端设备，如图14所示，包括至少一个处理器1401，以及与至少一个处理器连接的存储器1402，本申请实施例中不限定处理器1401与存储器1402之间的具体连接介质，图14中处理器1401和存储器1402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1402存储有可被至少一个处理器1401执行的指令，至少一个处理器1401通过执行存储器1402存储的指令，可以执行前述的目标对象检测方法中所包括的步骤。

其中，处理器1401是终端设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器1402内的指令以及调用存储在存储器1402内的数据，从而检测目标对象。可选的，处理器1401可包括一个或多个处理单元，处理器1401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1401中。在一些实施例中，处理器1401和存储器1402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1401可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

该终端设备还包括输入单元1403、显示单元1404、射频单元1405、音频电路1406、扬声器1407、麦克风1408、无线保真(Wireless Fidelity，WiFi)模块1409、蓝牙模块1410、电源1411、外部接口1412、耳机插孔1413等部件。

输入单元1403可用于接收用户输入的下载目标应用程序的请求、用户输入的安装目标应用程序的指令以及用户输入的授权应用管理程序使用网络拦截组件的指令等等。例如，输入单元1403可包括触摸屏14031以及其它输入设备14032。触摸屏14031可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏14031上或在触摸屏14031附近的操作)，即触摸屏14031可用于检测触摸压力以及触摸输入位置和触摸输入面积，并根据预先设定的程序驱动相应的连接装置。触摸屏14031可以检测用户对触摸屏14031的触控操作，将触控操作转换为触控信号发送给处理器1401，或者理解为可将触控操作的触控信息发送给处理器1401，并能接收处理器1401发来的命令并加以执行。触控信息至少可以包括压力大小信息和压力持续时长信息中的至少一种。触摸屏14031可以提供终端设备和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏14031。除了触摸屏14031，输入单元1403还可以包括其它输入设备14032。比如，其它输入设备14032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1404可用于显示由用户输入的信息或提供给用户的信息。进一步的，触摸屏14031可覆盖显示单元1404，当触摸屏14031检测到在其上或附近的触控操作后，传送给处理器1401以确定的触控操作的压力信息。在本申请实施例中，触摸屏14031与显示单元1404可以集成为一个部件而实现终端设备的输入、输出、显示功能。为便于描述，本申请实施例以触摸屏14031代表触摸屏14031和显示单元1404的功能集合为例进行示意性说明，当然在某些实施例中，触摸屏14031与显示单元1404也可以作为两个独立的部件。

当显示单元1404和触摸板以层的形式彼此叠加以形成触摸屏14031时，显示单元1404可以用作输入装置和输出装置，在作为输出装置时，可以用于显示图像，例如显示目标应用程序的安装界面。显示单元1404可以包括液晶显示器(Liquid Crystal Display，LCD)、薄膜晶体管液晶显示器(Thin Film Transistor Liquid Crystal Display，TFT-LCD)、有机发光二极管(Organic Light Emitting Diode，OLED)显示器、有源矩阵有机发光二极体(Active Matrix Organic Light Emitting Diode，AMOLED)显示器、平面转换(In-Plane Switching，IPS)显示器、柔性显示器、3D显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，根据特定想要的实施方式，终端设备可以包括两个或更多显示单元。

射频单元1405可用于收发信息或通话过程中信号的接收和发送。通常，射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元1405还可以通过无线通信与网络设备和其它设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路1406、扬声器1407、麦克风1408可提供用户与终端设备之间的音频接口。音频电路1406可将接收到的音频数据转换后的电信号，传输到扬声器1407，由扬声器1407转换为声音信号输出。另一方面，麦克风1408将收集的声音信号转换为电信号，由音频电路1406接收后转换为音频数据，再将音频数据输出处理器1401处理后，经射频单元1405以发送给比如另一电子设备，或者将音频数据输出至存储器1402以便进一步处理，音频电路也可以包括耳机插孔1413，用于提供音频电路和耳机之间的连接接口。

WiFi属于短距离无线传输技术，终端设备通过WiFi模块1409可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1409，但是可以理解的是，其并不属于终端设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术，能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信，也能够成功地简化以上这些设备与因特网(Internet)之间的通信，终端设备通过蓝牙模块1410使终端设备与因特网之间的数据传输变得更加迅速高效，为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图14示出了WiFi模块1409，但是可以理解的是，其并不属于终端设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

终端设备还可以包括电源1411(比如电池)，其用于接收外部电力为终端设备内的各个部件供电。优选的，电源1411可以通过电源管理系统与处理器1401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

终端设备还可以包括外部接口1412，该外部接口1412可以包括标准的Micro USB接口，也可以包括多针连接器，可以用于连接终端设备与其它设备进行通信，也可以用于连接充电器为终端设备充电。

尽管未示出，终端设备还可以包括摄像头、闪光灯等其它可能的功能模块，在此不再赘述。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，该可读存储介质存储有计算机指令，当该计算机指令在终端设备上运行时，使得终端设备执行如前述的目标对象检测方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标对象检测方法，其特征在于，包括：

采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，所述待检测视频图像为待检测视频的多帧视频图像中的其中一帧视频图像；

2.如权利要求1所述的方法，其特征在于，所述采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征与参考视频图像的参考图像特征之间的关联信息，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一映射特征与所述第二映射特征确定所述待检测视频图像与所述参考视频图像之间的关联度矩阵，包括：

确定所述第一映射特征与所述第二映射特征的乘积；

4.如权利要求2所述的方法，其特征在于，所述根据所述第一映射特征与所述第二映射特征确定所述待检测视频图像与所述参考视频图像之间的关联度矩阵，包括：

5.如权利要求2所述的方法，其特征在于，所述根据所述第一映射特征与所述第二映射特征确定所述待检测视频图像与所述参考视频图像之间的关联度矩阵，包括：

确定所述第一映射特征中的第一图像特征与所述第二映射特征的参考图像特征的乘积；

6.如权利要求1至5任一项所述的方法，其特征在于，所述根据所述第一图像特征和所述关联信息，获得所述待检测视频图像中的目标对象，包括：

7.如权利要求1至5任一项所述的方法，其特征在于，所述根据所述第一图像特征和所述关联信息，获得所述待检测视频图像中的目标对象，包括：

8.如权利要求1所述的方法，其特征在于，还包括：

9.如权利要求8所述的方法，其特征在于，所述采用所述神经网络模型中的非局部模块，确定所述待检测视频图像的第一图像特征之间的关联信息，包括：

将所述第一图像特征进行第二线性映射，确定第四映射特征；

根据所述第一映射特征与所述第四映射特征确定所述待检测视频图像的第一图像特征之间的关联度矩阵；

将所述第一图像特征进行第三线性映射，确定第五映射特征；

10.一种神经网络模型，其特征在于，包括：

第一目标卷积层、非局部模块、全连接层；

11.如权利要求10所述的神经网络模型，其特征在于，所述非局部模块包括：

映射层、矩阵乘法层、卷积层以及矩阵加法层；

所述映射层，用于将所述第一图像特征进行第一线性映射，确定第一映射特征；将参考视频图像的参考图像特征进行第二线性映射，确定第二映射特征；将所述参考视频图像的参考图像特征进行第三线性映射，确定第三映射特征；

所述矩阵乘法层，用于根据所述第一映射特征与所述第二映射特征确定所述待检测视频图像与所述参考视频图像之间的关联度矩阵；根据所述第三映射特征以及所述关联度矩阵，获得所述待检测视频图像的第一图像特征与所述参考视频图像的参考图像特征之间的关联信息；

所述卷积层，用于对所述待检测视频图像的第一图像特征与所述参考视频图像的参考图像特征之间的关联信息进行卷积运算；

所述矩阵加法层，用于对所述待检测视频图像的第一图像特征和所述关联信息求和，确定所述待检测视频图像的非局部特征。

12.一种目标对象检测装置，其特征在于，包括：

特征提取模块，用于采用神经网络模型中的第一目标卷积层从待检测视频图像中提取第一图像特征，所述待检测视频图像为待检测视频的多帧视频图像中的其中一帧视频图像；

13.一种终端设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～9任一权利要求所述方法的步骤。

14.一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～9任一所述方法的步骤。