CN110866428A

CN110866428A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN110866428A
Application number: CN201810987795.8A
Authority: CN
Inventors: 卜英家; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-06
Anticipated expiration: 2038-08-28
Also published as: CN110866428B

Abstract

本发明实施例提供了目标跟踪方法、装置、电子设备及存储介质，涉及计算机视觉技术领域，该目标跟踪方法利用目标检测过程中提取的目标的特征信息，对下一视频帧中目标的位置进行预测；按照下一视频帧中目标的实际位置，确定预测位置与实际位置的重合度；计算当前视频帧与下一视频帧中两个目标的相似度；结合相似度与重合度计算关联度，在关联度大于关联阈值时，判定两个目标为同一目标。本发明实施例的目标跟踪方法，实现了视频数据中的目标跟踪，充分利用目标检测过程中提取的特征信息，第二神经网络与第三神经网络对目标检测过程中提取的特征信息进行相似度分析和位置预测分析，大大节约了计算量，从而实现了高效的目标跟踪。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及目标跟踪方法、装置、电子设备及存储介质。

背景技术

计算机视觉技术是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，通过各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。现阶段，计算机视觉的主要目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。

目标跟踪是指对视频中的指定目标进行跟踪，确定指定目标在各视频帧中的位置及在视频数据中的运行轨迹等。目标跟踪对目标的监控及分析具有重要意义，因此希望能够对视频数据中的指定目标进行目标跟踪。

发明内容

本发明实施例的目的在于提供一种目标跟踪方法、装置、电子设备及存储介质，以实现视频数据中的目标跟踪。具体技术方案如下：

第一方面，本发明实施例提供了一种目标跟踪方法，所述方法包括：

通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到所述第一视频帧的第一视频帧特征信息、所述第二视频帧的第二视频帧特征信息、所述第一视频帧中第一待检测目标的第一目标特征信息、所述第二视频帧中第二待检测目标的第二目标特征信息、所述第一待检测目标在所述第一视频帧中的第一位置信息及所述第二待检测目标在所述第二视频帧中的第二位置信息，其中，所述第一视频帧与所述二视频帧为待检测视频数据中相邻的两帧视频帧，且所述第二视频帧为所述第一视频帧的下一帧视频帧；

通过第二神经网络对所述第一目标特征信息及所述第二目标特征信息进行相似度分析，确定所述第一待检测目标与所述第二待检测目标的相似度；

通过第三神经网络对所述第一位置信息、所述第一视频帧特征信息及所述第二视频帧特征信息进行位置预测分析，得到所述第一待检测目标在所述第二视频帧中的预测位置信息；

结合所述相似度、所述预测位置信息及所述第二位置信息，确定所述第一待检测目标与所述第二待检测目标的关联度；

判断所述关联度与预设关联阈值的大小；

若所述关联度大于所述关联阈值，判定所述第一待检测目标与所述第二待检测目标为同一目标，以实现目标跟踪。

可选的，所述通过第二神经网络对所述第一目标特征信息及所述第二目标特征信息进行相似度分析，确定所述第一待检测目标与所述第二待检测目标的相似度，包括：

通过第二神经网络，将所述第一目标特征信息及所述第二目标特征信息进行归一化，得到归一化后的第一目标特征信息及归一化后的第二目标特征信息，其中，所述归一化后的第一目标特征信息及所述归一化后的第二目标特征信息的维度相同；

对所述归一化后的第一目标特征信息及所述归一化后的第二目标特征信息进行特征提取，得到第一特征矩阵和第二特征矩阵；

计算所述第一特征矩阵和所述第二特征矩阵的相似度矩阵，作为所述第一待检测目标与所述第二待检测目标的相似度。

可选的，所述通过第三神经网络对所述第一位置信息、所述第一视频帧特征信息及所述第二视频帧特征信息进行位置预测分析，得到所述第一待检测目标在所述第二视频帧中的预测位置信息，包括：

对所述第一视频帧特征信息及所述第二视频帧特征信息进行特征融合，得到融合特征；

通过第三神经网络，根据所述融合特征及所述第一位置信息，确定位置关系函数；

根据所述位置关系函数，确定所述第一待检测目标在所述第二视频帧中的预测位置信息。

可选的，所述结合所述相似度、所述预测位置信息及所述第二位置信息，确定所述第一待检测目标与所述第二待检测目标的关联度，包括：

计算所述预测位置信息及所述第二位置信息的重合度；

按照预设关联算法，根据所述相似度与所述重合度，计算所述第一待检测目标与所述第二待检测目标的关联度。

第二方面，本发明实施例提供了一种目标跟踪装置，所述装置包括：

指定目标检测模块，用于通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到所述第一视频帧的第一视频帧特征信息、所述第二视频帧的第二视频帧特征信息、所述第一视频帧中第一待检测目标的第一目标特征信息、所述第二视频帧中第二待检测目标的第二目标特征信息、所述第一待检测目标在所述第一视频帧中的第一位置信息及所述第二待检测目标在所述第二视频帧中的第二位置信息，其中，所述第一视频帧与所述二视频帧为待检测视频数据中相邻的两帧视频帧，且所述第二视频帧为所述第一视频帧的下一帧视频帧；

相似度确定模块，用于通过第二神经网络对所述第一目标特征信息及所述第二目标特征信息进行相似度分析，确定所述第一待检测目标与所述第二待检测目标的相似度；

位置预测模块，用于通过第三神经网络对所述第一位置信息、所述第一视频帧特征信息及所述第二视频帧特征信息进行位置预测分析，得到所述第一待检测目标在所述第二视频帧中的预测位置信息；

关联度确定模块，用于结合所述相似度、所述预测位置信息及所述第二位置信息，确定所述第一待检测目标与所述第二待检测目标的关联度；

阈值判断模块，用于判断所述关联度与预设关联阈值的大小；

目标判定模块，用于若所述关联度大于所述关联阈值，判定所述第一待检测目标与所述第二待检测目标为同一目标，以实现目标跟踪。

可选的，所述相似度确定模块，包括：

归一化子模块，用于通过第二神经网络，将所述第一目标特征信息及所述第二目标特征信息进行归一化，得到归一化后的第一目标特征信息及归一化后的第二目标特征信息，其中，所述归一化后的第一目标特征信息及所述归一化后的第二目标特征信息的维度相同；

特征矩阵确定子模块，用于对所述归一化后的第一目标特征信息及所述归一化后的第二目标特征信息进行特征提取，得到第一特征矩阵和第二特征矩阵；

相似度矩阵计算子模块，用于计算所述第一特征矩阵和所述第二特征矩阵的相似度矩阵，作为所述第一待检测目标与所述第二待检测目标的相似度。

可选的，所述位置预测模块，包括：

特征融合子模块，用于对所述第一视频帧特征信息及所述第二视频帧特征信息进行特征融合，得到融合特征；

函数确定子模块，用于通过第三神经网络，根据所述融合特征及所述第一位置信息，确定位置关系函数；

位置计算子模块，用于根据所述位置关系函数，确定所述第一待检测目标在所述第二视频帧中的预测位置信息。

可选的，所述关联度确定模块，包括：

重合度计算子模块，用于计算所述预测位置信息及所述第二位置信息的重合度；

关联度计算子模块，用于按照预设关联算法，根据所述相似度与所述重合度，计算所述第一待检测目标与所述第二待检测目标的关联度。

第三方面，本发明实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述第一方面任一所述的目标跟踪方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的目标跟踪方法。

本发明实施例提供的目标跟踪方法、装置、电子设备及存储介质，通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到第一视频帧的第一视频帧特征信息、第二视频帧的第二视频帧特征信息、第一视频帧中第一待检测目标的第一目标特征信息、第二视频帧中第二待检测目标的第二目标特征信息、第一待检测目标在第一视频帧中的第一位置信息及第二待检测目标在第二视频帧中的第二位置信息；通过第二神经网络对第一目标特征信息及第二目标特征信息进行相似度分析，确定第一待检测目标与第二待检测目标的相似度；通过第三神经网络对第一位置信息、第一视频帧特征信息及第二视频帧特征信息进行位置预测分析，得到第一待检测目标在第二视频帧中的预测位置信息；结合相似度、预测位置信息及第二位置信息，确定第一待检测目标与第二待检测目标的关联度；判断关联度与预设关联阈值的大小；若关联度大于关联阈值，判定第一待检测目标与第二待检测目标为同一目标，以实现目标跟踪。可以实现视频数据中的目标跟踪。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的目标跟踪装置的一种示意图；

图2为本发明实施例的目标跟踪方法的一种流程示意图；

图3为本发明实施例的目标跟踪方法的另一种流程示意图；

图4为本发明实施例的目标跟踪装置的另一种示意图；

图5为本发明实施例的电子设备的一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

术语介绍：

ROI(Region of Interest，感兴趣区域)：机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。

RPN(Region Proposal Network，区域选取网络)：用于提取ROI的网络。

ROI_Pooling：对ROI进行池化操作。

为了解决目标检测、跟踪问题，本发明实施例将检测、跟踪融合在一个算法框架下，且可以进行端到端的处理，提供了一种目标跟踪装置，参见图1，包括目标检测模块101、目标相似性判断模块102、目标框预测模块103、目标关联模块104。

目标检测模块101：用于对目标进行检测，获得目标在图像中的位置信息。

本发明实施例的目标检测模块101，可以包括Faster RCNN(Faster RegionsConvolutional Neural Network)、Yolo(You Only Look Once)或SSD(single shotmultibox detector)等检测框架，但不限于这些检测框架。目标通过检测模块，获得指定目标的位置信息，例如，指定目标矩形目标框的左上角坐标(x1，y1)和右下角坐标(x2，y2)等。

目标相似性判断模块102：用于检测提取的特征，使用conv5(Convolution andpolynomial multiplication，卷积神经网络第五层)的特征进行一个识别子网络的训练，进行目标特征的提取，用于后续的目标相似性判断。

对检测的目标进行归一化池化操作，即将不同大小的目标归一化到相同大小，此处采用ROI_pooling操作。将归一化后的目标送入到一个识别子网络(由不同的卷积和池化操作组成)，进行目标的特征提取，该识别子网络使得相同的目标的特征尽可能相差较小，不同的目标的特征尽可能相差较大；根据识别子网络提取的特征，计算相邻两帧检测目标的相似性，此处可以采用不同的距离来进行目标的相似度的度量；如常用的欧式或者余弦距离等。

目标框预测模块103：用于检测提取的特征，使用conv5的特征进行一个目标框预测子网络的训练，可以预测当前帧的目标在下一帧的目标框位置信息，从而获得目标的运动信息。

将相邻两帧视频帧的特征进行融合，此处进行conv5特征融合，此处conv5特征是指卷积神经网络第五层输出的特征信息；将相邻视频帧的融合特征、当前视频帧的检测目标框以及下一视频帧的目标标定信息，输入目标框预测子网络(由一系列的卷积和池化操作组成)，可以获得当前帧检测目标框与下一帧真值框的关系函数F；根据关系函数F，获得当前帧目标在下一帧图像中的位置信息。其中，目标标定信息为目标的位置信息，例如可以为目标框的坐标等。

目标关联模块104：用于根据目标相似性判断模块102的结果，计算相邻两帧视频帧中目标的对应关系；得到当前视频帧的目标与上一视频帧的目标关联相似度矩阵；根据目标框预测模块103，计算当前视频帧的目标与上一视频帧的目标的关联距离矩阵；主要根据上一视频帧的目标的预测框与当前视频帧的检测框的重合程度进行评判；融合相邻视频帧的目标关联相似度矩阵和关联距离矩阵，获得最终的相邻帧的目标之间的关联矩阵；根据预先设置的关联阈值N，当两个目标关联值大于N时，确定为同一个目标，从而实现目标跟踪的功能。

其总体流程图如图2所示。利用目标检测过程中提取的目标的特征信息，对下一视频帧中目标的位置进行预测；按照下一视频帧中目标的实际位置，确定预测位置与实际位置的重合度；计算当前视频帧与下一视频帧中两个目标的相似度；结合相似度与重合度计算关联度，在关联度大于关联阈值时，判定两个目标为同一目标。本发明实施例以目标检测框架为基础，有效的融合了目标检测模块、目标识别模块，实现了目标检测、跟踪联合算法，该算法充分利用检测提取的目标特征，大大节约了计算量，从而实现了高效的目标检测、跟踪算法。

本发明实施例提出了一个目标框预测子网络，通过对相邻帧的特征进行融合，以当前帧的检测位置以及下一帧的标定信息作为监督信息，获得当前帧的目标在下一帧的位置；且目标预测子网络提取的特征，还可以用于后续的行人重识别、检索等问题。

为了实现对视频数据中的目标进行跟踪，本发明实施例提供一种目标跟踪方法，参见图3，该方法包括：

S301，通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到上述第一视频帧的第一视频帧特征信息、上述第二视频帧的第二视频帧特征信息、上述第一视频帧中第一待检测目标的第一目标特征信息、上述第二视频帧中第二待检测目标的第二目标特征信息、上述第一待检测目标在上述第一视频帧中的第一位置信息及上述第二待检测目标在上述第二视频帧中的第二位置信息，其中，上述第一视频帧与上述二视频帧为待检测视频数据中相邻的两帧视频帧，且上述第二视频帧为上述第一视频帧的下一帧视频帧；、

本发明实施例中的目标跟踪方法可以通过跟踪系统实现，跟踪系统为任意能够实现本发明实施例的目标跟踪方法的系统。例如：

跟踪系统可以为一种设备，包括：处理器、存储器、通信接口和总线；处理器、存储器和通信接口通过总线连接并完成相互间的通信；存储器存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本发明实施例的目标跟踪方法。

跟踪系统还可以为一种应用程序，用于在运行时执行本发明实施例的目标跟踪方法。

跟踪系统还可以为一种存储介质，用于存储可执行代码，可执行代码用于执行本发明实施例的目标跟踪方法。

跟踪系统通过第一神经网络对第一视频帧及第二视频帧进行检测分析。第一神经网络可以为Faster RCNN、Yolo、SSD、RCNN(Regions With Convolutional Neural NetworkFeatures)或DMP(Deformable Parts Model，可变形部件模型)等。第一神经网络用于待检测目标的目标检测。第一视频帧与二视频帧为待检测视频数据中相邻的两帧视频帧，且在时序上第二视频帧为第一视频帧的下一帧视频帧，例如第一视频帧为待检测视频数据中的第T-1帧视频帧，则第二视频帧为待检测视频数据中的第T帧视频帧，其中，T为大于1的正整数。

第一待检测目标为第一视频帧中的待检测目标，待检测目标的种类可以根据实际需求进行设定，例如，待检测目标为车辆、车牌或行人等。第一视频帧的第一视频帧特征信息为第一视频帧整个视频帧的特征信息，例如为整个第一视频帧的conv5特征等。第一目标特征信息为第一待检测目标的特征信息，例如为第一待检测目标的conv5特征等。第一位置信息为第一待检测目标在第一视频帧中的位置信息，例如第一位置信息为第一待检测目标在第一视频帧中矩形目标框的左上角坐标(x1，y1)和右下角坐标(x2，y2)等。

第二待检测目标为第二视频帧中的待检测目标。第二视频帧特征信息为第二视频帧整个视频帧的特征信息，例如为整个第二视频帧的conv5特征等。第二目标特征信息为第二待检测目标的特征信息，例如为第二待检测目标的conv5特征等。第二位置信息为第二待检测目标在第二视频帧中的位置信息，例如第二位置信息为第二待检测目标在第二视频帧中矩形目标框的左上角坐标(x1，y1)和右下角坐标(x2，y2)等。

S302，通过第二神经网络对上述第一目标特征信息及上述第二目标特征信息进行相似度分析，确定上述第一待检测目标与上述第二待检测目标的相似度。

第二神经网络可以为VGG(Visual Geometry Group，视觉几何群)，ResNet(Residual Networks，残差网络)，Google Inception等网络骨架。第二神经网络用于基于第一目标特征信息及第二目标特征信息，继续进行特征提取，使同一目标的特征的差别尽可能较小，不同的目标的特征的差别尽可能较大。根据第一目标特征信息提取的特征及第二目标特信息提取的特征，确定第一待检测目标与第二待检测目标的相似度。

S303，通过第三神经网络对上述第一位置信息、上述第一视频帧特征信息及上述第二视频帧特征信息进行位置预测分析，得到上述第一待检测目标在上述第二视频帧中的预测位置信息。

第三神经网络可以为VGG(Visual Geometry Group，视觉几何群)，ResNet(Residual Networks，残差网络)，Google Inception等网络骨架。第三神经网络用于根据当前视频帧中目标的位置，预测下一帧视频帧中该目标的位置。

可选的，上述通过第三神经网络对上述第一位置信息、上述第一视频帧特征信息及上述第二视频帧特征信息进行位置预测分析，得到上述第一待检测目标在上述第二视频帧中的预测位置信息，包括：

步骤一，对上述第一视频帧特征信息及上述第二视频帧特征信息进行特征融合，得到融合特征。

对第一视频帧特征信息及第二视频帧特征信息进行特征融合，是指将两个特征信息整合为一个特征信息，例如将第一视频帧特征信息和第二视频帧特征信息进行相加，或将第一视频帧特征信息和第二视频帧特征信息进行“并联”。其中，“并联”是指将后一帧的特征直接放在前一帧特征的后面，例如，第一视频帧特征信息为a，第二视频帧特征信息为b，则“并联”后的融合特征为ab。

步骤二，通过第三神经网络，根据上述融合特征及上述第一位置信息，确定位置关系函数。

在第三神经网络训练的过程中，会得到与融合特征及第一位置信息对应的位置关系函数，根据上述融合特征及上述第一位置信息，确定对应的位置关系函数。

步骤三，根据位置关系函数，确定上述第一待检测目标在上述第二视频帧中的预测位置信息。

利用位置关系函数对第一位置信息进行转换，得到第一待检测目标在第二视频帧中的预测位置信息。例如，位置关系函数为位置转换矩阵，利用第一位置信息乘以位置转换矩阵，得到第一待检测目标在第二视频帧中的预测位置信息。

在本发明实施例中，通过融合特征预测第一待检测目标在第二视频帧中的预测位置信息，得到的预测位置信息更加准确。通过对相邻帧的特征进行融合，以当前视频帧的目标位置信息以及下一帧的标定信息作为监督信息，预测当前视频帧的目标在下一视频帧中的位置，可以用于后续的行人重识别、检索等问题。可选的，为了进一步增加预测位置信息的准确度，可以选取更多视频帧的视频帧特征进行特征融合。

S304，结合上述相似度、上述预测位置信息及上述第二位置信息，确定上述第一待检测目标与上述第二待检测目标的关联度。

跟踪系统确定预测位置信息及第二位置信息的重合度，并结合相似度，得到第一待检测目标与第二待检测目标的关联度。

S305，判断上述关联度与预设关联阈值的大小。

预设关联阈值为实验值，根据神经网络的实际情况进行设定。在设定预设关联阈值时，应当保证尽可能多的正样本的关联度大于关联阈值，同时保证尽可能多的负样本的关联度小于关联阈值。正样本是指为同一目标的两个待检测目标，负样本是指不为同一目标的两个待检测目标。

S306，若上述关联度大于上述关联阈值，判定上述第一待检测目标与上述第二待检测目标为同一目标，以实现目标跟踪。

第一待检测目标与第二待检测目标为同一目标，即实现了对第一待检测目标在第二视频帧中的跟踪。

在本发明实施例中，实现了视频数据中的目标跟踪，充分利用目标检测过程中提取的特征信息，第二神经网络与第三神经网络对目标检测过程中提取的特征信息进行相似度分析和位置预测分析，大大节约了计算量，从而实现了高效的目标跟踪。

可选的，上述通过第二神经网络对上述第一目标特征信息及上述第二目标特征信息进行相似度分析，确定上述第一待检测目标与上述第二待检测目标的相似度，包括：

步骤一，通过第二神经网络，将上述第一目标特征信息及上述第二目标特征信息进行归一化，得到归一化后的第一目标特征信息及归一化后的第二目标特征信息，其中，上述归一化后的第一目标特征信息及上述归一化后的第二目标特征信息的维度相同。

对第一目标特征信息及第二目标特征信息进行归一化池化操作，即将不同维度的目标特征归一化到相同大小，例如，采用ROI_pooling操作将第一目标特征信息及第二目标特征信息进行归一化操作。

步骤二，对上述归一化后的第一目标特征信息及上述归一化后的第二目标特征信息进行特征提取，得到第一特征矩阵和第二特征矩阵。

通过第二神经网络中的识别子网络，对归一化后的第一目标特征信息及归一化后的第二目标特征信息进行特征提取，得到第一特征矩阵和第二特征矩阵。其中，识别子网络由不同的卷积层和池化层组成。识别子网络使得相同的目标的特征尽可能相差较小，不同的目标的特征尽可能相差较大。

步骤三，计算上述第一特征矩阵和上述第二特征矩阵的相似度矩阵，作为上述第一待检测目标与上述第二待检测目标的相似度。

可以通过计算第一特征矩阵和第二特征矩阵中各特征的距离，例如，欧式距离或余弦距离等，得到二者的相似度矩阵，其中，相似度矩阵中各特征的相似度与距离负相关。

可选的，上述结合上述相似度、上述预测位置信息及上述第二位置信息，确定上述第一待检测目标与上述第二待检测目标的关联度，包括：

步骤一，计算上述预测位置信息及上述第二位置信息的重合度。

重合度表征预测位置信息与第二位置信息代表区域的重合程度。例如，按照预测位置信息的矩形框坐标及第二位置信息的矩形框坐标计算重合度。

步骤二，按照预设关联算法，根据上述相似度与上述重合度，计算上述第一待检测目标与上述第二待检测目标的关联度。

预设关联算法为任意算法，例如将重合度与相似度相乘，或将重合度与相似度乘以各自设定的系数后相加等。预设关联阈值的设定与关联算法有关，预设关联阈值可以为实验值，在选取预设关联阈值时，应当保证尽可能多的正样本的关联度大于关联阈值，同时保证尽可能多的负样本的关联度小于关联阈值。

可选的，在相似度为相似度矩阵时，重合度可以用关联距离矩阵代替。关联距离矩阵的纬度与相似度矩阵的维度相同，关联距离矩阵中各元素的值与重合度正相关，与预测位置信息及第二位置信息中相应元素的距离负相关。可以将相似度矩阵与关联距离矩阵乘以各自设定的系数后相加得到关联度。

本发明实施例还提供了一种目标跟踪装置，参见图4，该装置包括：

指定目标检测模块401，用于通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到上述第一视频帧的第一视频帧特征信息、上述第二视频帧的第二视频帧特征信息、上述第一视频帧中第一待检测目标的第一目标特征信息、上述第二视频帧中第二待检测目标的第二目标特征信息、上述第一待检测目标在上述第一视频帧中的第一位置信息及上述第二待检测目标在上述第二视频帧中的第二位置信息，其中，上述第一视频帧与上述二视频帧为待检测视频数据中相邻的两帧视频帧，且上述第二视频帧为上述第一视频帧的下一帧视频帧；

相似度确定模块402，用于通过第二神经网络对上述第一目标特征信息及上述第二目标特征信息进行相似度分析，确定上述第一待检测目标与上述第二待检测目标的相似度；

位置预测模块403，用于通过第三神经网络对上述第一位置信息、上述第一视频帧特征信息及上述第二视频帧特征信息进行位置预测分析，得到上述第一待检测目标在上述第二视频帧中的预测位置信息；

关联度确定模块404，用于结合上述相似度、上述预测位置信息及上述第二位置信息，确定上述第一待检测目标与上述第二待检测目标的关联度；

阈值判断模块405，用于判断上述关联度与预设关联阈值的大小；

目标判定模块406，用于若上述关联度大于上述关联阈值，判定上述第一待检测目标与上述第二待检测目标为同一目标，以实现目标跟踪。

其中，指定目标检测模块401可以理解为上述图1中的目标检测模块101，相似度确定模块402可以理解为上述图1中的目标相似性判断模块102，位置预测模块403可以理解为上述图1中的目标框预测模块103，关联度确定模块404、阈值判断模块405及目标判定模块406可以存在于图1中的目标关联模块104中。

可选的，上述相似度确定模块402，包括：

归一化子模块，用于将上述第一目标特征信息及上述第二目标特征信息进行归一化，得到归一化后的第一目标特征信息及归一化后的第二目标特征信息，其中，上述归一化后的第一目标特征信息及上述归一化后的第二目标特征信息的维度相同；

特征矩阵确定子模块，用于对上述归一化后的第一目标特征信息及上述归一化后的第二目标特征信息进行特征提取，得到第一特征矩阵和第二特征矩阵；

相似度矩阵计算子模块，用于计算上述第一特征矩阵和上述第二特征矩阵的相似度矩阵，作为上述第一待检测目标与上述第二待检测目标的相似度。

可选的，上述位置预测模块403，包括：

特征融合子模块，用于对上述第一视频帧特征信息及上述第二视频帧特征信息进行特征融合，得到融合特征；

函数确定子模块，用于根据上述融合特征及上述第一位置信息，确定位置关系函数；

位置计算子模块，用于根据上述位置关系函数，确定上述第一待检测目标在上述第二视频帧中的预测位置信息。

可选的，上述关联度确定模块404，包括：

重合度计算子模块，用于计算上述预测位置信息及上述第二位置信息的重合度；

关联度计算子模块，用于按照预设关联算法，根据上述相似度与上述重合度，计算上述第一待检测目标与上述第二待检测目标的关联度。

本发明实施例提供了一种电子设备，参见图5，包括处理器501及存储器502；

上述存储器502，用于存放计算机程序；

上述处理器501，用于执行上述存储器502上所存放的程序时，实现如下步骤：

通过第一神经网络对第一视频帧及第二视频帧进行检测分析，得到上述第一视频帧的第一视频帧特征信息、上述第二视频帧的第二视频帧特征信息、上述第一视频帧中第一待检测目标的第一目标特征信息、上述第二视频帧中第二待检测目标的第二目标特征信息、上述第一待检测目标在上述第一视频帧中的第一位置信息及上述第二待检测目标在上述第二视频帧中的第二位置信息，其中，上述第一视频帧与上述二视频帧为待检测视频数据中相邻的两帧视频帧，且上述第二视频帧为上述第一视频帧的下一帧视频帧；

通过第二神经网络对上述第一目标特征信息及上述第二目标特征信息进行相似度分析，确定上述第一待检测目标与上述第二待检测目标的相似度；

通过第三神经网络对上述第一位置信息、上述第一视频帧特征信息及上述第二视频帧特征信息进行位置预测分析，得到上述第一待检测目标在上述第二视频帧中的预测位置信息；

结合上述相似度、上述预测位置信息及上述第二位置信息，确定上述第一待检测目标与上述第二待检测目标的关联度；

判断上述关联度与预设关联阈值的大小；

若上述关联度大于上述关联阈值，判定上述第一待检测目标与上述第二待检测目标为同一目标，以实现目标跟踪。

可选的，上述处理器501，用于执行上述存储器502上所存放的程序时，还能够实现上述任一目标跟踪方法。

可选的，本发明实施例的电子设备还包括通信接口和通信总线，其中，处理器501，通信接口，存储器502通过通信总线完成相互间的通信，

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

判断上述关联度与预设关联阈值的大小；

可选的，上述计算机程序被处理器执行时，还能够实现上述任一目标跟踪方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

判断所述关联度与预设关联阈值的大小；

2.根据权利要求1所述的方法，其特征在于，所述通过第二神经网络对所述第一目标特征信息及所述第二目标特征信息进行相似度分析，确定所述第一待检测目标与所述第二待检测目标的相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过第三神经网络对所述第一位置信息、所述第一视频帧特征信息及所述第二视频帧特征信息进行位置预测分析，得到所述第一待检测目标在所述第二视频帧中的预测位置信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述结合所述相似度、所述预测位置信息及所述第二位置信息，确定所述第一待检测目标与所述第二待检测目标的关联度，包括：

计算所述预测位置信息及所述第二位置信息的重合度；

5.一种目标跟踪装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述相似度确定模块，包括：

7.根据权利要求5所述的装置，其特征在于，所述位置预测模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述关联度确定模块，包括：

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。