CN110930434B

CN110930434B - 目标对象跟随方法、装置、存储介质和计算机设备

Info

Publication number: CN110930434B
Application number: CN201911147391.9A
Authority: CN
Inventors: 周文; 夏茂才; 唐梦云
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-05-12
Anticipated expiration: 2039-11-21
Also published as: CN110930434A

Abstract

本申请涉及一种目标对象跟随方法、装置、存储介质和计算机设备，其中方法包括：获取视频帧序列；视频帧序列包括第一视频帧和第二视频帧；第二视频帧为第一视频帧在后的视频帧；依次对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征；基于第一视频帧对应的图像特征，确定第一视频帧中的目标对象；根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出空间区域较大的第一候选特征；从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。本申请提供的方案可以提高目标对象处理效率。

Description

目标对象跟随方法、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标对象跟随方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，视频处理技术也在不断的发展。现状，在人们的日常生活中出现了越来越多需要对视频或图像进行处理的场景，比如通过摄像头对小区或商场等人流量大的地方进行视频监测，并分析视频中出现的异常情况等。对摄像头采集的视频进行处理，常常需要对视频中出现的目标对象进行检测和跟随。

传统的对目标对象进行检测和跟随通常是分成两个独立的模块来分别处理，也就是目标检测模块和目标跟随模块。目标检测模块可检测出新加入的跟随目标，目标跟随模块对所有的目标预测在下一帧的位置。这两个模块独立提取视频中的图像特征，然后分别输出结果，最后融合得到最终的结果。

然而，传统的目标检测和跟随的方式，两个模块都需要单独提取视频中的图像特征并进行相应的任务处理，最终融合处理结果，存在处理效率低的问题。

发明内容

基于此，有必要针对目标对象处理效率低的技术问题，提供一种目标对象跟随方法、装置、计算机可读存储介质和计算机设备。

一种目标对象跟随方法，包括：

获取视频帧序列；所述视频帧序列包括第一视频帧和第二视频帧；所述第二视频帧为所述第一视频帧在后的视频帧；

依次对所述视频帧序列中的各视频帧进行特征提取，得到对应的图像特征；

基于所述第一视频帧对应的图像特征，确定所述第一视频帧中的目标对象；

根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征，并从所述第二视频帧对应的图像特征中提取出第一候选特征；所述第一候选特征对应的空间区域大于所述目标特征对应的空间区域；

从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域。

一种目标对象跟随装置，包括：

获取模块，用于获取视频帧序列；所述视频帧序列包括第一视频帧和第二视频帧；所述第二视频帧为所述第一视频帧在后的视频帧；

特征提取模块，用于依次对所述视频帧序列中的各视频帧进行特征提取，得到对应的图像特征；

确定模块，用于基于所述第一视频帧对应的图像特征，确定所述第一视频帧中的目标对象；

所述特征提取模块还用于根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征，并从所述第二视频帧对应的图像特征中提取出第一候选特征；所述第一候选特征对应的空间区域大于所述目标特征对应的空间区域；

所述确定模块还用于从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域。

在其中一个实施例中，所述获取模块，还用于获取视频流数据；对所述视频流数据进行运动检测，以确定所述视频流数据中包括有运动目标的视频帧；将确定的所述视频帧，按相应视频帧组成所述视频流数据的时序，构成待处理的视频帧序列。

在其中一个实施例中，所述特征提取模块，还用于通过共享网络依次对所述视频帧序列中的各视频帧进行特征提取，得到各所述视频帧对应的图像特征；所述确定模块，还用于将所述第一视频帧对应的图像特征输入至目标检测网络，通过所述目标检测网络确定所述第一视频帧中包括的目标对象；所述确定模块，还用于将所述目标特征和所述第一候选特征输入至目标跟随网络，通过所述目标跟随网络从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域。

在其中一个实施例中，所述特征提取模块，还用于确定所述目标对象的目标部件，并确定所述目标部件在所述第一视频帧中的目标区域；从所述第一视频帧对应的图像特征中提取出与所述目标区域对应的目标特征；确定所述第二视频帧中与所述目标区域的中心点一致、且面积大于所述目标区域的第一候选区域；从所述第二视频帧对应的图像特征中提取出与所述第一候选区域对应的第一候选特征。

在其中一个实施例中，所述特征提取模块，还用于根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征；确定所述第二视频帧中与所述目标区域的中心点一致、且面积大于所述目标区域的多于一个的第一候选区域；所述多于一个的第一候选区域对应不同的面积大小；依据各所述第一候选区域，从所述第二视频帧对应的图像特征中提取出与各所述第一候选区域分别对应的区域特征；将各所述区域特征缩放至标准尺寸，得到多于一个的、且与各所述第一候选区域分别对应的第一候选特征。

在其中一个实施例中，所述确定模块，还用于对于不同的第一候选特征，根据所述目标特征，分别从所述第一候选特征中查找满足第一匹配条件的待选特征块；从所述待选特征块中筛选出满足第二匹配条件的特征块；根据筛选出的所述特征块，确定所述第二视频帧中与所述目标对象对应的跟随区域。

在其中一个实施例中，所述确定模块，还用于对所述第一候选特征和所述目标特征进行卷积操作，并从所述第一候选特征中搜索在所述目标特征上响应最大的特征块；将所述特征块在所述第二视频帧中对应的空间区域，作为与所述目标对象对应的跟随区域。

在其中一个实施例中，所述确定模块，还用于确定所述第一候选特征中与所述目标特征具有相同尺寸的、且多于一个的候选特征块；分别将所述候选特征块与所述目标特征进行相似度计算；将最大相似度对应的候选特征块，作为所述第一候选特征中在所述目标特征上响应最大的特征块。

在其中一个实施例中，所述视频帧序列还包括第三视频帧，所述第三视频帧为所述第二视频帧在后的视频帧，所述确定模块，还用于确定所述第三视频帧的前序视频帧；所述前序视频帧包括第二视频帧；确定所述第三视频帧中与所述前序视频帧中目标对象对应的跟随区域的中心点一致、且面积大于所述跟随区域的第二候选区域；所述特征提取模块，还用于从所述第三视频帧对应的图像特征中提取出与所述第二候选区域对应的第二候选特征；所述确定模块，还用于从所述第二候选特征中，查找与所述目标特征匹配的特征块；根据所述第二候选特征中与所述目标特征匹配的特征块，确定所述第三视频帧中与所述目标对象对应的跟随区域。

在其中一个实施例中，所述第一视频帧、第二视频帧和第三视频帧构成一个周期内的视频帧序列，其中，所述第一视频帧为当前周期内的初始视频帧，所述第三视频帧包括至少一帧的视频帧；所述目标对象跟随装置还包括更新模块，其中，所述获取模块，还用于对于每一个周期，均获取当前周期内的视频帧序列，并确定当前周期内所述视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧；所述特征提取模块，还用于据当前周期内的所述初始视频帧中目标对象对应的目标区域，从所述当前周期内的所述初始视频帧对应的图像特征中提取出目标特征；所述更新模块，用于通过提取出的目标特征更新前一周期所对应的目标特征。

在其中一个实施例中，所述目标对象跟随装置还包括分析模块，其中，所述确定模块，还用于确定不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；所述分析模块，用于分析所述不同的目标对象各自对应的行为特征，以对所述不同摄像头所监测的场所进行安全监测。

在其中一个实施例中，所述目标对象跟随装置还包括计算模块，其中，所述确定模块，还用于确定不同来源的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；所述分析模块还用于分析不同的目标对象对应的行为特征，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象；所述确定模块，还用于获取所述观测对象各自对应的视频帧，并确定相应视频帧对应的图像特征；所述特征提取模块，还用于根据包括所述观测对象的观测区域，从所确定的图像特征中分别提取出相应的观测特征；所述计算模块，用于对所述至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行两两相似度计算，得到计算结果；所述确定模块，还用于根据所述计算结果，确定对所述至少两个来源的视频帧序列各自对应的观测对象进行重识别的识别结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

上述目标对象跟随方法、装置、计算机可读存储介质和计算机设备，对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征。从而可对视频帧序列中的第一视频帧对应的图像特征进行目标检测，以确定第一视频帧中的目标对象。再基于已检测出的目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，该目标特征用于对后续视频帧进行目标跟随处理时的参考特征。进而从第二视频帧对应的图像特征中提取出空间区域较大的第一候选特征，并从第一候选特征中查找与该目标特征匹配的特征块，以确定第二视频帧中与该目标对象对应的跟随区域。这样，从视频帧序列中提取出对应的图像特征，该图像特征可作为共享特征，并在共享特征的基础上分别执行目标检测和目标跟随这两个任务，能够显著地节省显存空间、提高运行速度，大大提高了对目标对象处理的效率。

附图说明

图1为一个实施例中目标对象跟随方法的应用环境图；

图2为一个实施例中目标对象跟随方法的流程示意图；

图3为另一个实施例中目标对象跟随方法的流程示意图；

图4为一个实施例中确定视频帧序列中第三视频帧中与目标对象对应的跟随区域步骤的流程示意图；

图5为一个实施例中对观测对象进行重识别步骤的流程示意图；

图6为一个实施例中目标对象跟随方法的原理结构示意图；

图7为一个实施例中执行目标对象跟随方法的网络结构的整体架构图；

图8为一个实施例中目标对象跟随装置的结构框图；

图9为另一个实施例中目标对象跟随装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中目标对象跟随方法的应用环境图。参照图1，该目标对象跟随方法应用于目标对象跟随系统。该目标对象跟随系统包括终端110、服务器120和图像采集设备130。终端110、服务器120和图像采集设备130分别通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图像采集设备130具体可以是监测设备、具有摄像头的移动终端、或摄像机等。终端110和服务器120均可单独用于执行本申请实施例中提供的目标对象跟随方法。终端110和服务器120也可协同用于执行本申请实施例中提供的目标对象跟随方法。

比如，图像采集设备130可采集视频流数据，终端110或服务器120均可获取图像采集设备130采集的视频流数据，进而各自可单独根据获取的视频流数据执行本申请实施例中的目标对象跟随方法。还比如，图像采集设备130可采集视频流数据，并将采集的视频流数据发送至终端110，终端110可通过显示屏显示视频流数据，并将视频流数据发送至服务器120，服务器120可从视频流数据中获取视频帧序列，并执行本申请实施例中的目标对象跟随方法，得到对目标对象的跟随区域。进而服务器120可将对目标对象的检测结果和跟随结果传回至终端110，以在终端110的显示屏上进行显示。

如图2所示，在一个实施例中，提供了一种目标对象跟随方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2，该目标对象跟随方法具体包括如下步骤：

S202，获取视频帧序列；视频帧序列包括第一视频帧和第二视频帧；第二视频帧为第一视频帧在后的视频帧。

其中，视频帧序列是由一组具有先后时序关系的视频帧构成的序列。视频帧序列包括第一视频帧和第二视频帧，该第一视频帧具体可以是当前周期内的初始视频帧。第二视频帧为第一视频帧之后的视频帧，具体可以是第一视频帧的后一帧视频帧，也可以是第一视频帧的后N帧视频帧，本申请实施例在此不做限定，其中，N为大于1的正整数。

具体地，计算机设备可通过网络连接或接口连接等方式，获取图像采集设备采集的视频流数据，并解析视频流数据得到对应的视频帧序列。在一个实施例中，计算机设备可接收不同的图像采集设备采集的视频流数据，并基于各个视频流数据分别确定相应的视频帧序列，从而针对每组视频帧序列均可执行本申请实施例所提及的目标对象跟随方法。其中，图像采集设备具体可以是监测设备、具有摄像头的移动终端、或摄像机等。

在一个实施例中，步骤S202，也就是获取视频帧序列的步骤具体包括：获取视频流数据；对视频流数据进行运动检测，以确定视频流数据中包括有运动目标的视频帧；将确定的视频帧，按相应视频帧组成视频流数据的时序，构成待处理的视频帧序列。

在一个实施例中，计算机设备可接入视频流数据，通过计算机设备中的运动检测模块对视频流数据进行运动检测，通过分析前后帧的视频帧中的图像像素是否存在差异变化，来判断是否存在运动目标。如果存在运动目标，则将相应的视频帧推入图像队列中；如果不存在运动目标，继续对后续的视频帧进行运动检测。进而，计算机设备可将图像队列中的视频帧取出放入GPU池(Graphics Processing Unit，图形处理池)中，以组成视频帧序列，并对待处理的视频帧序列执行本申请实施例所提及的目标对象跟随方法。

在一个实施例中，对视频帧进行运动检测的算法具体可以是帧间差分法或背景相减法等，本申请实施例对此并不做限定。

可以理解，通过对视频流数据中的视频帧进行筛选，可以删除掉表示静止画面的视频帧、或存在微小差异，比如树叶抖动等的视频帧，从而减小目标对象跟随处理的任务量，可以进一步提高目标对象处理效率。

S204，依次对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征。

具体地，计算机设备可依次对获取的视频帧序列中的各视频帧进行特征提取，得到各视频帧分别对应的图像特征。其中，特征提取是通卷积神经网络提取视频帧中的属于特征性的信息的过程。图像特征是可用来表示输入视频帧的各种信息的特征向量。

在一个实施例中，计算机设备通过共享网络依次对视频帧序列中的各视频帧进行特征提取，得到各视频帧对应的图像特征。可以理解，该共享网络具体可以是卷积神经网络(CNN，Convolutional Neural Networks)。

S206，基于第一视频帧对应的图像特征，确定第一视频帧中的目标对象。

其中，目标对象是视频帧序列中被识别和跟随的、处于运动状态的对象，具体可以人物对象、动物对象或虚拟对象等。具体地，计算机设备可基于共享网络提取的第一视频帧对应的图像特征，通过目标检测网络执行目标检测任务，以确定第一视频帧中的目标对象。

计算机设备可采用基于Region Proposal(候选框)的R-CNN(Region-CNN，区域卷积神经网络)系算法，比如，Fast R-CNN(快速区域卷积神经网络)和Faster R-CNN(更快速区域卷积神经网络)等，以对第一视频帧进行目标检测。其具体做法是先产生候选框，然后再对候选框做分类与回归。或者，计算机设备还可采用比如Yolo(You Only Look Once，一种目标检测算法)，SSD(Single Shot MultiBox Detector，单发多盒探测)这类算法，其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。当然，计算机设备还可采用其他的算法实现对目标对象的检测，本申请实施例在此不做限定。

S208，根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出第一候选特征；第一候选特征对应的空间区域大于目标特征对应的空间区域。

具体地，计算机设备可根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出与该目标区域对应的目标特征。并且，计算机设备还可确定空间面积比目标区域更大一些第一候选区域，并从第二视频帧对应的图像特征中提取出与第一候选区域对应的第一候选特征。

在一个实施例中，共享网络具有多于一层的卷积层，计算机设备可从共享网络中的任一层或指定层在某个时刻输出与第一视频帧对应的图像特征，以及在下个时刻输出与第二视频帧对应的图像特征。进而基于从第一视频帧对应的图像特征中提取出目标特征，从第二视频帧对应的图像特征中提取出第一候选特征。

在一个实施例中，步骤S208，也就是根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出第一候选特征的步骤具体包括：确定目标对象的目标部件，并确定目标部件在第一视频帧中的目标区域；从第一视频帧对应的图像特征中提取出与目标区域对应的目标特征；确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的第一候选区域；从第二视频帧对应的图像特征中提取出与第一候选区域对应的第一候选特征。

其中，目标部件是目标对象的一个组成部分，具体可以是目标对象中具有辨识度、易于检测、且在运动过程中不容易被遮挡的部件。当目标对象是人物对象时，目标部件具体可以是人体的头部、身体躯干或四肢等。

具体地，计算机设备可选取目标对象的某个具有辨识度、易于检测、且在运动过程中不容易被遮挡的部件作为目标部件，并通过目标检测网络对第一视频帧中的各个像素进行分类，根据属于目标部件类别的像素所在的区域，确定目标部件在第一视频帧中的目标区域。其中，计算机设备具体可以直接将目标部件所在的区域作为目标区域，也可以将包括目标部件的最小矩形框所在的区域作为目标区域等，本申请实施例在此不做限定。进而，计算机设备确定了目标区域后，可按照该目标区域的位置，从第一视频帧对应的图像特征中提取出与目标区域对应的目标特征。

进一步地，计算机设备可根据第一视频帧中目标部件所对应的目标区域，确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的第一候选区域。比如，计算机设备可对目标区域的长宽按一定比例放大，得到相匹配的第一候选区域，候选区域的面积，比如可以是目标区域的面积的2倍、1.5倍或2.2倍等。进而，计算机设备在确定了第一候选区域后，可按照该第一候选区域的位置，从第二视频帧对应的图像特征中提取出与第一候选区域对应的第一候选特征。

上述实施例中，在检测出第一视频帧中的目标对象后，可按照目标对象的目标部件在第一视频帧中的目标区域的位置，从第一视频帧对应的图像特征中提取出相应位置的目标特征。并确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的第一候选区域，按照第一候选区域的位置从第二视频帧的图像特征中提取出第一候选特征，可保障第一候选特征所对应的空间区域完全覆盖了目标特征所对应的目标区域，进而可从该第一候选区域中确定待跟随的目标对象，大大缩小了目标对象的跟随范围，减小了工作量，进一步提高了目标对象的处理效率。

S210，从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。

具体地，计算机设备可从第一候选特征中查找与目标特征相似度对高的特征块，作为与目标特征匹配的特征块，从而将查找到的特征块在第二视频帧中对应的空间区域，作为与目标对象对应的跟随区域。

在一个实施例中，计算机设备可将目标特征和第一候选特征输入至目标跟随网络，通过目标跟随网络从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。

在一个实施例中，步骤S210，也就是从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域的步骤具体包括：对第一候选特征和目标特征进行卷积操作，并从第一候选特征中搜索在目标特征上响应最大的特征块；将特征块在第二视频帧中对应的空间区域，作为与目标对象对应的跟随区域。

具体地，计算机设备可将目标特征和第一候选特征分别作为目标跟随网络的输入数据，并通过目标跟随网络对第一候选特征和目标特征进行卷积操作，进而，计算机设备可从第一候选特征中搜索在目标特征上响应最大的特征块。该响应最大的特征块即可认为是在局部时空区域内与目标特征相似度最高的特征块。从而计算机设备可将该特征块在第二视频帧中对应的空间区域，作为与目标对象对应的跟随区域，也就是第二视频帧中的跟随框的区域位置。其中，对第一候选特征和目标特征进行卷积操作，具体可以是将第一候选特征中的多个第一候选特征块分布与目标特征进行点积运算，以计算各个第一候选特征块分别与目标特征之间的相似度。

在一个实施例中，对第一候选特征和目标特征进行卷积操作，并从第一候选特征中搜索在目标特征上响应最大的特征块，包括：确定第一候选特征中与目标特征具有相同尺寸的、且多于一个的候选特征块；分别将候选特征块与目标特征进行相似度计算；将最大相似度对应的候选特征块，作为第一候选特征中在目标特征上响应最大的特征块。

具体地，计算机设备可采用搜索的方式，从第一候选特征中提取出与目标特征具有相同尺寸的、且多于一个的候选特征块。对于每个候选特征块，计算机设备可分别将该候选特征块与目标特征进行点积运算，以计算该候选特征块与目标特征的相似度。这样，计算机设备可得到各个候选特征块分别与目标特征块的相似度。进而计算机设备可将最大相似度对应的候选特征块，作为候选特征中在目标特征上响应最大的特征块。这样，可从候选特征中，快速且准确地筛选出与目标特征最相似的特征块，该特征块是目标对象在运动过程中对应的特征的可能性非常之大，因而该特征块对应的空间区域，可以认为是第二视频帧中目标对象所在的区域，也就是跟随区域。

上述目标对象跟随方法，对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征。从而可对视频帧序列中的第一视频帧对应的图像特征进行目标检测，以确定第一视频帧中的目标对象。再基于已检测出的目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，该目标特征用于对后续视频帧进行目标跟随处理时的参考特征。进而从第二视频帧对应的图像特征中提取出空间区域较大的第一候选特征，并从第一候选特征中查找与该目标特征匹配的特征块，以确定第二视频帧中与该目标对象对应的跟随区域。这样，从视频帧序列中提取出对应的图像特征，该图像特征可作为共享特征，并在共享特征的基础上分别执行目标检测和目标跟随这两个任务，能够显著地节省显存空间、提高运行速度，大大提高了对目标对象处理的效率。

在一个实施例中，该目标对象跟随方法具体包括：

S302，获取视频帧序列；视频帧序列包括第一视频帧和第二视频帧；第二视频帧为第一视频帧在后的视频帧。

S304，通过共享网络依次对视频帧序列中的各视频帧进行特征提取，得到各视频帧对应的图像特征。

S306，将第一视频帧对应的图像特征输入至目标检测网络，通过目标检测网络确定第一视频帧中包括的目标对象。

S308，根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出第一候选特征；第一候选特征对应的空间区域大于目标特征对应的空间区域。

S310，将目标特征和第一候选特征输入至目标跟随网络，通过目标跟随网络从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。

具体地，计算机设备可通过一个基础的共享网络提取共享特征，也就是各个视频帧对应的图像特征，并在共享特征的基础上分出两个分支分别做目标检测和目标跟随任务，以实现对目标对象的持续跟随。

在一个实施例中，计算机设备可单独或联合训练各个网络结构，比如，对于共享网络和目标检测网络，计算机设备可联合训练，通过预先标注有标注信息的图像样本，共同训练共享网络和目标检测网络，通过共享网络和目标检测网络提取出图像样本对应的图像特征，并基于提取出的图像特征进行目标检测，输出检测的目标对象对应的预测检测框。通过该预测检测框的位置和标注信息之间的差异来调整共享网络和目标检测网络的网络参数，直到满足训练停止条件时结束训练。其中，训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整网络参数后的共享网络和目标检测网络的性能指标达到预设指标等。

此外，计算机设备可单独训练目标跟随网络，比如，计算机设备可采用Siamese网络(孪生神经网络)作为目标跟随网络。计算机设备可获取正对图片和负对图片作为输入图像，以训练目标跟随网络。其中，正对图片是两张图片属于同一个目标的图片对，负对图片是两张图片不属于同一个目标的图片对。计算机设备可采用预先训练好的共享网络分别提取正对图片或负对图片对应的图像特征。将正对图片或负对图片各自对应的图像特征作为Siamese网络的两个输入，通过Siamese网络对输入数据进行处理，得到对应的预测输出。其中，预测输出具体可以为表示两张输入图片是否为同一对象的概率。并基于输入数据对应的标签(是同一对象，或者，不是同一对象)与预测输出的差异调整目标跟随网络的网络参数，直到满足训练停止条件时结束训练。

其中，为了进一步减少计算时间，计算机设备在训练目标跟随网络的过程中可通过训练来减少跟随所用的图像特征的通道数，进一步加速卷积跟随的过程。比如，可通过训练的方式将图像特征的通道数减少到8，这样，在目标跟随网络在处理可以加快处理效率，提高了目标对象处理的效率。

上述实施例中，在目标对象的处理过程中，将目标检测和目标跟随两个模块深度融合起来，通过一个基础的共享网络提取图像特征，然后将该图像特征分给不同的分支，以分别执行目标检测任务和目标跟随任务，从而得到对目标对象的处理结果，可以显著节省显存的使用，并能够提高处理速度。

在一个实施例中，考虑到目标对象在运动过程中体型变化的因素，也就是在跟随过程中出现的多尺度问题，计算机设备可提取与第二视频帧对应的不同尺度的第一候选特征，以实现对运动的目标对象的准确跟随。步骤S208，也就是根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出第一候选特征的步骤，具体包括：根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征；确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的多于一个的第一候选区域；多于一个的第一候选区域对应不同的面积大小；依据各第一候选区域，从第二视频帧对应的图像特征中提取出与各第一候选区域分别对应的区域特征；将各区域特征缩放至标准尺寸，得到多于一个的、且与各第一候选区域分别对应的第一候选特征。

在一个实施例中，计算机设备可根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中，提取出与目标区域相应的目标特征。进一步地，计算机设备可根据第一视频帧中目标部件所对应的目标区域，确定第二视频帧中与该目标区域的中心点一致、且面积大于目标区域的多于一个的第一候选区域。其中，不同的第一候选区域对应不同的面积。比如，计算机设备可对目标区域的长宽按不同比例放大，从而得到不同的第一候选区域。多于一个的候选区域的面积，比如可以是目标区域的面积的2倍、1.5倍或2.2倍等。

进而，计算机设备在确定了多于一个的第一候选区域后，可按照各第一候选区域的位置，从第二视频帧对应的图像特征中分别提取出与各第一候选区域对应的多于一个的区域特征。计算机设备可将每个区域特征分别缩放至标准尺寸，得到多于一个的、且与各第一候选区域分别对应的第一候选特征。

在一个实施例中，步骤S210，也就是从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域的步骤，包括：对于不同的第一候选特征，根据目标特征，分别从第一候选特征中查找满足第一匹配条件的待选特征块；从待选特征块中筛选出满足第二匹配条件的特征块；根据筛选出的特征块，确定第二视频帧中与目标对象对应的跟随区域。

具体地，对于每个不同的第一候选特征，计算机设备可分别从第一候选特征中查找与目标特征相似度对高或相似度大于等于阈值的特征块，作为待选特征块。再从各第一候选特征块分别对应的待选特征块中，筛选出与目标特征相似度对高或相似度大于等于阈值的特征块。进而计算机设备可根据筛选出的特征块，确定第二视频帧中与目标对象对应的跟随区域。其中，满足第一匹配条件的待选特征块，具体可以是第一候选特征中与目标特征间的相似度大于等于阈值，或者相似度最高的特征块。满足第二匹配条件的特征块，具体可以是待选特征块中与目标特征间的相似度大于等于阈值，或者相似度最高的特征块。

上述实施例中，可以解决目标对象跟随过程中多尺度的问题，可采用不同的尺度选取第二视频帧对应的第一候选特征，从而从每个尺度中选取满足第一匹配条件的待选特征块，再结合多个尺度，选择多个尺度中相似度最大的特征块对应的坐标作为最后的跟随结果，大大提高了对目标对象进行跟随的准确性。

在一个实施例中，视频帧序列还包括第三视频帧，第三视频帧为第二视频帧在后的视频帧，该目标对象跟随方法还包括确定第三视频帧中与目标对象对应的跟随区域的步骤，该步骤具体包括：

S402，确定第三视频帧的前序视频帧，并确定第三视频帧中与前序视频帧中目标对象对应的跟随区域的中心点一致、且面积大于跟随区域的第二候选区域，其中，前序视频帧包括第二视频帧。

可以理解，对视频帧序列中的目标对象进行跟随是一个持续的过程。在前述实施例所提及的目标对象处理方法的过程中，计算机设备可以将第一视频帧作为当前周期内的初始视频帧。也就是在当前周期内，计算机设备可对初始视频帧进行目标检测，以确定目标对象的初始位置，进而对后续的视频帧进行目标跟随，以跟随该目标对象。那么对于第二视频帧之后的第三视频帧，计算机设备在进行目标跟随任务处理的具体过程，接下来会进行详细的阐述。

可以理解，对第三视频帧的处理，计算机设备可以前序视频帧所确定的目标对象的跟随区域为基础，来确定第三视频帧中目标对象的跟随区域。其中，前序视频帧具体可以是前一帧或前N帧(其中，N为大于1的正整数)视频帧。可以理解，第三视频帧的前序视频帧包括第二视频帧，也就是说，第三视频帧的前序视频帧可以是第二视频帧。

在一个实施例中，计算机设备可根据第二视频帧中目标对象对应的跟随区域，确定第三视频帧中与该跟随区域的中心点一致、且面积大于该跟随区域的第二候选区域。

S404，从第三视频帧对应的图像特征中提取出与第二候选区域对应的第二候选特征。

具体地，计算机设备可从第三视频帧对应的图像特征中提取出与第二候选区域对应的第二候选特征。

S406，从第二候选区域对应的第二候选特征中，查找与目标特征匹配的特征块。

进而，计算机设备可从第二候选区域对应的第二候选特征中，查找与第一视频帧对应的目标特征匹配的特征块。

S408，根据第二候选特征中与目标特征匹配的特征块，确定第三视频帧中与目标对象对应的跟随区域。

具体地，计算机设备可根据第二候选特征中与目标特征匹配的特征块，确定第三视频帧中与目标对象对应的跟随区域。

可以理解，对于第一视频帧之后的视频帧，在对第一视频帧的后续视频帧进行目标对象跟随时，会根据当前视频帧的前一视频帧中目标对象对应的跟随区域，而确定当前视频帧所对应的第二候选区域。可以理解，此处的第二候选区域可以是一个，也可以是多个(关于多尺度的相关内容具体可参考前述实施例中关于第一候选区域的描述)。进而再从当前视频帧对应的图像特征中，提取出与各第二候选区域对应的第二候选特征。对于第一视频帧的后续视频帧，在对后续的视频帧进行目标跟随任务处理时，均是在当前视频帧对应的第二候选特征中，查找与第一视频帧对应的目标特征相匹配的特征块，从而以确定当前视频帧中目标对象对应的跟随区域。这是为了减少跟随框和所对应的特征层之间的量化误差的影响。

关于计算机设备如何确定第二候选区域、提取出与候选区域对应的第二候选特征、以及从第二候选特征中查找与目标特征匹配的特征块的详细步骤，均可参考前述实施例中对第二视频帧的处理过程，在此就不再赘述。

可以理解，第三视频帧的数量可以是一帧，也可以是多帧，对于当前周期内的第二视频帧之后的视频帧，均可采用与第三视频帧相同的处理方式，来确定视频帧中目标对象的跟随区域，以实现对目标对象的不间断的跟随。

以当前周期内对当前视频帧进行处理时，所参考的跟随区域为前一帧为例进行说明。在当前周期内，计算机设备可通过共享网络对当前周期的初始视频帧进行特征提取，再通过目标检测网络检测初始视频帧中的目标对象。在当前视频帧为视频帧序列中的第二帧时，也就是初始视频帧的下一帧，计算机设备可通过共享网络对当前视频帧进行特征提取，得到当前视频帧对应的图像特征。进而根据初始视频帧的目标区域，确定当前的第一候选区域，从而从当前视频帧对应的图像特征中提取出第一候选特征。再通过目标跟随网络从第一候选特征中查找与初始视频帧的目标特征对应的特征块，从而根据特征块确定当前视频帧中对目标对象进行跟随的跟随区域。

进一步地，计算机设备可通过共享网络对当前帧的下一帧进行特征提取，得到下一帧对应的图像特征，进而根据当前视频帧帧的跟随区域，确定下一帧的第二候选区域，从而从下一帧对应的图像特征中提取出第二候选特征。再通过目标跟随网络从第二候选特征中查找与初始视频帧的目标特征对应的特征块，从而根据特征块确定下一帧中对目标对象进行跟随的跟随区域。

上述实施例中，在对视频帧序列中的目标对象进行跟随时，从第三视频帧对应的第二候选特征中查找与第一视频帧对应的目标特征匹配的特征块，可以解决跟随框与所对应的特征层存在空间的量化误差而导致后续误差一步步累积的问题，避免了在后续视频帧的处理过程中，特征提取的位置慢慢漂移，最终导致跟随漂移的问题，进一步提高了目标对象跟随的准确性。

在一个实施例中，第一视频帧、第二视频帧和第三视频帧构成一个周期内的视频帧序列，其中，第一视频帧为当前周期内的初始视频帧，第三视频帧包括至少一帧的视频帧；获取视频帧序列包括：对于每一个周期，均获取当前周期内的视频帧序列，并确定当前周期内视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧；根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，包括：根据当前周期内的初始视频帧中目标对象对应的目标区域，从当前周期内的初始视频帧对应的图像特征中提取出目标特征，并通过提取出的目标特征更新前一周期所对应的目标特征。

在一个实施例中，计算机设备可将连续的预设帧数的视频帧作为一个周期内的视频帧序列，在每个周期内的视频帧序列均包括第一视频帧、第二视频帧和第三视频帧。其中，第一视频帧具体可以是该周期内的初始视频帧，第二视频帧具体可以是该周期内的第二个视频帧，后续的视频帧均可称作第三视频帧。

对于每一个周期,计算机设备均获取当前周期内的视频帧序列，并确定当前周期内视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧。计算机设备可重新对当前周期内的初始视频帧进行目标检测，对初始视频帧之后的视频帧中的目标对象进行跟随。计算机设备可清除当前周期的前一周期内目标对象对应的目标特征，并将当前周期内的初始视频帧中目标对象对应的目标区域的特征作为更新的目标特征。

可以理解，在实际运用的场景中，常常会遇到跟随框漂移的问题，这个主要是跟随框和所对应的特征层存在空间的量化误差而导致后续误差一步步累积，以致特征提取的位置慢慢漂移，最终导致跟随的漂移。除此之外，目标检测算法执行起来是比较慢的，如果为了解决跟随框漂移而每帧都做目标检测，那么目标对象处理效率就会很低。为了解决上述问题，计算机设备可设置隔多帧做一次检测，其他时间都做跟随。也就是每个周期内的初始视频帧做目标检测任务，初始视频帧之后的视频帧做目标跟随任务。并且，对每个周期内的初始视频帧做目标检测，可在不同的周期中更新目标对象对应的目标特征，这样既缓解了跟随框漂移的问题，也解决了因为目标检测导致算法较慢的问题。

在一个实施例中，该目标对象跟随方法还包括目标对象的运动轨迹分析的步骤，该步骤具体包括：确定不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；分析不同的目标对象各自对应的行为特征，以对不同摄像头所监测的场所进行安全监测。

具体地，计算机设备可分别对不同摄像头采集的视频帧序列，分别执行本申请前述实施例所提及的目标对象跟随方法，从而得到不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域。可以理解，不同摄像头采集的视频帧序列中的目标对象是不同的目标对象。

进一步地，对于每个摄像头采集的视频帧序列，计算机设备可根据目标对象对应的跟随区域，确定该目标对象的行为特征。其中，目标对象的行为特征，具体可以是该目标对象的运动轨迹、停留时间、在同一个摄像头所监测场所出现的次数、是否徘徊等。进而，计算机设备可对不同的目标对象各自对应的行为特征进行统计分析，以实现对不同摄像头所监测的场所进行安全监测。

对不同摄像头所监测的场所进行安全监测，具体可以是当对某摄像头所采集的视频帧序列进行分析后，发现某个目标对象的行为特征满足危险行为特征条件时，计算机设备可触发警报动作，比如发起响声、向预设设备发送预警信息等。其中，某个目标对象的行为特征满足危险行为特征条件，具体可以是该目标对象在同一位置停留时间超过预设时间、该目标对象在同一个场所出现的次数超过预设次数、以及该目标对象在某个区域反复徘徊等中的至少一种情况。

在一个实施例中，计算机设备可通过本申请实施例所提及的目标对象跟随方式实现摄像头下多目标跟随，能够减少显存的使用量，极大的提高处理速度。可以应用于各种机房、小区、写字楼、工厂、商场等应用场景。

参考图5，在一个实施例中，该目标对象跟随方法还包括对观测对象进行重识别的步骤，该步骤具体包括：

S502，确定不同来源的视频帧序列各自包括的目标对象所对应的跟随区域。

具体地，计算机设备可获取不同来源的视频帧序列，并分别对每组视频帧序列均执行本申请前述实施例所提及的目标对象跟随方法，从而得到不同来源的视频帧序列各自包括的目标对象所对应的跟随区域。可以理解，不同来源的视频帧序列中的目标对象是不同的目标对象。其中，不同来源的视频帧序列具体可以是不同摄像头采集的不同场所的视频帧序列，还可以是从不同数据平台处获取的不同的视频帧序列等，本申请实施例在此不做限定。

S504，根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征。

具体地，对每个来源的视频帧序列，计算机设备可根据相应的目标对象对应的跟随区域，分析各个对象的行为轨迹、停留时间、在同一个摄像头所监测场所出现的次数、是否徘徊等，得到不同的目标对象对应的行为特征。

S506，分析不同的目标对象对应的行为特征，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象。

具体地，计算机设备可对不同来源的视频帧序列中的目标对象的行为特征进行比对分析，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象。其中，待重识别的观察对象具体可以是行为特征符合危险行为特征条件的对象。

S508，获取观测对象各自对应的视频帧，并确定相应视频帧对应的图像特征。

具体地，计算机设备从不同来源的视频帧序列中筛选出观测对象后，可分别从相应的视频帧序列中随机选择或指定一张包括观测对象视频帧，进而可通过共享网络确定与相应视频帧分别对应的图像特征。

S510，根据包括观测对象的观测区域，从所确定的图像特征中分别提取出相应的观测特征。

具体地，对于确定的包括观测对象的每个视频帧，计算机设备可按照包括观测对象的观测区域，从对应的图像特征中分别提取出相应的观测特征。

S512，对至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行两两相似度计算，得到计算结果。

具体地，计算机设备可对至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行；两两组合，分别进行相似度计算，得到对应的相似度。

S514，根据计算结果，确定对至少两个来源的视频帧序列各自对应的观测对象进行重识别的识别结果。

具体地，计算机设备可将相似度大于预设相似度阈值的两个观测特征对应的观测对象判定为同一个对象。对于存在计算结果矛盾或争议的观测对象，作为待进一步处理的对象。

举例说明，当观测对象包括观测对象A和观测对象B时，观测对象A和观测对象B之间的相似度大于预设相似度阈值，那么可以直接判断观测对象A和观测对象B为同一个对象。当观测对象包括观测对象A、观测对象B时和观测对象C时，观测对象A和观测对象B之间的相似度大于预设相似度阈值、观测对象A和观测对象C之间的相似度小于预设阈值，观测对象C和观测对象B之间的相似度大于预设相似度阈值，那么此时就存在相矛盾的情况，计算机设备可确定当前的识别结果为无法判断，以待工作人员进行人为鉴定或待其他的另行处理。当观测对象包括观测对象A、观测对象B时和观测对象C时，观测对象A和观测对象B之间的相似度大于预设相似度阈值、观测对象A和观测对象C之间的相似度小于预设阈值，观测对象C和观测对象B之间的相似度小于预设相似度阈值，那么计算机设备可判定观测对象A和观测对象B为同一个对象、观测对象A和观测对象C为不同的对象。

上述实施例中，可对不同来源的视频帧序列进行目标检测和跟随，以将可疑的对象作为观测对象并基于共享的图像特征执行重识别任务，进一步减少了工作量和显存的消耗，极大地提升了目标对象的处理效率。

其中，应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体的实施例中，终端可接入显示不同的摄像头采集的视频流数据，终端向服务器发起单屏跟随任务，服务器接入视频流数据。通过服务器中的处理模块对视频流数据进行运动检测，如果发现有运动目标，则将视频流数据中的图像(也就是视频帧)推入图像队列中，如果没有运动目标则直接返回，节省计算量。然后服务器将图像队列中图像取出放入GPU池中以执行本申请实施例所提及的目标对象跟随方法，得到跟随结果并反馈至终端。终端可将图像中目前跟随的结果进行展示。

参考图6，图6为一个实施例中目标对象跟随方法的原理结构示意图。如图6所示，对于上一帧图像I(t-1)和当前帧图像I(t)，服务器可通过共享网络分别进行特征提取，得到对应的图像特征。首先对于上一帧图像I(t-1)，服务器可利用目标检测方法(包括多重的向量卷积运算conv)得到人体检测结果以及头部区域检测结果(class box，区别框)，然后对某个具体的特征层采用ROI Align(Region of Interest alignment，区域特征聚集)的方式提取头部区域的特征F(t-1)。对于I(t)，服务器可在同样的卷积层中，提取大于头部区域的区域(contex box，即包括了头部、且面积更大的区域)处的特征F(t)，比如，提取区域面积为头部区域2倍区域的特征得到F(t)。可以理解，F(t)特征的空间尺寸大小为F(t-1)特征的空间大小的2倍。最后服务器可通过卷积(convolution)的方式确定F(t-1)在F(t)上的最大响应，并得到对应的位置。可以理解，最大响应的特征块即是在局部时空区域内寻找到的与F(t-1)相似度最高的特征块，该特征块对应的空间位置即为当前跟随框的位置。对于跟随过程中多尺度的问题，服务器可提取多尺度的F(t)，然后分别计算不同尺度的F(t)特征分别在F(t-1)上的响应，取所有响应中的最大响应所对应的坐标为最后的跟随结果。

图7为一个实施例中执行目标对象跟随方法的网络结构的整体架构图。如图7所示，该网络结构的整体架构图包括共享网络、目标检测网络和目标跟随网络。服务器可通过一个基础的共享网络提取共享特征，也就是各个视频帧对应的图像特征，并在共享特征的基础上分出两个分支分别做目标检测和目标跟随任务，以实现对目标对象的持续跟随。

本申请所提供的实施例中采用共享计算、共享网络的方式，只需要一个共享网络可同时解决目标检测和目标跟随问题，因此，极大减少了显存的消耗量，最高可以减少50％以上，这对处理大规模多摄像头数据时有更多的优势。除此之外，由于目标跟随网络相对来说更加轻便，因此，模型不用设计得太复杂，速度更快。

如图8所示，在一个实施例中，提供了目标对象跟随装置800，包括获取模块801、特征提取模块802和确定模块803，其中：

获取模块801，用于获取视频帧序列；视频帧序列包括第一视频帧和第二视频帧；第二视频帧为第一视频帧在后的视频帧。

特征提取模块802,，用于依次对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征。

确定模块803，用于基于第一视频帧对应的图像特征，确定第一视频帧中的目标对象。

特征提取模块802，还用于根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，并从第二视频帧对应的图像特征中提取出第一候选特征；第一候选特征对应的空间区域大于目标特征对应的空间区域。

确定模803，还用于从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。

在其中一个实施例中，获取模块801，还用于获取视频流数据；对视频流数据进行运动检测，以确定视频流数据中包括有运动目标的视频帧；将确定的视频帧，按相应视频帧组成视频流数据的时序，构成待处理的视频帧序列。

在其中一个实施例中，特征提取模块802，还用于通过共享网络依次对视频帧序列中的各视频帧进行特征提取，得到各视频帧对应的图像特征；确定模块803，还用于将第一视频帧对应的图像特征输入至目标检测网络，通过目标检测网络确定第一视频帧中包括的目标对象；确定模块803，还用于将目标特征和第一候选特征输入至目标跟随网络，通过目标跟随网络从第一候选特征中查找与目标特征匹配的特征块，并根据查找到的特征块确定第二视频帧中与目标对象对应的跟随区域。

在其中一个实施例中，特征提取模块802，还用于确定目标对象的目标部件，并确定目标部件在第一视频帧中的目标区域；从第一视频帧对应的图像特征中提取出与目标区域对应的目标特征；确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的第一候选区域；从第二视频帧对应的图像特征中提取出与第一候选区域对应的第一候选特征。

在其中一个实施例中，特征提取模块802，还用于根据与目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征；确定第二视频帧中与目标区域的中心点一致、且面积大于目标区域的多于一个的第一候选区域；多于一个的第一候选区域对应不同的面积大小；依据各第一候选区域，从第二视频帧对应的图像特征中提取出与各第一候选区域分别对应的区域特征；将各区域特征缩放至标准尺寸，得到多于一个的、且与各第一候选区域分别对应的第一候选特征。

在其中一个实施例中，确定模块803，还用于对于不同的第一候选特征，根据目标特征，分别从第一候选特征中查找满足第一匹配条件的待选特征块；从待选特征块中筛选出满足第二匹配条件的特征块；根据筛选出的特征块，确定第二视频帧中与目标对象对应的跟随区域。

在其中一个实施例中，确定模块803，还用于对第一候选特征和目标特征进行卷积操作，并从第一候选特征中搜索在目标特征上响应最大的特征块；将特征块在第二视频帧中对应的空间区域，作为与目标对象对应的跟随区域。

在其中一个实施例中，确定模块803，还用于确定第一候选特征中与目标特征具有相同尺寸的、且多于一个的候选特征块；分别将候选特征块与目标特征进行相似度计算；将最大相似度对应的候选特征块，作为第一候选特征中在目标特征上响应最大的特征块。

在其中一个实施例中，视频帧序列还包括第三视频帧，第三视频帧为第二视频帧在后的视频帧，确定模块803，还用于确定所述第三视频帧的前序视频帧；所述前序视频帧包括第二视频帧，其中前序视频帧包括第二视频帧；确定第三视频帧中与前序视频帧中目标对象对应的跟随区域的中心点一致、且面积大于跟随区域的第二候选区域；特征提取模块802，还用于从第三视频帧对应的图像特征中提取出与第二候选区域对应的第二候选特征；确定模块803，还用于从第二候选特征中，查找与目标特征匹配的特征块；根据第二候选特征中与目标特征匹配的特征块，确定第三视频帧中与目标对象对应的跟随区域。

在其中一个实施例中，第一视频帧、第二视频帧和第三视频帧构成一个周期内的视频帧序列，其中，第一视频帧为当前周期内的初始视频帧，第三视频帧包括至少一帧的视频帧；目标对象跟随装置还包括更新模块804，其中，获取模块801，还用于对于每一个周期，均获取当前周期内的视频帧序列，并确定当前周期内视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧；特征提取模块802，还用于根据当前周期内的所述初始视频帧中目标对象对应的目标区域，从所述当前周期内的所述初始视频帧对应的图像特征中提取出目标特征；更新模块804，用于通过提取出的目标特征更新前一周期所对应的目标特征。

在其中一个实施例中，目标对象跟随装置还包括分析模块805，其中，确定模块803，还用于确定不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；分析模块805，用于分析不同的目标对象各自对应的行为特征，以对不同摄像头所监测的场所进行安全监测。

参考图9，在其中一个实施例中，目标对象跟随装置还包括计算模块806，其中，确定模块803，还用于确定不同来源的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；分析模块805还用于分析不同的目标对象对应的行为特征，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象；确定模块803，还用于获取观测对象各自对应的视频帧，并确定相应视频帧对应的图像特征；特征提取模块，还用于根据包括观测对象的观测区域，从所确定的图像特征中分别提取出相应的观测特征；计算模块806，用于对至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行两两相似度计算，得到计算结果；确定模块803，还用于根据计算结果，确定对至少两个来源的视频帧序列各自对应的观测对象进行重识别的识别结果。

上述目标对象跟随装置，对视频帧序列中的各视频帧进行特征提取，得到对应的图像特征。从而可对视频帧序列中的第一视频帧对应的图像特征进行目标检测，以确定第一视频帧中的目标对象。再基于已检测出的目标对象对应的目标区域，从第一视频帧对应的图像特征中提取出目标特征，该目标特征用于对后续视频帧进行目标跟随处理时的参考特征。进而从第二视频帧对应的图像特征中提取出空间区域较大的第一候选特征，并从第一候选特征中查找与该目标特征匹配的特征块，以确定第二视频帧中与该目标对象对应的跟随区域。这样，从视频帧序列中提取出对应的图像特征，该图像特征可作为共享特征，并在共享特征的基础上分别执行目标检测和目标跟随这两个任务，能够显著地节省显存空间、提高运行速度，大大提高了对目标对象处理的效率。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标对象跟随方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标对象跟随方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标对象跟随装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标对象跟随装置的各个程序模块，比如，图8所示的获取模块、特征提取模块和确定模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标对象跟随方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的目标对象跟随装置中的获取模块执行步骤S202。计算机设备可通过特征提取模块执行步骤S204和S208。计算机设备可通过确定模块执行步骤S206和S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标对象跟随方法的步骤。此处目标对象跟随方法的步骤可以是上述各个实施例的目标对象跟随方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标对象跟随方法的步骤。此处目标对象跟随方法的步骤可以是上述各个实施例的目标对象跟随方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标对象跟随方法，包括：

根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征；

确定所述第二视频帧中与所述目标区域的中心点一致、且面积大于所述目标区域的多于一个的第一候选区域；所述多于一个的第一候选区域对应不同的面积大小；

依据各所述第一候选区域，从所述第二视频帧对应的图像特征中提取出与各所述第一候选区域分别对应的区域特征；

将各所述区域特征缩放至标准尺寸，得到多于一个的、且与各所述第一候选区域分别对应的第一候选特征；

2.根据权利要求1所述的方法，其特征在于，所述获取视频帧序列包括：

获取视频流数据；

对所述视频流数据进行运动检测，以确定所述视频流数据中包括有运动目标的视频帧；

将确定的所述视频帧，按相应视频帧组成所述视频流数据的时序，构成待处理的视频帧序列。

3.根据权利要求1所述的方法，其特征在于，所述依次对所述视频帧序列中的各视频帧进行特征提取，得到对应的图像特征，包括：

通过共享网络依次对所述视频帧序列中的各视频帧进行特征提取，得到各所述视频帧对应的图像特征；

所述基于所述第一视频帧对应的图像特征，确定所述第一视频帧中的目标对象，包括：

将所述第一视频帧对应的图像特征输入至目标检测网络，通过所述目标检测网络确定所述第一视频帧中包括的目标对象；

所述从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域，包括：

将所述目标特征和所述第一候选特征输入至目标跟随网络，通过所述目标跟随网络从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域。

4.根据权利要求1所述的方法，其特征在于，所述根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征，包括：

确定所述目标对象的目标部件，并确定所述目标部件在所述第一视频帧中的目标区域；

从所述第一视频帧对应的图像特征中提取出与所述目标区域对应的目标特征。

5.根据权利要求1所述的方法，其特征在于，所述从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域，包括：

对于不同的第一候选特征，根据所述目标特征，分别从所述第一候选特征中查找满足第一匹配条件的待选特征块；

从所述待选特征块中筛选出满足第二匹配条件的特征块；

根据筛选出的所述特征块，确定所述第二视频帧中与所述目标对象对应的跟随区域。

6.根据权利要求1所述的方法，其特征在于，所述从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域，包括：

将各所述第一候选特征分别和所述目标特征进行卷积操作，并从各所述第一候选特征中搜索在所述目标特征上响应最大的特征块；

将所述特征块在所述第二视频帧中对应的空间区域，作为与所述目标对象对应的跟随区域。

7.根据权利要求6所述的方法，其特征在于，所述将各所述第一候选特征分别和所述目标特征进行卷积操作，并从各所述第一候选特征中搜索在所述目标特征上响应最大的特征块，包括：

确定各所述第一候选特征中分别与所述目标特征具有相同尺寸的、且多于一个的候选特征块；

分别将所述候选特征块与所述目标特征进行相似度计算；

将最大相似度对应的候选特征块，作为所述第一候选特征中在所述目标特征上响应最大的特征块。

8.根据权利要求1所述的方法，其特征在于，所述视频帧序列还包括第三视频帧，所述第三视频帧为所述第二视频帧在后的视频帧，所述方法还包括：

确定所述第三视频帧的前序视频帧；所述前序视频帧包括第二视频帧；

确定所述第三视频帧中与所述前序视频帧中目标对象对应的跟随区域的中心点一致、且面积大于所述跟随区域的第二候选区域；

从所述第三视频帧对应的图像特征中提取出与所述第二候选区域对应的第二候选特征；

从所述第二候选特征中，查找与所述目标特征匹配的特征块；

根据所述第二候选特征中与所述目标特征匹配的特征块，确定所述第三视频帧中与所述目标对象对应的跟随区域。

9.根据权利要求8所述的方法，其特征在于，所述第一视频帧、第二视频帧和第三视频帧构成一个周期内的视频帧序列，其中，所述第一视频帧为当前周期内的初始视频帧，所述第三视频帧包括至少一帧的视频帧；

所述获取视频帧序列包括：

对于每一个周期，均获取当前周期内的视频帧序列，并确定当前周期内所述视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧；

所述根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征，包括：

根据当前周期内的所述初始视频帧中目标对象对应的目标区域，从所述当前周期内的所述初始视频帧对应的图像特征中提取出目标特征，并通过提取出的目标特征更新前一周期所对应的目标特征。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

确定不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域；

根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；

分析所述不同的目标对象各自对应的行为特征，以对所述不同摄像头所监测的场所进行安全监测。

11.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

确定不同来源的视频帧序列各自包括的目标对象所对应的跟随区域；

分析不同的目标对象对应的行为特征，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象；

获取所述观测对象各自对应的视频帧，并确定相应视频帧对应的图像特征；

根据包括所述观测对象的观测区域，从所确定的图像特征中分别提取出相应的观测特征；

对所述至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行两两相似度计算，得到计算结果；

根据所述计算结果，确定对所述至少两个来源的视频帧序列各自对应的观测对象进行重识别的识别结果。

12.一种目标对象跟随装置，包括：

所述特征提取模块还用于根据与所述目标对象对应的目标区域，从所述第一视频帧对应的图像特征中提取出目标特征；确定所述第二视频帧中与所述目标区域的中心点一致、且面积大于所述目标区域的多于一个的第一候选区域；所述多于一个的第一候选区域对应不同的面积大小；依据各所述第一候选区域，从所述第二视频帧对应的图像特征中提取出与各所述第一候选区域分别对应的区域特征；将各所述区域特征缩放至标准尺寸，得到多于一个的、且与各所述第一候选区域分别对应的第一候选特征；

13.根据权利要求12所述的装置，其特征在于，所述获取模块，还用于获取视频流数据；对所述视频流数据进行运动检测，以确定所述视频流数据中包括有运动目标的视频帧；将确定的所述视频帧，按相应视频帧组成所述视频流数据的时序，构成待处理的视频帧序列。

14.根据权利要求12所述的装置，其特征在于，特征提取模块，还用于通过共享网络依次对所述视频帧序列中的各视频帧进行特征提取，得到各所述视频帧对应的图像特征；

所述确定模块，还用于将所述第一视频帧对应的图像特征输入至目标检测网络，通过所述目标检测网络确定所述第一视频帧中包括的目标对象；

所述确定模块，还用于将所述目标特征和所述第一候选特征输入至目标跟随网络，通过所述目标跟随网络从所述第一候选特征中查找与所述目标特征匹配的特征块，并根据查找到的所述特征块确定所述第二视频帧中与所述目标对象对应的跟随区域。

15.根据权利要求12所述的装置，其特征在于，所述特征提取模块，还用于确定所述目标对象的目标部件，并确定所述目标部件在所述第一视频帧中的目标区域；从所述第一视频帧对应的图像特征中提取出与所述目标区域对应的目标特征。

16.根据权利要求12所述的装置，其特征在于，所述确定模块，还用于对于不同的第一候选特征，根据所述目标特征，分别从所述第一候选特征中查找满足第一匹配条件的待选特征块；从所述待选特征块中筛选出满足第二匹配条件的特征块；根据筛选出的所述特征块，确定所述第二视频帧中与所述目标对象对应的跟随区域。

17.根据权利要求12所述的装置，其特征在于，所述确定模块，还用于将各所述第一候选特征分别和所述目标特征进行卷积操作，并从各所述第一候选特征中搜索在所述目标特征上响应最大的特征块；将所述特征块在所述第二视频帧中对应的空间区域，作为与所述目标对象对应的跟随区域。

18.根据权利要求17所述的装置，其特征在于，所述确定模块，还用于确定各所述第一候选特征中分别与所述目标特征具有相同尺寸的、且多于一个的候选特征块；分别将所述候选特征块与所述目标特征进行相似度计算；将最大相似度对应的候选特征块，作为所述第一候选特征中在所述目标特征上响应最大的特征块。

19.根据权利要求12所述的装置，其特征在于，所述视频帧序列还包括第三视频帧，所述第三视频帧为所述第二视频帧在后的视频帧，其中：

所述确定模块，还用于确定所述第三视频帧的前序视频帧；所述前序视频帧包括第二视频帧；确定所述第三视频帧中与所述前序视频帧中目标对象对应的跟随区域的中心点一致、且面积大于所述跟随区域的第二候选区域；

所述特征提取模块，还用于从所述第三视频帧对应的图像特征中提取出与所述第二候选区域对应的第二候选特征；

所述确定模块，还用于从所述第二候选特征中，查找与所述目标特征匹配的特征块；根据所述第二候选特征中与所述目标特征匹配的特征块，确定所述第三视频帧中与所述目标对象对应的跟随区域。

20.根据权利要求19所述的装置，其特征在于，所述第一视频帧、第二视频帧和第三视频帧构成一个周期内的视频帧序列，其中，所述第一视频帧为当前周期内的初始视频帧，所述第三视频帧包括至少一帧的视频帧；所述装置还包括更新模块，其中：

所述获取模块，还用于对于每一个周期，均获取当前周期内的视频帧序列，并确定当前周期内所述视频帧序列中包括的第一视频帧、第二视频帧和第三视频帧；

所述特征提取模块，还用于根据当前周期内的所述初始视频帧中目标对象对应的目标区域，从所述当前周期内的所述初始视频帧对应的图像特征中提取出目标特征；

所述更新模块，用于通过提取出的目标特征更新前一周期所对应的目标特征。

21.根据权利要求12至20中任一项所述的装置，其特征在于，所述装置还包括分析模块，其中：

所述确定模块，还用于确定不同摄像头采集的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；

所述分析模块，用于分析所述不同的目标对象各自对应的行为特征，以对所述不同摄像头所监测的场所进行安全监测。

22.根据权利要求12至20中任一项所述的装置，其特征在于，所述装置还包括分析模块和计算模块，其中：

所述确定模块，用于确定不同来源的视频帧序列各自包括的目标对象所对应的跟随区域；根据不同的目标对象各自对应的跟随区域，确定不同的目标对象各自对应的行为特征；

所述分析模块，用于分析不同的目标对象对应的行为特征，确定至少两个来源的视频帧序列各自对应的待重识别的观测对象；

所述确定模块，还用于获取所述观测对象各自对应的视频帧，并确定相应视频帧对应的图像特征；根据包括所述观测对象的观测区域，从所确定的图像特征中分别提取出相应的观测特征；

所述计算模块，用于对所述至少两个来源的视频帧序列各自对应的观测对象的观测特征，进行两两相似度计算，得到计算结果；

所述确定模块，还用于根据所述计算结果，确定对所述至少两个来源的视频帧序列各自对应的观测对象进行重识别的识别结果。

23.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

24.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。