CN110570460A

CN110570460A - 目标跟踪方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110570460A
Application number: CN201910844667.2A
Authority: CN
Inventors: 孙冲; 彭伟龙; 时学鹏; 戴宇荣; 沈小勇; 贾佳亚
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-13
Anticipated expiration: 2039-09-06
Also published as: CN110570460B

Abstract

本申请公开了一种目标跟踪方法、装置、计算机设备及计算机可读存储介质，属于计算机技术领域。本申请通过获取目标帧图像中第一子图像的第一特征图，基于第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象的位置坐标，以该位置坐标为中心确定第二子图像，将第二子图像输入目标回归网络，由该目标回归网络对第二子图像进行卷积运算，基于运算结果突出显示该目标对象。在这种视频目标跟踪方法中，通过基于该目标对象的位置坐标获取第二子图像，使该目标对象位于该第二子图像的中心区域，在卷积层进行特征提取时，可以充分提取到该目标对象的特征信息，进而可以准确识别出该目标对象所在位置，提高目标跟踪的准确率。

Description

目标跟踪方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种目标跟踪方法、装置、计算机设备及计算机可读存储介质。

背景技术

视频目标跟踪是指对视频中感兴趣的目标对象进行跟踪，从视频的各个图像帧中识别出该目标对象的所在位置。目前，在进行视频目标跟踪时，可以应用相关滤波算法，具体地，需要在目标视频的初始帧中标注出目标对象的位置，基于已标注的初始帧，计算滤波器系数，再应用该滤波器系数预测目标对象在下一帧中的位置信息，以实现对目标对象的跟踪。

但是，由于相关滤波算法无法有效的提取目标对象的语义信息，因而上述视频目标跟踪方法对复杂的外观形变缺乏良好的鲁棒性，当一段视频中的目标对象出现一些较复杂的形变或较大角度的旋转时，应用上述方法对目标对象进行跟踪，难以准确识别出目标对象的位置信息，进而导致跟踪失败。

发明内容

本申请实施例提供了一种目标跟踪方法、装置、计算机设备及计算机可读存储介质，可以解决相关技术中当目标对象出现较大角度旋转或形变时，难以准确识别出目标对象的位置的问题。该技术方案如下：

一方面，提供了一种目标跟踪方法，该方法包括：

获取视频的目标帧图像中第一子图像的第一特征图，该第一子图像为位于该目标帧图像中一个局部区域的图像；

基于该第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象在该第一子图像中的位置坐标；

在该目标帧图像中确定以该位置坐标为中心的第二子图像，该第二子图像与该第一子图像大小相同；

将该第二子图像输入目标回归网络，由该目标回归网络中的多个卷积层对该第二子图像进行卷积运算，基于卷积运算结果在该目标帧图像中突出显示该目标对象。

一方面，提供了一种目标跟踪装置，该装置包括：

特征图获取模块，用于获取视频的目标帧图像中第一子图像的第一特征图，该第一子图像为位于该目标帧图像中一个局部区域的图像；

坐标确定模块，用于基于该第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象在该第一子图像中的位置坐标；

图像确定模块，用于在该目标帧图像中确定以该位置坐标为中心的第二子图像，该第二子图像与该第一子图像大小相同；

显示模块，用于将该第二子图像输入目标回归网络，由该目标回归网络中的多个卷积层对该第二子图像进行卷积运算，基于卷积运算结果在该目标帧图像中突出显示该目标对象。

在一种可能实现方式中，该装置还包括：

图像获取模块，用于基于该旋转角度以及该目标对象的边框位置信息，获取该目标帧图像的第三子图像，该第三子图像的中心与该目标对象的中心重合；

参数获取模块，用于基于该第三子图像与目标高斯矩阵，得到该目标滤波模型第三中间参数和第四中间参数；

更新模块，用于基于该第三中间参数和第四中间参数，更新该目标滤波模型的该第一参数和该第二参数。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现该目标跟踪方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现该目标跟踪方法所执行的操作。

本申请实施例提供的技术方案，通过获取视频的目标帧图像中第一子图像的第一特征图，基于该第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象在该第一子图像中的位置坐标，在该目标帧图像中确定以该位置坐标为中心的第二子图像，将该第二子图像输入目标回归网络，由该目标回归网络中的多个卷积层对该第二子图像进行卷积运算，基于卷积运算结果在该目标帧图像中突出显示该目标对象。在这种视频目标跟踪方法中，通过基于该目标对象的位置坐标在该目标帧图像中获取第二子图像，使该目标对象位于该第二子图像的中心区域，在后续通过卷积层进行特征提取时，可以充分提取到该目标对象的特征信息，进而可以准确识别出该目标对象所在位置，提高目标跟踪的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种目标跟踪方法的实施环境示意图；

图2是本申请实施例提供的一种目标跟踪方法的流程图；

图3是本申请实施例提供的一种目标回归网络的示意图；

图4是本申请实施例提供的一种模型参数获取方法的流程图；

图5是本申请实施例提供的一种第二中间参数确定方法的示意图；

图6是本申请实施例提供的一种模型参数更新的流程图；

图7是本申请实施例提供的一种目标追踪以及模型参数更新的流程图；

图8是本申请实施例提供的一种目标跟踪装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学，进一步地说，就是指应用摄影机和电脑等计算机设备代替人眼对图像中的目标对象进行识别、跟踪和测量等，还可以对图像做进一步处理，使处理后的图像更适合人眼观察或更便于传送给其他设备进行检测。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常可以包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还可以包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例提供的方案主要涉及计算机视觉技术中的图像识别、视频处理以及人脸识别技术，通过图像识别、视频处理以及人脸识别技术，识别出视频中目标对象的位置信息，以实现对目标对象的实时跟踪，具体可以通过下述实施例进行说明。

为了便于理解本申请实施例的技术过程，下面对本申请实施例所涉及的一些名词进行解释：

视觉跟踪相关滤波算法：视觉跟踪是指对图像序列中的目标对象进行检测、提取、识别和跟踪，获得目标对象的运动参数，例如位置信息、运动轨迹等，视觉跟踪相关滤波算法是指利用信号与系统里的相关运算与傅里叶变换的关系，实现某一类特定岭回归算法的傅里叶加速。

人脸关键点：利用计算机视觉算法，实现对人脸面部五官的语义点(如眼睛、鼻子等)进行精确的定位。

特征图：是指能够描述图像的目标空间信息或语义信息的张量表示。

图1是本申请实施例提供的一种目标跟踪方法的实施环境示意图，参见图1，该实施环境中包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器110相连。终端110可以是智能手机、平板电脑、便携计算机等设备。终端110安装和运行有支持目标跟踪技术的应用程序。该应用程序可以是摄影类应用程序、视频类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与服务器140相连。

服务器140可以是云计算平台、虚拟化中心等。服务器140用于为支持目标跟踪技术的应用程序提供后台服务。可选地，服务器140承担主要目标跟踪工作，终端110承担次要目标跟踪工作；或者，服务器140承担次要目标跟踪工作，终端110承担主要目标跟踪工作；或者，服务器140或终端110分别可以单独承担目标跟踪工作。

可选地，服务器140包括：接入服务器、视频识别服务器和数据库。接入服务器用于为终端110提供接入服务。视频识别服务器用于提供视频识别有关的后台服务。视频识别服务器可以是一台或多台。当视频识别服务器是多台时，存在至少两台视频识别服务器用于提供不同的服务，和/或，存在至少两台视频识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。视频识别服务器中可以设置有用于实现视频目标跟踪的模型，该模型可以用于识别视频中目标对象的位置信息。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是本申请实施例提供的一种目标跟踪方法的流程图。该方法可以应用于上述终端或者服务器，而终端和服务器均可以视为一种计算机设备，因此，本申请实施例基于计算机设备作为执行主体来进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、计算机设备获取视频的目标帧图像中第一子图像的第一特征图。

其中，该视频可以为存储在计算机设备中的一段视频，也可以为该计算机设备从云端获取的一段视频，还可以为具备视频采集功能的计算机设备实时采集的视频，本申请实施例对具体采用哪种视频不做限定。

在本申请实施例中，该计算机设备可以识别该目标帧图像中的感兴趣区域，即待跟踪的目标对象所在的区域，获取该感兴趣区域中的图像作为该第一子图像。其中，该感兴趣区域可以基于上一帧图像中目标对象的位置信息确定，具体地，该计算机设备可以基于该上一帧图像中目标对象的中心位置，在所述目标帧图像中确定一个大小为m*n的区域，该区域的中心与该上一帧图像中目标对象的中心重合，该区域即为该感兴趣区域。其中，m和n均为正整数，其具体数值可以由开发人员进行设置。基于该目标帧图像的上一帧图像中目标对象的位置信息确定该第一子图像，可以确保该目标对象位于该第一子图像内。

该计算机设备可以对该第一子图像进行特征提取，得到该第一子图像的第一特征图，在一种可能实现方式中，该计算机设备可以基于HOG(Histogram of OrientedGradient，方向梯度直方图)特征提取算法对该第一子图像进行特征提取，具体地，首先，该计算机设备对该第一子图像进行灰度化，以及颜色空间的标准化，以调节第一子图像的对比度，降低图像局部的阴影和光照变化对后续特征提取所造成的影响，然后，该计算机设备计算该第一子图像中各个像素的梯度，将该视频帧划分为多个细胞单元，基于各个细胞单元所包含的多个像素以及各个像素的梯度，构建各个细胞单元的梯度直方图，基于一个梯度直方图确定一个细胞单元的特征表示符，最后，该计算机设备可以将相邻的多个细胞单元组合成一个block(块)，例如，将相邻的3*3个细胞单元组合为一个块，将块内所有细胞单元所对应的特征表示符串联起来，得到该块的特征表示符，再将该第一子图像所包含的全部块所对应的特征表示符串联起来，得到该第一子图像的特征图。在本申请实施例中，该第一子图像的特征图可以为一个m*n*d的张量，其中，d为正整数，其具体数值均可以由开发人员进行设置。

需要说明的是，上述对特征图获取方式的说明仅是一种特征图获取方式的示例性介绍，本申请实施例对具体采用哪种特征图获取方法不做限定。

202、该计算机设备基于该第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象在该第一子图像中的位置坐标。

在一种可能实现方式中，该计算机设备可以应用目标滤波器模型确定该目标对象在该第一子图像中的位置坐标，该过程具体可以包括以下步骤：

步骤一、该计算机设备可以基于该目标帧图像的上一帧图像中目标对象的位置信息，确定目标滤波模型的第一参数和第二参数。

在一种可能实现方式中，该计算机设备可以应用相关滤波算法，基于该上一帧图像中目标对象的位置信息求解该目标滤波模型的第一参数和第二参数。

步骤二、该计算机设备可以将该第一特征图输入该目标滤波模型，基于该目标滤波模型的第一参数和第二参数对该第一特征图进行计算，得到该目标对象的位置响应矩阵。

其中，该位置响应矩阵中各个元素的数值可以表示该目标对象的中心位置在该处的概率，该位置响应矩阵中各个元素的数值呈高斯分布，基于该位置响应矩阵可以确定该目标对象的所在位置，在本申请实施例中，该位置响应矩阵可以为一个m*n的矩阵。

在本申请实施例中，该计算机设备基于相关滤波算法对该第一特征图进行计算，得到该目标对象的位置响应矩阵，在一种可能实现方式中该计算过程可以表示为下述公式(1)：

其中，公式(1)右侧的表达式可以表示傅里叶逆变换的过程，t+1可以表示该目标帧图像为该视频的第t+1帧图像，D可以表示该特征图的深度，可以表示该第一特征图，y_t+1可以表示该位置响应矩阵，可以表示该目标滤波模型的第一参数，χ^t+1可以表示该目标滤波模型的第二参数。

步骤三、该计算机设备将该位置响应矩阵中数值最大的元素的位置坐标，作为该目标对象的位置坐标。

需要说明的是，上述对该目标对象的位置坐标获取方式的说明仅是一种位置坐标获取方式的示例性介绍，本申请实施例对具体采用哪种位置坐标获取方法不做限定。

203、该计算机设备在该目标帧图像中确定以该位置坐标为中心的第二子图像。

在本申请实施例中，该计算机设备可以获取该目标对象的位置坐标，以该位置坐标为中心确定一个目标区域，将该目标区域中的图像获取为该第二子图像，在本申请实施例中，该第二子图像的大小可以为a*b，a和b均为正整数，其具体数值可以由开发人员进行设置。

通过上述第二子图像的获取方法，可以确保被追踪的目标对象位于该第二子图像的中心，使该计算机设备在后续计算过程中可以充分提取到该目标对象的特征，以确保能准确跟踪到该目标对象。

204、该计算机设备将该第二子图像输入目标回归网络，由该目标回归网络中的多个卷积层对该第二子图像进行卷积运算。

其中，该目标回归网络可以包括多个卷积层，各个卷积层可以通过卷积运算对该第二子图像进行特征提取，该计算机可以基于该目标回归网络中最后一个卷积层的运算结果，确定该目标对象在该第二子图像中的位置信息，在本申请实施例中，该计算机设备基于该多个卷积层对该第二子图像进行卷积运算的结果，得到该目标对象的边框位置信息以及该目标对象的关键点坐标。

在一种可能实现方式中，该计算机设备将该第二子图像输入目标回归网络后，首先，该目标回归网络对输入的第二子图像进行预处理，将该第二子图像转化为由多个像素值组成的数字矩阵，再将该数字矩阵与一个卷积层进行卷积运算，来提取图像特征，将该卷积层的卷积运算结果作为该第二子图像的特征图，然后，将该特征图输入下一个卷积层继续进行卷积运算，最后，该计算机设备获取最后一个卷积层的输出结果。

具体地，以其中一个卷积层为例对上述卷积运算过程进行说明，一个卷积层可以包括至少一个卷积核，每个卷积核对应一个扫描窗口，该扫描窗口的大小与该卷积核的大小相同，在卷积核进行卷积运算的过程中，该扫描窗口可以按照目标步长在特征图上滑动，依次扫描该特征图的各个区域，其中，该目标步长可以由开发人员进行设置。以一个卷积核为例，在卷积运算的过程中，当该卷积核的扫描窗口滑动至特征图的任一区域时，该计算机设备读取该区域中各个特征点对应的数值，将该卷积核与该各个特征点对应的数值进行点乘运算，再对各个乘积进行累加，将累加结果作为一个特征点。之后，该卷积核的扫描窗口按照目标步长滑动至特征图的下一区域，再次进行卷积运算，输出一个特征点，直至该特征图的全部区域扫描完毕，将输出的全部特征点组成一个新的特征图，作为下一个卷积层的输入。

其中，该目标回归网络中卷积层的数目以及各个卷积层中卷积核的数目和大小均可以由开发人员进行设置。

参见图3，图3是本申请实施例提供的一种目标回归网络的示意图，该目标回归网络中可以包括三个分支，各个分支可以包括不同的卷积层，例如，在本申请实施例中，第一分支可以包括卷积层conv1、conv2、conv3、conv5、conv7以及conv10，第二分支可以包括卷积层conv1、conv2、conv4、conv6、conv8以及conv11，第三分支可以包括卷积层conv1、conv2、conv4、conv6、conv9以及conv12，各个卷积层可以对应于不同的权重参数，该各个卷积层基于不同的权重参数对该第二子图像所对应的数字矩阵进行卷积运算，可以提取到该第二子图像中不同的图像特征，使各个分支的运算结果可以对应于不同的图像信息，具体地，在本申请实施例中，第一分支中最后一个卷积层conv10的输出结果可以表示为一个向量，该向量可以用于表示该目标对象中关键点的坐标，在本申请实施例中，该关键点坐标可以用于标记人脸五官的位置，例如，左眼、右眼、左嘴角、右嘴角和下巴，第二分支中最后一个卷积层conv11的输出结果可以表示为一个数值，该数值可以用于指示该目标对象属于目标类别的概率，在本申请实施例中，该数值可以表示该目标对象属于人脸的概率，第三分支中最后一个卷积层conv12的输出结果可以表示为一个向量，该向量可以用于表示该目标对象的边框位置信息，例如，该输出结果可以表示为向量(10,11,5,9)，该向量中的前两位可以表示该边框右上角的位置坐标，该向量的后两位可以表示该边框的长和宽，基于该向量可以在该目标帧图像中确定一个矩形框。

205、该计算机设备基于卷积运算结果在该目标帧图像中突出显示该目标对象。

在本申请实施例中，该计算机设备可以基于该目标对象的边框位置信息以及该目标对象的关键点坐标，在该目标帧图像中突出显示该目标对象。在一种可能实现方式中，该计算机设备可以基于该目标对象的边框位置信息，在该目标帧图像中将该边框显示为目标颜色，当然，该计算机设备还可以基于该目标对象的关键点坐标，在该目标帧图像中对各个关键点进行标注。其中，该目标颜色可以由开发人员进行设置。

通过基于滤波器模型的初始定位结果，对目标帧图像进行再次裁剪，将裁剪后的图像输入训练好的目标回归网络，可以同时估计出被跟踪目标的矩形框状态以及几个关键点的坐标，提高了目标跟踪的精确度。

在上述实施例中，该目标滤波模型中的第一参数和第二参数可以基于上一帧图像中目标对象的位置信息确定，参见图4，图4是本申请实施例提供的一种模型参数获取方法的流程图，该方法具体可以包括以下步骤：

401、该计算机设备获取该上一帧图像的第二特征图以及目标高斯矩阵。

其中，该目标高斯矩阵中各个元素的数值呈高斯分布，各个元素的具体数值可以由开发人员进行设置。

在本申请实施例中，当该上一帧图像是该视频的初始帧时，该计算机设备可以识别出该初始帧中的目标区域，获取该目标区域中图像所对应的特征图，作为该上一帧图像的第二特征图。其中，该目标区域可以由开发人员进行标注，该目标区域的中心与该初始帧中目标对象的中心重合，当然，该目标区域也可以由具备图像识别功能的目标检测器对该初始帧进行检测获得，本申请实施例对此不作具体限定。

当该上一帧图像不是该视频的初始帧图像时，该第二特征图的生成方法的生成方法与上述步骤201中第一特征图的生成方法同理，在此不做赘述。

402、该计算机设备基于该第二特征图以及该目标高斯矩阵，确定该第一参数。

在一种可能实现方式中，该过程具体可以包括以下步骤：

步骤一、该计算机设备基于该第二特征图以及该目标高斯矩阵，得到第一中间参数，该第一中间参数与该目标高斯矩阵大小相同。

在本申请实施例中，可以通过下述公式(2)计算该中间模型参数：

其中，D可以表示该第二特征图的深度，可以表示该第一中间参数，y可以表示该上一帧图像的目标高斯矩阵，x_d可以表示该上一帧图像的第二特征图，λ可以表示一个常数，其具体数值可以由开发人员进行设置。

当该第一中间参数h_d的取任一数值使上述公式(2)中右侧表达式的运算结果最小时，则将该任一数值作为该第一中间参数在本申请实施例中，该第一中间参数可以为一个m*n的矩阵。

步骤二、该计算机设备基于该目标对象的目标高斯矩阵，在该第一中间参数中确定目标元素，将该第一中间参数中除该目标元素以外的元素置为预设数值，得到第二中间参数。

参见图5，图5是本申请实施例提供的一种第二中间参数确定方法的示意图，该计算机设备可以将该目标对象的目标高斯矩阵501与第一中间参数502中相同位置的元素一一对应，该目标高斯矩阵501中的503区域即为该目标对象的所在区域，该503区域对应于第一中间参数502中的区域504，该计算机设备可以将该区域504中的元素确定为目标元素，将该第一中间参数中除该目标元素以外的元素置为预设数值，即将该区域504以外的元素置为预设数值，得到该第二中间参数。

其中，该预设数值可以由开发人员进行设置，在本申请实施例中，该预设数值可以设置为0。

步骤三、该计算机设备基于该第二中间参数、该第二特征图以及该目标高斯矩阵得到该第一参数。

在本申请实施例中，可以通过下述公式(3)计算该第一模型参数：

其中，D可以表示该第二特征图的深度，可以表示该第一参数，y可以表示该上一帧图像的目标高斯矩阵，x_d可以表示该上一帧图像的第二特征图，可以表示该第二中间参数，λ可以表示一个常数，其具体数值可以由开发人员进行设置。

当该第一参数w_d的取任一数值使上述公式(3)中右侧表达式的运算结果最小时，则将该任一数值作为该第一参数在本申请实施例中，该第一参数可以为一个m*n的矩阵。

在一种可能实现方式中，对于上述公式(3)，可以根据帕萨瓦尔定理在频域进行最优化求解，将该公式(3)转换为对应的频域等效形式，具体可以表示为公式(4)：

其中，W_d、Y以及X_d可以分别表示w_d、y以及x_d的傅里叶系数，符号“·”可以表示矩阵的哈达玛积。

该计算机设备可以计算上述公式(4)右侧部分的导数，使该导数等于0，则可以获得该第一模型参数的傅里叶系数W^*，具体可以表示为如下公式(5)：

其中，可以表示Y的复共轭。该计算机设备基于上述公式(5)得到后，可以计算的傅里叶反变换得到该目标滤波模型的第一参数

在上述过程中，该计算机设备对于给定的D维特征图x_d，该计算机设备应用相关滤波算法求解出一个最优的滤波器模型参数，即第一模型参数w_d，使得滤波器响应符合一个预设的高斯响应y。

403、该计算机设备基于该第二特征图、该目标高斯矩阵以及核矩阵，得到该第二参数。

在本申请实施例中，还可以基于核相关滤波技术，进一步提升该目标滤波模型的表示能力，在一种可能实现方式中，该计算机设备可以通过下述公式(6)计算该目标滤波模型的第二参数：

其中，K可以表示核矩阵，K可以由开发人员进行设置，在本申请实施例中将K设置为ξ可以表示一个常数，其具体数值可以由开发人员进行设置，可以表示该第二参数。

当该中间模型参数α的取任一数值使上述公式(6)中右侧表达式的运算结果最小时，则将该任一数值作为该中间模型参数α^*，在本申请实施例中，该中间模型参数α^*可以为一个m*n的矩阵。

在一种可能实现方式中，可以获取上述公式(6)在频域的解χ^*，该χ^*也即是该第二参数α^*的傅里叶系数，可以表示为系数公式(7)：

其中，可以表示X_d的复共轭，Y可以表示目标高斯矩阵y的傅里叶系数。

在上述过程中，该计算机设备基于第一中间参数和第二中间参数，计算该目标滤波模型的第一参数，避免直接求解，可以大大减小上述参数获取过程的运算量，采用核相关滤波算法求得第二参数，可以进一步提升算法的鲁棒性。

上述实施例主要介绍了计算机设备确定目标对象在目标帧图像中的位置，以实现目标追踪的过程，在该计算机设备获取到该目标对象在该目标帧图像中的位置信息之后，还可以基于该位置信息对该滤波器模型的第一参数和第二参数进行更新，参见图6，图6是本申请实施例提供的一种模型参数更新的流程图，该模型参数更新过程具体可以包括以下步骤：

601、该计算机设备基于该目标对象的关键点坐标与参考关键点坐标，计算该目标对象的旋转角度。

其中，该参考关键点坐标可以由开发人员进行设置，本申请实施例对此不作限定。

在本申请实施例中，可以基于该目标对象的关键点坐标与参考关键点坐标计算仿射参数，该仿射参数可以表示为下述公式(8)：

其中，θ可以表示该目标对象的旋转角度，T₁可以表示该目标对象相对于该平均关键点的横坐标位移，T₂可以表示该目标对象相对于该平均关键点的纵坐标位移。

在本申请实施例中，该关键点坐标可以表示为该参考关键点坐标可以表示为该计算机设备可以基于该目标对象的关键点坐标与参考关键点坐标计算该仿射参数，该计算过程具体可以表述为下述公式(9)：

其中，i可以表示一个关键点的序号，x_i可以表示第i关键点的横坐标，y_i可以表示第i关键点的纵坐标。

该计算机设备获取到该仿射参数后，即可根据该仿射参数的表达式，即公式(8)计算出该目标对象的旋转角度θ。

602、该计算机设备基于该旋转角度以及该目标对象的边框位置信息，获取该目标帧图像的第三子图像，该第三子图像的中心与该目标对象的中心重合。

在一种可能实现方式中，该计算机设备可以基于该旋转角度，对该目标帧图像进行旋转，基于目标对象的边框位置信息对该目标帧图像进行裁剪，得到一个以该目标对象为中心的m*n的图像，将该图像作为该第三子图像。

603、该计算机设备基于该第三子图像与目标高斯矩阵，得到该目标滤波模型第三中间参数和第四中间参数。

该计算机设备可以获取该第三子图像的特征图，基于该特征图以及该目标高斯矩阵计算该第三中间参数和该第四中间参数。该第三中间参数的计算过程与上述步骤402中第一参数的计算过程同理，该第四中间参数的计算过程与上述步骤403中第二参数的计算过程同理，在此不做赘述。

604、该计算机设备基于该第三中间参数和第四中间参数，更新该目标滤波模型的该第一参数和该第二参数。

在本申请实施例中，该计算机设备计算该第一参数和该第二参数的过程具体可以表述为下述公式(10)和公式(11)：

χ^t+1＝(1-σ)χ^t+σχ^* (10)

W^t+1＝(1-σ)W^t+σW^* (11)

其中，t可以表示该目标帧图像为该视频的第t帧图像，σ可以表示学习率，其具体数值可以由开发人员进行设置。

该计算机设备可以将更新后的第一参数、第二参数应用于下一帧的目标追踪过程中。

参见图7，图7是本申请实施例提供的一种目标追踪以及模型参数更新的流程图，通过应用上一帧图像的预测结果对目标滤波模型的参数进行更新，将更新后的参数用于之后的预测，可以不断提高目标滤波模型对该目标对象的位置信息的表示能力，使该目标滤波模型的输出结果更为准确。

图8是本申请实施例提供的一种目标跟踪装置的结构示意图，参见图8，该装置包括：

特征图获取模块801，用于获取视频的目标帧图像中第一子图像的第一特征图，该第一子图像为位于该目标帧图像中一个局部区域的图像；

坐标确定模块802，用于基于该第一特征图、该目标帧图像的上一帧图像中目标对象的位置信息，确定该目标对象在该第一子图像中的位置坐标；

图像确定模块803，用于在该目标帧图像中确定以该位置坐标为中心的第二子图像，该第二子图像与该第一子图像大小相同；

显示模块804，用于将该第二子图像输入目标回归网络，由该目标回归网络中的多个卷积层对该第二子图像进行卷积运算，基于卷积运算结果在该目标帧图像中突出显示该目标对象。

在一种可能实现方式中，该坐标确定模块802用于：

基于该目标帧图像的上一帧图像中目标对象的位置信息，确定目标滤波模型的第一参数和第二参数；

将该第一特征图输入该目标滤波模型，基于该目标滤波模型的第一参数和第二参数对该第一特征图进行计算，得到该目标对象的位置响应矩阵；

将该位置响应矩阵中数值最大的元素的位置坐标，作为该目标对象的位置坐标。

在一种可能实现方式中，该坐标确定模块802用于：

获取该上一帧图像的第二特征图以及目标高斯矩阵；

基于该第二特征图以及该目标高斯矩阵，确定该第一参数；

基于该第二特征图、该目标高斯矩阵以及核矩阵，得到该第二参数。

在一种可能实现方式中，该坐标确定模块802用于：

基于该第二特征图以及该目标高斯矩阵，得到第一中间参数，该第一中间参数与该目标高斯矩阵大小相同；

基于该目标对象的目标高斯矩阵，在该第一中间参数中确定目标元素，将该第一中间参数中除该目标元素以外的元素置为预设数值，得到第二中间参数；

基于该第二中间参数、该第二特征图以及该目标高斯矩阵得到该第一参数。

在一种可能实现方式中，该显示模块804用于：

基于该多个卷积层对该第二子图像进行卷积运算的结果，得到该目标对象的边框位置信息以及该目标对象的关键点坐标；

基于该目标对象的边框位置信息以及该目标对象的关键点坐标，在该目标帧图像中突出显示该目标对象。

在一种可能实现方式中，该装置还包括：

角度计算模块，用于基于该目标对象的关键点坐标与参考关键点坐标，计算该目标对象的旋转角度。

在一种可能实现方式中，该装置还包括：

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的目标跟踪在目标跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标跟踪装置与目标跟踪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述技术方案所提供的计算机设备可以实现为终端或服务器，例如，图9是本申请实施例提供的一种终端的结构示意图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：一个或多个处理器901和一个或多个存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、9核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的目标跟踪方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1001和一个或多个的存储器1002，其中，该一个或多个存储器1002中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的目标跟踪方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取视频的目标帧图像中第一子图像的第一特征图，所述第一子图像为位于所述目标帧图像中一个局部区域的图像；

基于所述第一特征图、所述目标帧图像的上一帧图像中目标对象的位置信息，确定所述目标对象在所述第一子图像中的位置坐标；

在所述目标帧图像中确定以所述位置坐标为中心的第二子图像；

将所述第二子图像输入目标回归网络，由所述目标回归网络中的多个卷积层对所述第二子图像进行卷积运算，基于卷积运算结果在所述目标帧图像中突出显示所述目标对象。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征图、所述目标帧图像的上一帧图像中目标对象的位置信息，确定所述目标对象在所述第一子图像中的位置坐标，包括：

基于所述目标帧图像的上一帧图像中目标对象的位置信息，确定目标滤波模型的第一参数和第二参数；

将所述第一特征图输入所述目标滤波模型，基于所述目标滤波模型的第一参数和第二参数对所述第一特征图进行计算，得到所述目标对象的位置响应矩阵；

将所述位置响应矩阵中数值最大的元素的位置坐标，作为所述目标对象的位置坐标。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标帧图像的上一帧图像中目标对象的位置信息，确定目标滤波模型的第一参数和第二参数，包括：

获取所述上一帧图像的第二特征图以及目标高斯矩阵；

基于所述第二特征图以及所述目标高斯矩阵，确定所述第一参数；

基于所述第二特征图、所述目标高斯矩阵以及核矩阵，得到所述第二参数。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第二特征图以及所述目标高斯矩阵，确定所述第一参数包括：

基于所述第二特征图以及所述目标高斯矩阵，得到第一中间参数，所述第一中间参数与所述目标高斯矩阵大小相同；

基于所述目标对象的目标高斯矩阵，在所述第一中间参数中确定目标元素，将所述第一中间参数中除所述目标元素以外的元素置为预设数值，得到第二中间参数；

基于所述第二中间参数、所述第二特征图以及所述目标高斯矩阵得到所述第一参数。

5.根据权利要求2所述的方法，其特征在于，所述将所述第二子图像输入目标回归网络，由所述目标回归网络中的多个卷积层对所述第二子图像进行卷积运算，基于卷积运算结果在所述目标帧图像中突出显示所述目标对象，包括：

基于所述多个卷积层对所述第二子图像进行卷积运算的结果，得到所述目标对象的边框位置信息以及所述目标对象的关键点坐标；

基于所述目标对象的边框位置信息以及所述目标对象的关键点坐标，在所述目标帧图像中突出显示所述目标对象。

6.根据权利要求5所述的方法，其特征在于，所述基于卷积运算结果在所述目标帧图像中突出显示所述目标对象之后，所述方法还包括：

基于所述目标对象的关键点坐标与参考关键点坐标，计算所述目标对象的旋转角度。

7.根据权利要求6所述的方法，其特征在于，所述基于卷积运算结果在所述目标帧图像中突出显示所述目标对象之后，所述方法还包括：

基于所述旋转角度以及所述目标对象的边框位置信息，获取所述目标帧图像的第三子图像，所述第三子图像的中心与所述目标对象的中心重合；

基于所述第三子图像与目标高斯矩阵，得到所述目标滤波模型第三中间参数和第四中间参数；

基于所述第三中间参数和第四中间参数，更新所述目标滤波模型的所述第一参数和所述第二参数。

8.一种目标跟踪装置，其特征在于，所述装置包括：

特征图获取模块，用于获取视频的目标帧图像中第一子图像的第一特征图，所述第一子图像为位于所述目标帧图像中一个局部区域的图像；

坐标确定模块，用于基于所述第一特征图、所述目标帧图像的上一帧图像中目标对象的位置信息，确定所述目标对象在所述第一子图像中的位置坐标；

图像确定模块，用于在所述目标帧图像中确定以所述位置坐标为中心的第二子图像；

显示模块，用于将所述第二子图像输入目标回归网络，由所述目标回归网络中的多个卷积层对所述第二子图像进行卷积运算，基于卷积运算结果在所述目标帧图像中突出显示所述目标对象。

9.根据权利要求8所述的装置，其特征在于，所述坐标确定模块用于：

10.根据权利要求8所述的装置，其特征在于，所述坐标确定模块用于：

获取所述上一帧图像的第二特征图以及目标高斯矩阵；

11.根据权利要求10所述的装置，其特征在于，所述坐标确定模块用于：

12.根据权利要求9所述的装置，其特征在于，所述显示模块用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

角度计算模块，用于基于所述目标对象的关键点坐标与参考关键点坐标，计算所述目标对象的旋转角度。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的目标跟踪方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的目标跟踪方法所执行的操作。