CN109448018B

CN109448018B - 跟踪目标的定位方法、装置、设备及存储介质

Info

Publication number: CN109448018B
Application number: CN201811088121.0A
Authority: CN
Inventors: 杨国青
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-08-01
Anticipated expiration: 2038-09-18
Also published as: CN109448018A

Abstract

本发明涉及图像处理技术领域，提供了一种跟踪目标的定位方法、装置、设备及存储介质，所述方法包括：若接收到跟踪目标的定位请求，则获取所述定位请求中包含的用户选定的原始目标点的原始位置信息；根据预设的目标预测模型，对当前帧图像进行目标预测，得到目标预测结果；根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，得到N个距离；从N个距离中选取数值最小的距离作为目标距离，获取目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为原始目标点对应的跟踪目标。本发明能够保证对跟踪目标的定位的准确率和提高对跟踪目标的定位效率。

Description

跟踪目标的定位方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种跟踪目标的定位方法、装置、设备及存储介质。

背景技术

进行长距离的跟踪目标的定位一直是视频监控中最具挑战性的任务之一，传统的跟踪目标的定位方法中，有的是通过将图像中需要跟踪的目标的坐标信息写入文件，在跟踪启动时通过读取文件获取初始化的目标信息，这种方法的操作周期长，获取初始化的目标信息的效率不高，或者是通过暂停视频画面，采用人工画图的方式在图像中画出需跟踪的目标的位置，并在跟踪启动后，根据人工画出的位置信息，进行跟踪目标的初始化，由于人工画出的位置信息的准确率不高，且容易包含大量背景信息，以及造成跟踪的目标被背景截断或遮挡，导致跟踪目标的难度增大，获取初始化的跟踪目标的定位信息的效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种跟踪目标的定位方法、装置、设备及存储介质，以解决跟踪目标的定位效率和准确率均不高的问题。

一种跟踪目标的定位方法，包括：

若接收到跟踪目标的定位请求，则获取所述定位请求中包含的用户选定的原始目标点的原始位置信息，其中，所述原始位置信息包括所述原始目标点在当前播放的视频数据中的当前帧图像和所述原始目标点在所述当前帧图像中的原始坐标；

根据预设的目标预测模型，对所述当前帧图像进行目标预测，得到目标预测结果，其中，所述目标预测模型为包括两层卷积层和两层全连接层的卷积神经网络模型，所述目标预测结果包括N个目标区域和每个所述目标区域对应的目标位置信息，N为正整数，每个所述目标区域包含一个待跟踪目标；

根据每个所述目标区域的所述目标位置信息和所述原始坐标计算每个待跟踪目标和所述原始目标点之间的欧氏距离，得到N个距离；

从所述N个距离中选取数值最小的距离作为目标距离，获取所述目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为所述原始目标点对应的跟踪目标。

一种跟踪目标的定位装置，包括：

请求接收模块，用于若接收到跟踪目标的定位请求，则获取所述定位请求中包含的用户选定的原始目标点的原始位置信息，其中，所述原始位置信息包括所述原始目标点在当前播放的视频数据中的当前帧图像和所述原始目标点在所述当前帧图像中的原始坐标；

目标预测模块，用于根据预设的目标预测模型，对所述当前帧图像进行目标预测，得到目标预测结果，其中，所述目标预测模型为包括两层卷积层和两层全连接层的卷积神经网络模型，所述目标预测结果包括N个目标区域和每个所述目标区域对应的目标位置信息，N为正整数，每个所述目标区域包含一个待跟踪目标；

距离计算模块，用于根据每个所述目标区域的所述目标位置信息和所述原始坐标计算每个待跟踪目标和所述原始目标点之间的欧氏距离，得到N个距离；

目标确认模块，用于从所述N个距离中选取数值最小的距离作为目标距离，获取所述目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为所述原始目标点对应的跟踪目标。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述跟踪目标的定位方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述跟踪目标的定位方法的步骤。

上述跟踪目标的定位方法、装置、设备及存储介质，通过从接收到的跟踪目标的定位请求中获取用户选定的原始目标点的原始位置信息，并根据预设的目标预测模型，对原始位置信息中的视频数据的当前帧图像进行目标预测，得到目标预测结果，能够准确区分出当前帧图像中的目标和背景，避免人工画出的预测目标的位置信息不准确，预测目标易被背景遮挡的情况，从而提高对跟踪目标预测的准确率，同时，根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，然后，选取数值最小的距离作为目标距离，获取该目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为原始目标点对应的跟踪目标，这种在保证当前帧图像中的预测出的目标区域较为准确的基础上，计算待跟踪目标和原始目标点之间最小距离，来确定跟踪目标的方法，能够保证对跟踪目标的定位的准确率，该方法运算量小，操作简便，并且用户不需要暂停当前正在播放的视频，缩短了操作周期，从而提高对跟踪目标的定位效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中跟踪目标的定位方法的一应用环境示意图；

图2是本发明一实施例中跟踪目标的定位方法的一流程图；

图3是本发明一实施例中跟踪目标的定位方法中步骤S3的实现流程图；

图4是本发明一实施例中跟踪目标的定位方法中构建目标预测模型的一流程图；

图5是本发明一实施例中跟踪目标的定位方法中构建卷积神经网络目标检测算法的结构的一实现流程图；

图6是本发明一实施例中跟踪目标的定位方法中确认跟踪目标的一实现流程图；

图7是本发明一实施例中跟踪目标的定位装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于检测用户的触摸操作，根据该触摸操作生成定位请求，并将定位请求发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于处理视频数据，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的跟踪目标的定位方法应用于服务端。

请参阅图2，图2示出本实施例提供的跟踪目标的定位方法的实现流程。详述如下：

S1：若接收到跟踪目标的定位请求，则获取定位请求中包含的用户选定的原始目标点的原始位置信息，其中，原始位置信息包括原始目标点在当前播放的视频数据中的当前帧图像和原始目标点在当前帧图像中的原始坐标。

在本实施例中，原始目标点是用户在正在播放的视频画面中，选定的一个想要跟踪的目标所在的位置区域上的一个点。客户端通过检测到用户的触摸操作、点击操作或者其他操作，生成跟踪目标的定位请求，并将定位请求发送到服务端进行处理。

其中，触摸操作是指在显示设备上通过人手触摸屏幕的方式来实现的操作，显示设备能够根据人手触摸的图标或菜单位置来定位选择信息输入，或者根据人手触摸的位置，检测触摸的位置的坐标。点击操作是指在显示设备通过光标点击的方式来实现的操作，显示设备能够根据光标点击的图标或菜单位置来定位选择信息输入，或者根据光标点击的位置，检测光标点击的坐标。

需要说明的是，用于获取原始目标点在视频数据中的原始位置信息的显示设备具体可以是触摸屏，也可以是其他设备，此处不做具体限制。当前帧图像是指原始目标点所在的当前正在播放的画面，可以通过显示设备中的部件进行锁定。

优选地，本实施例中采用的是触摸屏的显示设备用于获取原始目标点在视频数据中的原始位置信息，其中，触摸屏由触摸检测部件和触摸屏控制器组成，即触摸检测部件和触摸屏控制器安装在显示设备中，触摸检测部件用于检测用户触摸的位置和锁定当前正在播放的视频数据的当前帧图像，生成触摸信息，然后，将触摸信息发送至触摸屏控制器，而触摸屏控制器的主要作用是从触摸点检测装置上接收触摸信息，并将触摸信息中的用户触摸的位置转换成触点坐标，该触点坐标即为原始目标点的原始坐标。

具体地，在实时播放的视频中，由于用户想要选定视频画面中的某一目标，则可以对播放视频的显示设备进行触摸操作，当客户端检测到用户在显示设备上的触摸操作时，则可以根据该触摸操作确定当前正在播放的视频数据的当前帧图像，以及用户选定的原始目标点在当前帧图像中的原始坐标，并生成包含当前帧图像和原始坐标的定位请求，客户端将该定位请求发送给服务端。

服务端接收到该定位请求，读取该定位请求中携带的原始目标点的原始位置信息。

S2：根据预设的目标预测模型，对当前帧图像进行目标预测，得到目标预测结果，其中，目标预测模型为包括两层卷积层和两层全连接层的卷积神经网络模型，目标预测结果包括N个目标区域和每个目标区域对应的目标位置信息，N为正整数，每个目标区域包含一个待跟踪目标。

在本实施例中，预设的目标预测模型是根据实际业务需求进行训练得到的，用于预测原始目标点所在的当前帧图像中候选的目标区域，其中，候选的目标区域是在当前帧图像中包含了可移动对象的区域，每个可移动对象对应一个目标区域，该目标区域以矩形框的形式显示，目标区域中的可移动对象即为待跟踪目标，目标区域的目标位置信息包括区域的左上角坐标、区域的宽和高。目标预测模型的卷积层用于对当前帧图像进行图像特征提取，全连接层根据提取到的图像特征，输出图像特征对应的目标区域，以及目标区域对应的目标位置信息。

具体地，将当前帧图像输入预设的目标预测模型中，通过模型中的卷积层对当前帧图像进行图像特征提取，然后，将图像特征通过模型的全连接层，输出图像特征对应的目标区域，以及目标区域对应的目标位置信息，作为目标预测结果。

例如，将一帧图像输入预设的目标预测模型中，通过模型中的卷积层对这帧图像进行图像特征提取，然后，将提取到的图像特征通过模型的全连接层，将不属于图像背景的可移动对象在以矩形框的形式显示出来，假设得到预测得到6个可移动对象，则目标预测结果为6个目标区域，以及该6个目标区域对应的目标位置信息。

需要说明的是，通过训练好的目标预测模型对当前帧图像进行目标预测，通过目标预测模型中的卷积层对当前帧图像进行图像特征提取，能够准确区分出当前帧图像中的可移动对象和背景，避免人工画出的预测目标的位置信息不准确，预测目标易被背景遮挡的情况，从而提高对跟踪目标预测的准确率。

S3：根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，得到N个距离。

在本实施例中，由于欧氏距离是一个常用的距离定义，可用于表示在m维空间中多个点之间的真实距离，或者向量的自然长度，以及在二维空间中的两点之间的欧氏距离就是两点之间的实际距离，因此，通过计算每个待跟踪目标和原始目标点之间的欧氏距离，能够最快速、直观地反映出每个待跟踪目标和原始目标点之间的位置关系。

具体地，将步骤S2中得到的每个目标区域的目标位置信息和步骤S1中得到的原始目标点的原始坐标，代入欧氏距离公式中，经过计算可以得到目标区域中每个待跟踪目标和原始目标点之间的N个欧氏距离。

例如，继续使用步骤S2中的例子，若通过目标预测模型预测得到6个目标区域和该6个目标区域对应的目标位置信息，则将这6个目标区域的目标位置信息和原始坐标，代入欧氏距离公式中，能够计算出6个待跟踪目标和原始目标点之间的欧氏距离，得到6个距离。

S4：从N个距离中选取数值最小的距离作为目标距离，获取目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为原始目标点对应的跟踪目标。

在本实施例中，由于在步骤S3中计算得到N个欧氏距离，能够直观地反映出每个待跟踪目标和原始目标点之间的位置关系，所以在通常情况下，可以理解为待跟踪目标的位置最接近原始目标点，则该待跟踪目标就是原始目标点对应的跟踪目标。目标距离即原始目标点位置与最接近的待跟踪目标之间的距离。

具体地，将步骤S3中得到的N个距离中任意两个距离进行比较，取数值小的距离，再将该数值小的距离与其他距离进行比较，以此类推，直至比较出N个距离中数值最小的距离，将该数值最小的距离作为目标距离，并将该数值最小的距离对应的目标区域中的待跟踪目标作为原始目标点对应的跟踪目标。

例如，继续使用步骤S3中的例子，假设计算得到的6个距离，分别为45.63、56.03、78.24、34.33、40.55和63.06，将6个距离中任意两个距离进行比较，如取45.63与56.03比较，得到45.63小于56.03，则选出45.63，然后再将45.63与其他距离进行比较，如将45.63与40.55比较，得到45.63大于40.55，则选出40.55，以此类推，直到比较得出数值最小的距离为34.33，则将距离34.33对应的目标区域中的待跟踪目标作为原始目标点对应的跟踪目标。

在本实施例中，通过从接收到的跟踪目标的定位请求中获取用户选定的原始目标点的原始位置信息，并根据预设的目标预测模型，对原始位置信息中的视频数据的当前帧图像进行目标预测，得到目标预测结果，能够准确区分出当前帧图像中的目标和背景，避免人工画出的预测目标的位置信息不准确，预测目标易被背景遮挡的情况，从而提高对跟踪目标预测的准确率，同时，根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，然后，选取数值最小的距离作为目标距离，获取该目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为原始目标点对应的跟踪目标，这种在保证当前帧图像中的预测出的目标区域较为准确的基础上，计算待跟踪目标和原始目标点之间最小距离，来确定跟踪目标的方法，能够保证对跟踪目标的定位的准确率，该方法运算量小，操作简便，并且用户不需要暂停当前正在播放的视频，缩短了操作周期，从而提高对跟踪目标的定位效率。

在一实施例中，如图3所示，步骤S3中，目标区域对应的目标位置信息包括目标区域的左上角坐标、目标区域的宽和高，即根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，得到N个距离具体包括如下步骤：

S301：针对每个目标位置信息，按照如下中心点坐标公式，计算第i个目标位置信息对应的目标区域的中心点坐标

其中，i为正整数，且0<i≤N，x_i为第i个目标位置信息对应的目标区域的左上角坐标的横坐标，y_i为左上角坐标的纵坐标，w_i为第i个目标位置信息对应的目标区域的宽和h_i为第i个目标位置信息对应的目标区域的高。

具体地，由于目标区域是以矩形框的形式显示的，且目标区域的位置信息包括矩形框的左上角的坐标、矩形框的宽和高，为了能准确反映出每个目标区域中的待跟踪目标与原始目标点之间的位置关系，需要将目标区域的位置信息代入中心点坐标公式，计算出每个目标区域的中心点坐标，因此，当前帧图像上预测出N个目标区域，按照中心点坐标公式，分别计算第一个至第N个目标区域的中心点坐标，得到N个中心点坐标，方便后续能够根据得到的N个目标区域的中心点坐标，快速计算出每个待跟踪目标和原始目标点之间的欧氏距离。

例如，假设当前帧图像上预测出的一个目标区域，该目标区域的左上角坐标为(50，50)，目标区域的宽为80，高为60，那么将目标区域的位置信息代入中心坐标公式进行计算，得到该目标区域的中心点坐标为(70，80)。

S302：针对每个中心点坐标，计算第i个中心点坐标与原始坐标(Δx,Δy)之间的欧氏距离d_i：

具体地，将步骤S301中得到的每个中心点坐标和原始坐标，分别代入欧氏距离公式中进行计算，能够快速计算出每个目标区域中的待跟踪目标和原始目标点之间的欧氏距离。

例如，继续使用步骤S301中的例子，得到的一个目标区域的中心点坐标为(90，80)，假设原点坐标为(110，130)，将中心点坐标和原点坐标，代入欧氏距离公式中进行计算，得到欧氏距离d₁约等于53.85，假如计算得到另外两个中心点坐标分别为(60，90)和(100，70)，将这两个中心点坐标和原点坐标，分别代入欧氏距离公式中进行计算，中心点坐标(60，90)对应的欧氏距离d₂约等于64.03，中心点坐标(100，70)对应的欧氏距离d₃约等于60.83。

在本实施例中，对步骤S2中得到的目标区域的目标位置信息，采用中心点坐标公式来计算目标区域的中心点坐标，然后，将得到的每个中心点坐标和原点坐标，分别代入欧氏距离公式中进行计算，能够快速计算出每个目标区域中的待跟踪目标和原始目标点之间的欧氏距离。

在一实施例中，如图4所示，在步骤S2之前，该跟踪目标的定位方法还包括如下步骤：

S5：获取样本训练图像数据。

在本实施例中，样本训练图像数据包括MsCoCo数据集和CalTech数据集。其中，MsCoCo数据集为网络共享的公有数据集，在该数据集中包括了328000个影像、2500000个标签和包含了91类目标的图像，这个数据集以场景理解(scene understanding)为目标，图像中的目标通过精确的分割进行位置的标定，从复杂的日常场景中截取。Caltech数据集为网络共享的公有数据集主要包括2类，一类是Caltech-101，包含了101类的图像，每类大约有40～800张图像，大部分是50张/类，每张图像的大小大约是300x200；另一类是Caltech-256，和Caltech-101相似，包含了30607张图像。

具体地，获取样本训练图像数据的方式具体可以包括但不限于接收用户上传的样本训练图像数据，或者是自动定时从第三方视频图像数据库获取样本训练图像数据等，还可以是其他获取方式，此处不做限制，其中，第三方视频图像数据库具体可以是网络视频平台的数据库。

S6：基于深度学习框架构建卷积神经网络目标检测算法的结构。

在本实施例中，深度学习框架包括caffe或caffe2等，其中，caffe2是轻量级、模块化和可扩展的一个框架，包括存储接口(blob)、层结构(layer)和结构链接(net)。其中，blob是整个框架的标准的数组结构和统一存储接口。layer作为建模和计算的层结构基础，net作为layer的集合和链接。blob的细节描述了信息是怎样在layers和nets间存储和交换的。caffe2具体是通过使用自己的建模方法将网络一层一层定义出来的，即将网络由输入数据到损失层把整个模型自底向上的定义出来。数据和偏导数等信息在网络中前向、后向流动，而caffe2使用blob存储、交换和操纵这些信息。

优选地，本实施例采用基于caffe2框架构建卷积神经网络目标检测算法(Faster-RCNN)的结构，具体可以通过caffe2框架中的layer对卷积神经网络目标检测算法的结构进行每一个层结构的定义，然后，通过结构链接(net)将定义好的每一个层结构进行链接，其次，通过caffe2框架中的blob将链接好的层结构进行存储，得到搭建好的Faster-RCNN的结构，在caffe2框架构建的Faster-RCNN的结构，逻辑结构层次分明，参数定义清晰，能够根据参数定义快速锁定结构中的参数位置，便于Faster-RCNN的结构的修改和完善。

在本实施例中，构建的卷积神经网络目标检测算法的结构是由两层卷积层和两层全连接层构成，按照从前至后的顺序，分别是第一层为第一卷积层，第二层为第二卷积层，第三层为第一全连接层和第四层为第二全连接层。

其中，第一卷积层能够用于对输入的图像数据进行卷积，对图像数据进行初步特征提取，具体可以通过将该卷积层的卷积核窗口大小设为11*11，相邻局部接受域的中心距离设为4，能够提取出输入的图像数据对应的96个特征图，然后，第一卷积层连接有一个下采样层，能够将每个特征图经过一个下采样层进行降维，以压缩特征图，保证提取的特征的完整性，下采样层的核窗口大小通常设为3*3，相邻局部接受域的中心距离为2，最后，能够将经下采样层得到降维后的特征图输入到第二层卷积层。

第二卷积层，能够用于对第一卷积层中得到特征图进行卷积，是对第一卷积层得到特征图进行进一步地特征提取，提高特征的提取精度，将第二卷积层的卷积核窗口大小设为5*5，相邻局部接受域的中心距离设为2，能够输出256个特征图，第二卷积层连接有一个下采样层，将每个特征图经过一个下采样层进行降维，以压缩特征图，保证提取的特征的完整性和精度，下采样层的核窗口大小设为3*3，相邻局部接受域的中心距离为2，能够将经下采样层得到降维后的特征图输入到第一全连接层。

第三层是第一全连接层，该层有1000个神经元，能够用于将第二卷积层中得到的特征图变换成一个n维列向量，能够将n维列向量与第一全连接层的权值矩阵和偏置进行非线性变换得到一个1000维列向量输入到第二全连接层；

第四层是第二全连接层，该层有m个神经元，能够用于将第一全连接层中得到的1000维列向量与第二全连接层的权值矩阵和偏置进行非线性变换得到一个m维特征向量，其中，m的数值是根据图像上的目标个数，具体可以通过更新第二全连接层的权值矩阵和偏置进行确定，即m个目标对应设置有m个神经元。

S7：在卷积神经网络目标检测算法的结构中，使用样本训练图像数据对卷积神经网络目标检测算法的结构进行训练，得到目标预测模型。

在本实施例中，使用样本训练图像数据对卷积神经网络目标检测算法的结构进行训练，是在MsCoCo数据集和CalTech数据集上通过使用共享特征交替训练的方式，即对两个数据集中相同的图片进行特征提取和对卷积神经网络目标检测算法的结构中的权值矩阵和偏置进行更新，直到得到相同的目标数，则可以确定目标预测模型中应该使用的权值和偏置，得到一个目标预测模型。其中，目标预测模型包括两个文件构成，一个文件是卷积神经网络目标检测算法的结构，另外一个文件是卷积神经网络目标检测算法的结构中各个每个层的权值(weight)和偏置(bias)，权值即权值矩阵中的权重值，偏置即权值矩阵所对应的偏移量。

具体地，训练的过程是将样本训练图像数据在卷积神经网络目标检测算法的结构中提取到的特征，通过传统的随机梯度下降算法，将卷积神经网络目标检测算法的结构的每个层中包含的代价函数，按照层结构从前至后的方向，计算每个层对应的代价函数值，该代价函数值可以用于后续每个层中的误差灵敏度的计算，然后，通过传统的反向传播算法，将卷积神经网络目标检测算法的结构的每个层，按照层结构从后至前的方向，计算每个层中的误差灵敏度，最后，将计算得到的每个层的误差灵敏度中包含的权重值和偏移量，用于更新层结构中的原始的权重值和偏移量，得到目标预测模型。

在本实施例中，由于目标检测算法的结构对样本训练图像数据具有很好的拟合性，因此，基于caffe2框架构建卷积神经网络目标检测算法的结构，在构建好的卷积神经网络目标检测算法的结构中利用设置好的可滑动的卷积核窗口对输入的样本训练图像数据进行卷积的操作来实现对样本训练图像数据的特征提取，能够保证对该样本训练图像数据的特征提取完整性，且在提取图像特征的过程中，对图像形变以及平移等几何变换具有高度不变性，从而能够保证训练得到的目标预测模型预测到的图像的目标的特征的完整性，能够保证了后续对图像中的目标信息识别的准确率。

在一实施例中，如图5所示，步骤S6中，即基于深度学习框架构建卷积神经网络目标检测算法的结构具体包括如下步骤：

S601：获取卷积神经网络目标检测算法的结构的定义信息。

在本实施例中，不同的网络结构所需的配置参数的可能不同，网络结构的结构定义也可能不同，针对不同网络结构的构建需求，预先设置每个网络结构对应的层结构包含的参数名及参数名对应的具体参数数据，从而根据待构建网络结构的参数名能够快速从定义信息中获取该待构建网络结构所需配置的参数数据，以使得后续在构建网络结构的过程中能够快速填入层结构中。

例如，层结构中参数名为层的名字、层的类型或输出数据的类型定义等，参数名对应的具体参数数据，如“层的名字”对应的具体参数为“conv2(第二卷积层)”、“层的类型”对应的具体参数为“convolution(卷积)”或“输出数据的类型定义”对应的具体参数为“data(数据)”等。

S602：在深度学习框架中按照预设的网络定义的层结构，将定义信息填入对应的卷积层和全连接层的层结构中，生成卷积神经网络目标检测算法的结构。

在本实施例中，预设的网络定义结构包括层的名字、层的类型、与层的类型相对应的层参数、输出数据的类型定义、滤波参数中滤波的学习率和滤波参数中滤波的衰减率等。

例如，若预设的网络定义结构的一个层结构包括层的名字、层的类型、滤波参数中滤波的学习率和滤波参数中滤波的衰减率等，则模型定义结构的层结构可以设置为：

当层的名字为“conv1(第一卷积层)”、层的类型为“convolution(卷积)”、滤波参数中滤波的学习率为“1”和滤波参数中滤波的衰减率为“1”时，生成的结构描述为：

在本实施例中，通过获取到的卷积神经网络目标检测算法的结构的定义信息，将定义信息中与预设的网络定义的层结构中有相同参数名对应的具体参数数据，添加到预设的网络定义的层结构中，即能够在深度学习框架中快速生成与定义信息对应的卷积层和全连接层的层结构中，生成卷积神经网络目标检测算法的结构，操作简便快捷，不易出错，还可以通过参数名实现对具体参数数据的快速修改，便于完善卷积神经网络目标检测算法的结构。

在一实施例中，如图6所示，在步骤S3之后，该跟踪目标的定位方法还包括如下步骤：

S8：将N个距离中小于预设阈值的距离的目标位置信息对应的目标区域中的待跟踪目标反馈给用户进行确认。

具体地，为了进一步地提高对跟踪目标的定位的准确性，能够通过设定一个距离阈值，将小于该距离阈值的距离对应的目标区域中的待跟踪目标发给用户进行确认，以增加目标跟踪定位的准确率。

S9：接收用户返回的确认结果，并根据确认结果，将用户确认的跟踪目标作为原始目标点对应的跟踪目标。

具体地，当用户接收到步骤S8中得到的小于预设阈值的距离对应的目标区域中的待跟踪目标，用户可以根据当前帧图像的原始目标点，从这些待跟踪目标中选定一个跟踪目标，作为确认结果并返回，以实现准确地定位出跟踪目标。

在本实施例中，通过将小于该阈值的距离对应的目标区域中的待跟踪目标发给用户进行确认，以使用户根据当前帧图像的原始目标点，从这些待跟踪目标中选定一个跟踪目标，作为确认结果并返回，能够实现准确地确定跟踪目标的定位，从而提高了对跟踪目标的定位的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种跟踪目标的定位装置，该跟踪目标的定位装置与上述实施例中跟踪目标的定位方法一一对应。如图7所示，该跟踪目标的定位装置包括请求接收模块701、目标预测模块702、距离计算模块703和目标确认模块704。各功能模块详细说明如下：

请求接收模块701，用于若接收到跟踪目标的定位请求，则获取定位请求中包含的用户选定的原始目标点的原始位置信息，其中，原始位置信息包括原始目标点在当前播放的视频数据中的当前帧图像和原始目标点在当前帧图像中的原始坐标；

目标预测模块702，用于根据预设的目标预测模型，对当前帧图像进行目标预测，得到目标预测结果，其中，目标预测模型为包括两层卷积层和两层全连接层的卷积神经网络模型，目标预测结果包括N个目标区域和每个目标区域对应的目标位置信息，N为正整数，每个目标区域包含一个待跟踪目标；

距离计算模块703，用于根据每个目标区域的目标位置信息和原始坐标计算每个待跟踪目标和原始目标点之间的欧氏距离，得到N个距离；

目标确认模块704，用于从N个距离中选取数值最小的距离作为目标距离，获取目标距离对应的目标位置信息，并将获取到的目标位置信息对应的目标区域中的待跟踪目标确定为原始目标点对应的跟踪目标。

进一步地，距离计算模块703包括：

坐标计算单元7031，用于针对每个目标位置信息，按照如下中心点坐标公式，计算第i个目标位置信息对应的目标区域的中心点坐标

其中，i为正整数，且0<i≤N，x_i为第i个目标位置信息对应的目标区域的左上角坐标的横坐标，y_i为左上角坐标的纵坐标，w_i为第i个目标位置信息对应的目标区域的宽和h_i为第i个目标位置信息对应的目标区域的高；

距离计算单元7032，用于针对每个中心点坐标，计算第i个中心点坐标与原始坐标(Δx,Δy)之间的欧氏距离d_i：

进一步地，该跟踪目标的定位装置还包括：

数据获取模块705，用于获取样本训练图像数据；

结构构建模块706，用于基于深度学习框架构建卷积神经网络目标检测算法的结构；

模型训练模块707，用于在卷积神经网络目标检测算法的结构中，使用样本训练图像数据对卷积神经网络目标检测算法的结构进行训练，得到目标预测模型。

进一步地，结构构建模块706包括：

定义获取单元7061，用于获取卷积神经网络目标检测算法的结构的定义信息；

结构生成单元7062，用于在深度学习框架中按照预设的网络定义的层结构，将定义信息填入对应的卷积层和全连接层的层结构中，生成卷积神经网络目标检测算法的结构。

进一步地，该跟踪目标的定位装置还包括：

目标反馈模块708，用于将N个距离中小于预设阈值的距离的目标位置信息对应的目标区域中的待跟踪目标反馈给用户进行确认；

结果接收模块709，用于接收用户返回的确认结果，并根据确认结果，将用户确认的跟踪目标作为原始目标点对应的跟踪目标。

关于跟踪目标的定位装置的具体限定可以参见上文中对于跟踪目标的定位方法的限定，在此不再赘述。上述跟踪目标的定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于保存视频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种跟踪目标的定位方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例跟踪目标的定位方法的步骤，例如图2所示的步骤S1至步骤S4。或者，处理器执行计算机程序时实现上述实施例中跟踪目标的定位装置的各模块/单元的功能，例如图7所示模块701至模块704的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中跟踪目标的定位方法，或者，该计算机程序被处理器执行时实现上述装置实施例中跟踪目标的定位装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种跟踪目标的定位方法，其特征在于，所述跟踪目标的定位方法包括：

所述目标区域对应的目标位置信息包括目标区域的左上角坐标、所述目标区域的宽和高，所述根据每个所述目标区域的所述目标位置信息和所述原始坐标计算每个待跟踪目标和所述原始目标点之间的欧氏距离，得到N个距离包括：

针对每个所述目标位置信息，按照如下中心点坐标公式，计算第i个所述目标位置信息对应的目标区域的中心点坐标

其中，i为正整数，且0＜i≤N，x_i为第i个所述目标位置信息对应的所述目标区域的左上角坐标的横坐标，y_i为所述左上角坐标的纵坐标，w_i为所述第i个所述目标位置信息对应的目标区域的宽和h_i为所述第i个所述目标位置信息对应的目标区域的高；

针对每个所述中心点坐标，计算第i个所述中心点坐标与所述原始坐标(Δx，Δy)之间的欧氏距离d_i：

2.如权利要求1所述的跟踪目标的定位方法，其特征在于，所述根据预设的目标预测模型，对所述当前帧图像进行目标预测，得到目标预测结果之前，所述跟踪目标的定位方法还包括：

获取样本训练图像数据；

基于深度学习框架构建卷积神经网络目标检测算法的结构；

在所述卷积神经网络目标检测算法的结构中，使用所述样本训练图像数据对所述卷积神经网络目标检测算法的结构进行训练，得到所述目标预测模型。

3.如权利要求2所述的跟踪目标的定位方法，其特征在于，所述基于深度学习框架构建卷积神经网络目标检测算法的结构包括：

获取所述卷积神经网络目标检测算法的结构的定义信息；

在所述深度学习框架中按照预设的网络定义的层结构，将所述定义信息填入对应的所述卷积层和所述全连接层的层结构中，生成所述卷积神经网络目标检测算法的结构。

4.如权利要求1所述的跟踪目标的定位方法，其特征在于，在所述根据每个所述目标区域的所述目标位置信息和所述原始坐标计算每个待跟踪目标和所述原始目标点之间的欧氏距离，得到N个距离之后，所述跟踪目标的定位方法还包括：

将所述N个距离中小于预设阈值的所述距离的目标位置信息对应的目标区域中的待跟踪目标反馈给用户进行确认；

接收所述用户返回的确认结果，并根据所述确认结果，将所述用户确认的跟踪目标作为所述原始目标点对应的跟踪目标。

5.一种跟踪目标的定位装置，其特征在于，所述跟踪目标的定位装置包括：

所述目标区域对应的目标位置信息包括目标区域的左上角坐标、所述目标区域的宽和高，所述距离计算模块包括：

坐标计算单元，用于针对每个所述目标位置信息，按照如下中心点坐标公式，计算第i个所述目标位置信息对应的目标区域的中心点坐标

距离计算单元，用于针对每个所述中心点坐标，计算第i个所述中心点坐标与所述原始坐标(Δx，Δy)之间的欧氏距离d_i：

6.如权利要求5所述的跟踪目标的定位装置，其特征在于，所述跟踪目标的定位装置还包括：

数据获取模块，用于获取样本训练图像数据；

结构构建模块，用于基于深度学习框架构建卷积神经网络目标检测算法的结构；

模型训练模块，用于在所述卷积神经网络目标检测算法的结构中，使用所述样本训练图像数据对所述卷积神经网络目标检测算法的结构进行训练，得到所述目标预测模型。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述跟踪目标的定位方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述跟踪目标的定位方法的步骤。