CN108320297A

CN108320297A - 一种视频目标实时跟踪方法及系统

Info

Publication number: CN108320297A
Application number: CN201810192820.3A
Authority: CN
Inventors: 刘罡; 陈欣
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-07-24
Anticipated expiration: 2038-03-09
Also published as: CN108320297B

Abstract

本发明公开了一种视频目标实时跟踪方法及系统，该方法包括：对获取的视频训练集和视频测试集进行处理；建立由孪生卷积网络、单层卷积网络、双向长短时记忆网络、全连接层网络组成的视频目标跟踪网络模型，对此模型的网络参数初始化以及确定此模型的损失函数；将处理后的视频训练集中的图片对依次输出到上述模型中，确定视频目标的预测位置坐标；根据预测位置坐标、获取的视频目标的实际位置坐标、损失函数确定训练好的网络参数；根据训练好的网络参数、上述模型，对处理后的视频测试集中的视频目标进行实时跟踪。本发明通过采用视频目标跟踪网络模型，实时有效的跟踪视频目标，提高视频目标跟踪的精准度，扩大应用范围与应用场景。

Description

一种视频目标实时跟踪方法及系统

技术领域

本发明涉及视频目标跟踪技术领域，特别涉及一种视频目标实时跟踪方法及系统。

背景技术

随着深度学习技术的发展，基于深度学习的视频目标跟踪技术应用的越来越广。视频目标跟踪是基于视频中物体的移动进行画框跟踪的一种目标跟踪技术。视频目标跟踪方法集成了深度学习、模式识别和数字图像处理等多种专业技术。视频目标跟踪关键有两点：(1)目标特征的提取；(2)跟踪的算法。深度学习能够实现图像特征提取和跟踪算法的实施，极大的提高了视频目标跟踪的精度。视频目标跟踪方法所使用的深度学习网络结构的设计往往会直接影响到视频目标跟踪的效果。因此设计一种合适的深度学习网络结构是提高视频目标跟踪精度的重要任务之一。

2010年以前，视频目标跟踪领域一般采用一些传统跟踪方法，比如Meanshift、Particle Filter和Kalman Filter，以及基于特征点的光流算法等。在2010年左右，视频目标跟踪方法通常分成基于产生式模型的方法和基于鉴别式模型的方法。前面所述的传统跟踪方法都可以归类为产生式模型的方法，而基于鉴别式模型的方法是指利用分类来做跟踪的方法，即把跟踪的目标作为前景，利用在线学习或离线训练的检测器来区分前景目标和背景，从而得到前景目标的位置。最近几年是深度学习的高速发展期，深度学习技术也被成功应用在计算机视觉的各个应用领域，视频目标跟踪也不例外。在大数据背景下，利用深度学习训练网络模型，得到的卷积特征输出表达能力更强。在目标跟踪上，把网络学习到的特征，直接应用到深度学习中的跟踪框架里面，取得了很好的跟踪结果。长期实践发现，上述方法虽然取得了很好的跟踪效果，但是无法实时有效的跟踪视频目标的移动，视频目标跟踪的精准度不高。

发明内容

本发明的目的是提出一种基于孪生卷积网络和双向长短时记忆网络的视频目标实时跟踪方法及系统，能够实时有效的跟踪视频目标的移动，提高视频目标跟踪的精准度，并且放宽跟踪目标的类别，扩大应用范围与应用场景。

为实现上述目的，本发明提供了如下方案：

一种视频目标实时跟踪方法，所述视频目标实时跟踪方法包括：

获取视频训练集和视频测试集；

对所述视频训练集和所述视频测试集进行预处理；

建立视频目标跟踪网络模型；所述视频目标跟踪网络模型包括依次连接的孪生卷积网络模型、单层卷积网络模型、双向长短时记忆网络模型、全连接层网络模型；所述孪生卷积网络模型中两个卷积模块的参数相同，且所述孪生卷积网络模型中的两个输出拼接成一个输出；所述单层卷积网络模型为不补零的单层卷积网络模型；所述全连接层网络模型的输出为视频目标在第二帧视频图像中的预测位置坐标；

确定所述视频目标跟踪网络模型的损失函数；

对所述视频目标跟踪网络模型中的网络参数进行初始化；

将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标；所述图片对为所述视频训练集或者所述视频测试集中每相邻的两帧视频图像组成的图片对；

获取所述视频目标的实际位置坐标；

根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数；

根据所述训练好的网络参数以及所述视频目标跟踪网络模型，对预处理后的视频测试集中的视频目标进行实时跟踪。

可选的，所述对所述视频训练集和所述视频测试集进行预处理，具体包括：

将所述视频训练集和所述视频测试集中的视频序列中的所有视频帧中每相邻的两帧视频图像组成图片对；

对每对所述图片对进行裁剪；裁剪方式包括：确定所述图片对中第一帧图像中所述视频目标的所在矩形框位置；以所述视频目标为中心，在所述第一帧图像上裁剪出所述矩形框三倍大小的矩形区域作为所述图片对的新的第一帧图像；所述图片对中的第二帧图像按照所述裁剪方式进行裁剪，得到的裁剪图片为所述图片对中新的第二帧图像。

可选的，所述将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标，具体包括：

采用孪生卷积网络模型，对视频训练集中的所述图片对依次进行卷积提取，得到两个子图；所述子图为视频目标特征；

将两个所述子图进行拼接，得到一个特征子图块；

采用单层卷积网络模型，对所述特征子图快进行卷积层、降维以及提出，得到处理后的特征子图块；

将所述处理后的特征子图块依次输出到所述双向长短时记忆网络模型、所述全连接层网络模型，确定所述视频目标的预测位置坐标。

可选的，所述双向长短时记忆网络模型包括两个序列，分别为前向序列和后向序列，且每一个所述时序设有一个输出；所述时序具有记忆和遗忘之前所述时序的部分信息的特点；所述前向序列和所述后向序列的迭代次数相同，且所述迭代的次数由所述特征子图块的尺寸决定；每次迭代设有512个时序。

可选的，所述全连接层网络模型为两个；所述全连接层网络模型用于比较视频目标特征和搜索区域特征，输出视频目标的预测位置坐标；所述全连接层网络模型设有四个输出，且每个所述输出用于输出一个位置坐标，四个所述位置坐标为所述视频目标在所述矩形区域的左上角坐标和右下角坐标。

可选的，所述视频目标跟踪网络模型的损失函数为：f＝f₁(x)+f₂(y)+f₃(z)+g(l)；

其中，f₁(x)＝l2_loss(x)*wd是所述孪生卷积网络模型中每个单层卷积网络的卷积层中权重x衰减的总损失的特征表达；f₂(y)＝l2_loss(y)*wd是所述全连接层网络模型中的权重y衰减总损失的特征表达，f₃(z)＝l2_loss(z)*wd是所述双向长短时记忆网络模型中各个门的权重z衰减的总损失的特征表达；l2_{_}loss(z)＝sum(t**2)/2，sum表示求和；表示预测位置坐标y_i与实际位置坐标y_i'之间差异损失的特征表达，f为各损失之和的特征表达。

可选的，所述网络参数具体包括：学习率、最大训练代数、每批输入到所述视频目标跟踪网络模型的个数、视频图像宽度，视频图像高度，双向长短时记忆网络模型维度，双向长短时记忆网络模型的处理后的特征子图块数量，双向长短时记忆网络模型的迭代次数，子图维度结构，视频训练集的路径，视频测试集的路径，权重衰减参数。

可选的，所述根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数具体包括：

采用梯度下降法，根据所述预测位置坐标与所述实际位置坐标，对所述损失函数进行迭代，调整网络参数，确定最小损失值，并将最小损失值所对应的网络参数确定为训练好的网络参数。

本发明还提供了一种视频目标实时跟踪系统，所述视频目标实时跟踪系统包括：

获取模块，用于获取视频训练集和视频测试集；

预处理模块，用于对所述视频训练集和所述视频测试集进行预处理；

视频目标跟踪网络模型建立模块，用于建立视频目标跟踪网络模型；所述视频目标跟踪网络模型包括依次连接的孪生卷积网络模型、单层卷积网络模型、双向长短时记忆网络模型、全连接层网络模型；所述孪生卷积网络模型中两个卷积模块的参数相同，且所述孪生卷积网络模型中的两个输出拼接成一个输出；所述单层卷积网络模型为不补零的单层卷积网络模型；所述全连接层网络模型的输出为视频目标在第二帧视频图像中的预测位置坐标；

损失函数确定模块，用于确定所述视频目标跟踪网络模型的损失函数；

网络参数初始化模块，用于对所述视频目标跟踪网络模型中的网络参数进行初始化；

预测位置坐标确定模块，用于将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标；所述图片对为所述视频训练集或者所述视频测试集中每相邻的两帧视频图像组成的图片对；

实际位置坐标获取模块，用于获取所述视频目标的实际位置坐标；

训练好的网络参数得到模块，用于根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数；

实时跟踪模块，用于根据所述训练好的网络参数以及所述视频目标跟踪网络模型，对预处理后的视频测试集中的视频目标进行实时跟踪。

可选的，所述预测位置坐标确定模块，具体包括：

子图得到单元，用于采用孪生卷积网络模型，对视频训练集中的所述图片对依次进行卷积提取，得到两个子图；所述子图为视频目标特征；

特征子图块得到单元，用于将两个所述子图进行拼接，得到一个特征子图块；

处理后的特征子图块得到单元，用于采用单层卷积网络模型，对所述特征子图快进行卷积层、降维以及提出，得到处理后的特征子图块；

预测位置坐标确定单元，用于将所述处理后的特征子图块依次输出到所述双向长短时记忆网络模型、所述全连接层网络模型，确定所述视频目标的预测位置坐标。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种视频目标实时跟踪方法及系统，该方法包括：获取视频训练集和视频测试集；对视频训练集和视频测试集进行预处理；建立视频目标跟踪网络模型；视频目标跟踪网络模型包括依次连接的孪生卷积网络模型、单层卷积网络模型、双向长短时记忆网络模型、全连接层网络模型；孪生卷积网络模型中两个卷积模块的参数相同，且孪生卷积网络模型中的两个输出拼接成一个输出；单层卷积网络模型为不补零的单层卷积网络模型；全连接层网络模型的输出为视频目标在第二帧视频图像中的预测位置坐标；确定视频目标跟踪网络模型的损失函数；对视频目标跟踪网络模型中的网络参数进行初始化；将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定视频目标的预测位置坐标；获取视频目标的实际位置坐标；根据视频目标的预测位置坐标、视频目标的实际位置坐标以及损失函数，调整视频目标跟踪网络模型中的网络参数，得到训练好的网络参数；根据训练好的网络参数以及视频目标跟踪网络模型，对预处理后的视频测试集中的视频目标进行实时跟踪。因此，本发明通过采用基于孪生卷积网络、单层卷积网络、双向长短时记忆网络、全连接层网络而建立视频目标跟踪网络模型，实时有效的跟踪了视频目标的移动，提高视频目标跟踪的精准度，并且放宽跟踪目标的类别，扩大应用范围与应用场景。

另外，孪生卷积网络模型中的参数相同(权值共享)，减少了视频目标跟踪网络模型中的参数运算，加快运行速率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例视频目标实时跟踪方法的流程示意图；

图2为本发明视频目标跟踪网络模型的网络结构图；

图3为本发明实施例视频目标实时跟踪系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例视频目标实时跟踪方法的流程示意图，如图1所示，本发明实施例提供的视频目标实时跟踪方法具体包括以下几个步骤：

步骤101：获取视频训练集和视频测试集。

步骤102：对所述视频训练集和所述视频测试集进行预处理。

步骤103：建立视频目标跟踪网络模型；如图2所示，所述视频目标跟踪网络模型包括依次连接的孪生卷积网络模型、单层卷积网络模型、双向长短时记忆网络模型、全连接层网络模型；所述孪生卷积网络模型中两个卷积模块的参数相同，且所述孪生卷积网络模型中的两个输出拼接成一个输出；所述单层卷积网络模型为不补零的单层卷积网络模型；所述全连接层网络模型的输出为视频目标在第二帧视频图像中的预测位置坐标。

步骤104：确定所述视频目标跟踪网络模型的损失函数。

步骤105：对所述视频目标跟踪网络模型中的网络参数进行初始化。

步骤106：将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标；所述图片对为所述视频训练集或者所述视频测试集中每相邻的两帧视频图像组成的图片对。

步骤107：获取所述视频目标的实际位置坐标。

步骤108：根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数。

步骤109：根据所述训练好的网络参数以及所述视频目标跟踪网络模型，对预处理后的视频测试集中的视频目标进行实时跟踪。

所述步骤102具体包括：

将所述视频训练集和所述视频测试集中的视频序列中的所有视频帧中每相邻的两帧视频图像组成图片对。

步骤106具体包括：

采用孪生卷积网络模型，对视频训练集中的所述图片对依次进行卷积提取，得到两个子图；所述子图为视频目标特征。

将两个所述子图进行拼接，得到一个特征子图块。

采用单层卷积网络模型，对所述特征子图快进行卷积层、降维以及提出，得到处理后的特征子图块。

步骤108具体包括：

所述双向长短时记忆网络模型包括两个序列，分别为前向序列和后向序列，且每一个所述时序设有一个输出；当前时序具有记忆和遗忘之前时序的部分信息的特点；所述前向序列和所述后向序列的迭代次数相同，且所述迭代的次数由所述特征子图块的尺寸决定，优选的迭代次数为16次；每次迭代设有512个时序。

所述全连接层网络模型所述全连接层网络模型为两个；所述全连接层网络模型用于比较视频目标特征和搜索区域特征，输出视频目标的预测位置坐标；所述全连接层网络模型设有四个输出；每一个所述输出用于输出一个位置坐标；四个所述位置坐标坐标为所述视频目标在所述矩形区域的左上角坐标和右下角坐标。

所述视频目标跟踪网络模型的损失函数为：

f＝f₁(x)+f₂(y)+f₃(z)+g(l)；

其中，f₁(x)＝l2_loss(x)*wd是所述孪生卷积网络模型中每个单层卷积网络的卷积层中权重x衰减的总损失的特征表达；f₂(y)＝l2_loss(y)*wd是所述全连接层网络模型中的权重y衰减总损失的特征表达，f₃(z)＝l2_loss(z)*wd是所述双向长短时记忆网络模型中各个门的权重z衰减的总损失的特征表达；l2_-loss(z)＝sum(t**2)/2，sum表示求和；表示预测位置坐标y_i与实际位置坐标y_i'之间差异损失的特征表达，f为各损失之和的特征表达。

所述网络参数具体包括：学习率、最大训练代数、每批输入到所述视频目标跟踪网络模型的个数，优选的每批输入到所述视频目标跟踪网络模型的个数为一个图片对、视频图像宽度，视频图像高度，双向长短时记忆网络模型维度，双向长短时记忆网络模型的处理后的特征子图块数量，双向长短时记忆网络模型的迭代次数，子图维度结构，视频训练集的路径，视频测试集的路径，权重衰减参数。

本发明实施例还提供了一种基于孪生卷积网络和双向长短时记忆网络的视频目标跟踪的计算机执行方法，包括以下步骤：

步骤1：将准备好的视频训练集和视频测试集的文件放在工程目录下。

步骤1.1：在预处理代码中初始化数据集(数据集包括视频训练集和视频测试集)的文件路径和输出文件路径，分别执行预处理程序来预处理这两个数据集，得到处理后的文件。

预处理的方法是：将视频训练集和视频测试集中的视频序列中的所有视频帧中每相邻的两帧图片组成图片对，然后对每对图片进行裁剪。裁剪方式包括：确定图片对中第一个图片(第一帧)中视频目标的所在矩形框位置，以视频目标为中心，在第一个图片上裁剪出该矩形框三倍大小的矩形区域作为图片对的新的第一个图片，图片对中的第二个图片(第二帧)也按照第一个图片的裁剪矩形区域进行裁剪，得到的裁剪图片是图片对中新的第二个图片。根据以上预处理方法作成预处理代码。在预处理代码中输入视频训练集和视频测试集的文件路径和输出文件路径，分别执行预处理代码来预处理视频训练集和视频测试集，得到处理后的文件；

步骤2：初始化网络结构中的网络参数，所述网络参数包括学习率learning_rate，最大训练代数(训练次数)num_train_examples，视频训练集(图片对)分为多批，每次输入一批，每批训练样本个数记为batch_size，视频帧宽度width，视频帧高度height，双向LSTM(Long ShortTerm Memory，长短时记忆，以下简称LSTM)的维度num_input_LSTM，双向LSTM的特征子图数量num_hidden_LSTM，双向LSTM的迭代次数num_timesteps，卷积后得到的子图维度结构num_CNN_features，视频训练集的路径train_txt，视频测试集的路径test_txt，权重衰减参数wd。

优选的，学习率learning_rate＝0.00001，视频训练集(图片对)分批输入，每批训练样本个数记为batch_size＝1，最大训练代数num_train_examples＝440000，视频帧宽度width＝227，视频帧高度height＝227，双向LSTM的维度num_input_LSTM＝512，双向LSTM的特征子图数量num_hidden_LSTM＝512，双向LSTM的迭代次数num_timesteps＝16，卷积后的到的子图维度结构num_CNN_features＝4*4*512*1，视频训练集的路径train_txt＝”train_set.txt”，视频测试集的路径test_txt＝”test_set.txt”，权重衰减参数wd＝0.0005。

步骤2.1：由依次连接的孪生卷积网络、单层卷积网络和双向LSTM、全连接层组成的视频目标跟踪网络模型将下式作为损失函数，用来计算整个视频目标跟踪网络模型的总损失值。

公式为：f＝f₁(x)+f₂(y)+f₃(z)+g(l)；

其中，f₁(x)＝l2-loss(x)*wd是孪生卷积网络中每个单层卷积网络的卷积层中权重x衰减的总损失的特征表达；f₂(y)＝l2-loss(y)*wd是全连接层中的权重y衰减总损失的特征表达，f₃(z)＝l2_loss(z)*wd是双向LSTM中各个门的权重z衰减的总损失的特征表达；l2_-loss(z)＝sum(t**2)/2，sum表示求和。

即L1Loss方法，表示预测坐标y_i与真实坐标y_i'之间差异损失的特征表达，f为各损失之和的特征表达。

步骤3：在步骤1预处理操作和步骤2初始化操作完成后，开始执行训练操作。将预处理好的视频训练集中图片对(两帧图片)依次输入到孪生卷积网络中，每次输入一个图片对；孪生卷积网络中两个卷积模块的参数是相同的(权值共享)。

步骤4：将孪生卷积网络的两个输出进行拼接变为一个，并输入到一个不补零的单层卷积网络中。

步骤5：将单层卷积网络的输出输入到双向LSTM中。双向LSTM中有前向序列和后向序列，两个序列均迭代16次(特征子图块的尺寸大小)，每次迭代都有512个时序，每一个时序都有一个输出，当前时序具有记忆和遗忘之前时序的部分信息的特点，当前时序的输出会复制一份传给下一刻时序，下一刻时序会对当前时序的输出作部分记忆并保留到输出中。

步骤5.1:将双向LSTM中后向时序最终输出结果的第一维度进行反向翻转reverse，然后再与前向时序最终输出结果进行拼接，从而得到双向LSTM的最终输出。

步骤6：将双向LSTM的输出输入到一个全连接层中；该全连接层可当成一个回归算法，用于比较目标特征和搜索区域特征，输出目标新的位置。由于全连接层中只有4个神经元，所以全连接层最后将会有四个输出，四个输出是指视频目标在第二帧中出现的预测位置坐标，坐标为包含视频目标的矩形区域的左上角和右下角坐标。

步骤6.1：在以上训练过程中，本发明中的视频目标跟踪网络模型的保存函数会将训练好的网络参数保存在工程目录下，以便可以利用训练好的网络参数来做目标跟踪的测试。

步骤7：最后总结整个网络训练过程如下：以上将视频帧进行预处理，再分批输入整个视频目标跟踪网络模型，将最后得到的预测坐标与实际坐标值计算损失，以梯度下降法来减小总损失，从而来训练网络参数，最后得到训练好的网络参数。在测试时，实际的视频可以按帧的形式，将前后两帧组成图片对，再经过预处理之后，输入到视频目标跟踪网络模型中，使用已经训练好的网络参数，来跟踪视频中的目标。测试结束后，采用预先存储的测试代码进行测试，输出该测试过程的平均帧率，以用来衡量跟踪速度。在测试过程最后，采用预先存储的精度计算的脚本用来计算测试结果的精度。

为实现上述目的，本发明还提供了一种视频目标实时跟踪系统。

图3为本发明实施例视频目标实时跟踪系统的结构示意图，如图3所示，本发明实施例提供的所述视频目标实时跟踪系统包括：

获取模块301，用于获取视频训练集和视频测试集。

预处理模块302，用于对所述视频训练集和所述视频测试集进行预处理。

视频目标跟踪网络模型建立模块303，用于建立视频目标跟踪网络模型。所述视频目标跟踪网络模型包括依次连接的孪生卷积网络模型、单层卷积网络模型、双向长短时记忆网络模型、全连接层网络模型；所述孪生卷积网络模型中两个卷积模块的参数相同，且所述孪生卷积网络模型中的两个输出拼接成一个输出；所述单层卷积网络模型为不补零的单层卷积网络模型；所述全连接层网络模型的输出为视频目标在第二帧视频图像中的预测位置坐标。

损失函数确定模块304，用于确定所述视频目标跟踪网络模型的损失函数。

网络参数初始化模块305，用于对所述视频目标跟踪网络模型中的网络参数进行初始化。

预测位置坐标确定模块306，用于将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标；所述图片对为所述视频训练集或者所述视频测试集中每相邻的两帧视频图像组成的图片对。

实际位置坐标获取模块307，用于获取所述视频目标的实际位置坐标。

训练好的网络参数得到模块308，用于根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数。

实时跟踪模块309，用于根据所述训练好的网络参数以及所述视频目标跟踪网络模型，对预处理后的视频测试集中的视频目标进行实时跟踪。

所述预处理模块302，具体包括：

图片对组成单元，用于将所述视频训练集和所述视频测试集中的视频序列中的所有视频帧中每相邻的两帧视频图像组成图片对。

裁剪单元，用于对每对所述图片对进行裁剪；裁剪方式包括：确定所述图片对中第一帧图像中所述视频目标的所在矩形框位置；以所述视频目标为中心，在所述第一帧图像上裁剪出所述矩形框三倍大小的矩形区域作为所述图片对的新的第一帧图像；所述图片对中的第二帧图像按照所述裁剪方式进行裁剪，得到的裁剪图片为所述图片对中新的第二帧图像。

所述预测位置坐标确定模块306，具体包括：

子图得到单元，用于采用孪生卷积网络模型，对视频训练集中的所述图片对依次进行卷积提取，得到两个子图；所述子图为视频目标特征。

特征子图块得到单元，用于将两个所述子图进行拼接，得到一个特征子图块。

处理后的特征子图块得到单元，用于采用单层卷积网络模型，对所述特征子图快进行卷积层、降维以及提出，得到处理后的特征子图块。

所述训练好的网络参数得到308，具体包括：

训练好的网络参数得到单元，用于采用梯度下降法，根据所述预测位置坐标与所述实际位置坐标，对所述损失函数进行迭代，调整网络参数，确定最小损失值，并将最小损失值所对应的网络参数确定为训练好的网络参数。

本发明公开了一种基于孪生卷积网络和双向长短时记忆网络的视频目标实时跟踪方法及系统，主要解决传统视频目标跟踪方法跟踪精度不高，容易丢失跟踪目标的缺点。本发明先采用孪生卷积网络对视频中的两帧进行卷积从而实现视频目标特征提取，然后再将得到的两个子图(视频目标特征)进行拼接得到一个特征子图块，再用一个卷积层对该特征子图块进行卷积以提取深层特征和降维，再将得到的深度特征子图块输入双向长短时记忆网络中，在时序中可以有选择的记忆部分特征来增强预测能力。最后，将双向长短时记忆网络得到的结果输入全连接层网络中，得到对视频目标的预测坐标。其中，在孪生卷积网络中采用参数相同(权值共享)的方式以减少网络中的参数以加快运行速率。

因此，与现有技术相比，本发明具有如下优点：

经过了实践测试之后，本发明提供的方法或者系统，能够实时有效的对视频中的目标进行跟踪，提高了视频目标跟踪的精准度，降低了丢失跟踪目标的概率，且泛化性能很好，对不在标准视频库中的视频目标也有着相当可靠的跟踪能力，扩大应用范围与应用场景。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频目标实时跟踪方法，其特征在于，所述视频目标实时跟踪方法包括：

获取视频训练集和视频测试集；

对所述视频训练集和所述视频测试集进行预处理；

确定所述视频目标跟踪网络模型的损失函数；

对所述视频目标跟踪网络模型中的网络参数进行初始化；

获取所述视频目标的实际位置坐标；

2.根据权利要求1所述的视频目标实时跟踪方法，其特征在于，所述对所述视频训练集和所述视频测试集进行预处理，具体包括：

3.根据权利要求1所述的视频目标实时跟踪方法，其特征在于，所述将预处理后的视频训练集中的图片对依次输出到初始化后的视频目标跟踪网络模型中，确定所述视频目标的预测位置坐标，具体包括：

将两个所述子图进行拼接，得到一个特征子图块；

4.根据权利要求3所述的视频目标实时跟踪方法，其特征在于，所述双向长短时记忆网络模型包括两个序列，分别为前向序列和后向序列，且每一个所述时序设有一个输出；所述时序具有记忆和遗忘之前所述时序的部分信息的特点；所述前向序列和所述后向序列的迭代次数相同，且所述迭代的次数由所述特征子图块的尺寸决定；每次迭代设有512个时序。

5.根据权利要求2所述的视频目标实时跟踪方法，其特征在于，所述全连接层网络模型为两个；所述全连接层网络模型用于比较视频目标特征和搜索区域特征，输出视频目标的预测位置坐标；所述全连接层网络模型设有四个输出，且每个所述输出用于输出一个位置坐标，四个所述位置坐标为所述视频目标在所述矩形区域的左上角坐标和右下角坐标。

6.根据权利要求1所述的视频目标实时跟踪方法，其特征在于，所述视频目标跟踪网络模型的损失函数为：f＝f₁(x)+f₂(y)+f₃(z)+g(l)；

其中，f₁(x)＝l2-loss(x)*wd是所述孪生卷积网络模型中每个单层卷积网络的卷积层中权重x衰减的总损失的特征表达；f₂(y)＝l2-loss(y)*wd是所述全连接层网络模型中的权重y衰减总损失的特征表达，f₃(z)＝l2-loss(z)*wd是所述双向长短时记忆网络模型中各个门的权重z衰减的总损失的特征表达；l2_loss(z)＝sum(t**2)/2，sum表示求和；表示预测位置坐标y_i与实际位置坐标y_i'之间差异损失的特征表达，f为各损失之和的特征表达。

7.根据权利要求3所述的视频目标实时跟踪方法，其特征在于，所述网络参数具体包括：学习率、最大训练代数、每批输入到所述视频目标跟踪网络模型的个数、视频图像宽度，视频图像高度，双向长短时记忆网络模型维度，双向长短时记忆网络模型的处理后的特征子图块数量，双向长短时记忆网络模型的迭代次数，子图维度结构，视频训练集的路径，视频测试集的路径，权重衰减参数。

8.根据权利要求1所述的视频目标实时跟踪方法，其特征在于，所述根据所述视频目标的预测位置坐标、所述视频目标的实际位置坐标以及所述损失函数，调整所述视频目标跟踪网络模型中的网络参数，得到训练好的网络参数具体包括：

9.一种视频目标实时跟踪系统，其特征在于，所述视频目标实时跟踪系统包括：

获取模块，用于获取视频训练集和视频测试集；

10.根据权利要求9所述的视频目标实时跟踪系统，其特征在于，所述预测位置坐标确定模块，具体包括：