CN115953430B

CN115953430B - 基于改进的批量样本损失函数的视频单目标跟踪方法及系统

Info

Publication number: CN115953430B
Application number: CN202211648811.3A
Authority: CN
Inventors: 冯平; 刘敏; 蒋合领; 向丽; 张丰
Original assignee: Guizhou University of Finance and Economics
Current assignee: Guizhou University of Finance and Economics
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-07-25
Anticipated expiration: 2042-12-21
Also published as: CN115953430A

Abstract

本发明公开了一种基于改进的批量样本损失函数的视频单目标跟踪方法及系统，该方法包括：选取多个样本求解面积重叠比率，并与阈值比较，确定前景类、背景类样本求解惩罚因子；构造深度神经网络，并利用惩罚因子对批量样本训练时使用的损失函数进行改进；再对深度神经网络进行训练，将训练好的模型用于新的视频目标跟踪，得到最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率；判断其是否大于0.5，大于则采集前景类、背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数整除10，则更新分类器模型，接着判断当前帧是否为最后一帧，以结束跟踪。该方法保证了分类器具有较好的分类能力，提高视频目标跟踪的准确性。

Description

基于改进的批量样本损失函数的视频单目标跟踪方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于改进的批量样本损失函数的视频单目标跟踪方法及系统。

背景技术

复杂场景下通常会出现光照强度的变化、目标尺度的变化、目标运动模糊、目标被其它物体遮挡、目标姿态变化等现象，在初始帧中标定单个需要跟踪的物体位置和大小，并在后续帧中预测目标出现的位置和大小就是视频单目标跟踪问题，现有解决的方案有两类，一类是采用生成式模型，通过构造目标的特征模板，计算候选图像块与特征模板的相似度，将匹配度最高的图像块作为跟踪结果；另一类是采用判别式模型，通过采集前景类和背景类样本特征训练二分类器，利用分类器测试候选图像块特征，将属于前景类最高的一些图像块作为跟踪结果。但上述现有技术的训练分类器的样本是用二值化的标签标定的，没有考虑样本本身的差异，即对于那些与目标图像块面积重叠比率更高的样本图像块，训练的分类器应该能尽量输出更大的概率值表明它们属于前景类的可能性更高，进而造成视频目标跟踪的准确性低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于改进的批量样本损失函数的视频单目标跟踪方法。

为此，本发明的第二个目的在于提出一种基于改进的批量样本损失函数的视频单目标跟踪系统。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四目的在于提出一种非临时性计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出了基于改进的批量样本损失函数的视频单目标跟踪方法，包括以下步骤：步骤S1，选取已标注的视频数据集中的大量初始样本，并求解所述大量初始样本与标定目标图像块的面积重叠比率；步骤S2，将所有面积重叠率依次与预设阈值比较，若大于所述预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本；步骤S3，对所述前景类样本的面积重叠比率值进行处理，得到惩罚因子；步骤S4，构造用于视频目标跟踪中前景和背景分类的深度神经网络；步骤S5，利用所述惩罚因子对批量样本训练时使用的损失函数进行改进；步骤S6，利用改进后的损失函数、所述前景类样本和所述背景类样本对所述用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练；步骤S7，将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型；步骤S8，将所述最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率；步骤S9，判断所述成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数是否整除10则更新分类器模型，反之则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则继续执行所述步骤S8。

本发明实施例的基于改进的批量样本损失函数的视频单目标跟踪方法，采用一种改进的在线判别式目标跟踪算法解决复杂场景下视频单目标跟踪过程中的分类器模型优化问题，其中，通过对分类器的设计和训练进行优化改进，保证了分类器具有较好的分类能力，同时还能够更准确的反映图像块属于前景类的概率，从而有利于提高视频目标跟踪的准确性。

另外，根据本发明上述实施例的基于改进的批量样本损失函数的视频单目标跟踪方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1具体包括：步骤S101，在已标注的视频数据集中随机选取多个帧从中采集大量初始样本；步骤S102，在所述多个帧中截取不同位置不同大小的图像块；步骤S103，计算多个图像块与标定目标图像块的面积重叠比率。

进一步地，在本发明的一个实施例中，所述步骤S3具体包括：步骤S301，通过所述前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；步骤S302，使用logistic函数对区间映射值进行逻辑映射，得到逻辑映射值；步骤S303，在所述逻辑映射值上加上一个预设常数项，将结果作为所述惩罚因子。

进一步地，在本发明的一个实施例中，所述改进后的损失函数为：

其中，Np和N-Np分别为正负类样本的数量，l为二分类损失函数，C_i＝sigmoid(12*IOU_i-7)+0.2为惩罚因子。

为达到上述目的，本发明第二方面实施例提出了基于改进的批量样本损失函数的视频单目标跟踪系统，包括：选取样本模块，用于选取已标注的视频数据集中的大量初始样本，并求解所述大量初始样本与标定目标图像块的面积重叠比率；确定前后景模块，用于将所有面积重叠率依次与预设阈值比较，若大于所述预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本；求解惩罚因子模块，用于对所述前景类样本的面积重叠比率值进行处理，得到惩罚因子；构造模块，用于构造用于视频目标跟踪中前景和背景分类的深度神经网络；改进模块，用于利用所述惩罚因子对批量样本训练时使用的损失函数进行改进；优化训练模块，用于利用改进后的损失函数、所述前景类样本和所述背景类样本对所述用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练；更新分类器网络模型模块，用于将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型；求解概率模块，用于将所述最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率；跟踪模块，用于判断所述成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数是否整除10更新分类器模型，反之则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则跳转回所述求解概率模块。

本发明实施例的基于改进的批量样本损失函数的视频单目标跟踪系统，采用一种改进的在线判别式目标跟踪算法解决复杂场景下视频单目标跟踪过程中的分类器模型优化问题，其中，通过对分类器的设计和训练进行优化改进，保证了分类器具有较好的分类能力，同时还能够更准确的反映图像块属于前景类的概率，从而有利于提高视频目标跟踪的准确性。

另外，根据本发明上述实施例的基于改进的批量样本损失函数的视频单目标跟踪系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述选取样本模块具体包括：选取单元，用于在已标注的视频数据集中随机选取多个帧从中采集大量初始样本；截取单元，用于在所述多个帧中截取不同位置不同大小的图像块；计算单元，用于计算多个图像块与标定目标图像块的面积重叠比率。

进一步地，在本发明的一个实施例中，所述求解惩罚因子模块具体包括：区间映射单元，用于通过所述前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；逻辑映射单元，用于使用logistic函数对区间映射值进行逻辑映射，得到逻辑映射值；构建惩罚因子单元，用于在所述逻辑映射值上加上一个预设常数项作为所述惩罚因子。

本发明第三方面实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所述的基于改进的批量样本损失函数的视频单目标跟踪方法。

本发明第四方面实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述的基于改进的批量样本损失函数的视频单目标跟踪方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于改进的批量样本损失函数的视频单目标跟踪方法的流程图；

图2是本发明一个实施例的基于改进的批量样本损失函数的视频单目标跟踪方法的执行示意图；

图3是本发明一个实施例的基于改进的批量样本损失函数的视频单目标跟踪系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于改进的批量样本损失函数的视频单目标跟踪方法的流程图。

图1是本发明一个实施例的基于改进的批量样本损失函数的视频单目标跟踪方法的流程图。

如图1和2所示，该基于改进的批量样本损失函数的视频单目标跟踪方法包括以下步骤：

在步骤S1中，选取已标注的视频数据集中的大量初始样本，并求解大量初始样本与标定目标图像块的面积重叠比率。

进一步地，在本发明的一个实施例中，步骤S1具体包括：

步骤S101，在已标注的视频数据集中随机选取多个帧从中采集大量初始样本；

步骤S102，在多个帧中截取不同位置不同大小的图像块；

步骤S103，计算多个图像块与标定目标图像块的面积重叠比率。

具体地，对已标注的视频数据集的每一个视频从中随机的选取一些帧，然后在选中的帧当中截取一些位置和大小不同的图像块，并计算这些图像块与标定目标图像块的面积重叠比率分子表示两个图像块重叠部分的面积，分母表示两个图像块做并集运算的总面积(重叠部分只计算一次)。

在步骤S2中，将所有面积重叠率依次与预设阈值比较，若大于预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本。

具体地，将所有样本的面积重叠比率值与阈值(如0.7)比较大小，将大于阈值的样本标记为前景类样本(即将它们的标签值设置为1)，反之则将其标记为背景类样本(即将它们的标签值设置为0)。

在步骤S3中，对前景类样本的面积重叠比率值进行处理，得到惩罚因子。

进一步地，在本发明的一个实施例中，步骤S3具体包括：

步骤S301，通过前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；

步骤S302，使用logistic函数对区间映射值进行逻辑映射，得到逻辑映射值；

步骤S303，在逻辑映射值上加上一个预设常数项，将结果作为惩罚因子。

具体地，通过前景类样本的面积重叠比率值先进行区间映射，得到12*IOU_i-7，IOU表示第i个前景类样本的面积重叠比率值，区间映射的目的是将IOU的值映射到[1.4,5]的区间，公式中的参数是根据经验结合实验测试得到的；

使用logistic函数对区间映射值做进一步的映射sigmoid(12*IOU_i-7)，logistic函数是非线性的，在一定区间范围内，当自变量的值增大时，函数值也迅速增大，在之后则会平缓的增长，并且函数值小于1；

之后在逻辑映射的基础上，对计算的结果值加上一个较小的常数项，计算公式为：C_i＝sigmoid(12*IOU_i-7)+0.2。

在步骤S4中，构造用于视频目标跟踪中前景和背景分类的深度神经网络。

具体地，构造用于视频目标跟踪中前景和背景分类的深度神经网络，其可以对已有的经典卷积神经网络如VGG或者ResNet等进行修改得到，共享全连接层之前的网络层用于提取特征，对于每个视频单独构造全连接层用于特征的分类(每个视频的前景类和背景类是特定的，某个视频中的目标在另外的视频中可能是背景部分)。

在步骤S5中，利用惩罚因子对批量样本训练时使用的损失函数进行改进。

具体地，对于单个样本，深度神经网络中常用的二分类损失函数是BCELoss(Binary CrossEntropyLoss)，计算公式为l＝ylogp+(1-y)log(1-p)，其中y表示样本的标签值，p为分类器预测输入样本标签值为1的概率。假设总的样本数量为N，其中正负类样本的数量分别为N_p和N-N_p，则对应的批量样本损失函数为：本发明使用了步骤S3中计算得到的惩罚因子对该函数进行了改进，则得到改进后的损失函数为：

在步骤S6中，利用改进后的损失函数、前景类样本和背景类样本对用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练。

具体地，利用改进的损失函数，使用采集到的样本数据，以批量的方式对步骤S4构造的深度卷积神经网络模型进行迭代的训练优化。

在步骤S7中，将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型。

具体地，用训练好的模型为新的视频跟踪任务构造新的全连接层，将其与训练好的模型全连接层之前的网路连接在一起，构成专用于当前视频的目标跟踪网络模型；

在视频的第一帧，根据初始帧目标的位置和大小信息采集前景类和背景类样本对新网络模型的全连接层参数使用改进的批量样本损失函数进行训练优化作为最新的分类器网络模型。

步骤S8，将最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率。

具体地，将最新的分类器网络模型用于视频后续的目标跟踪。对于后续的每一帧，根据其上一帧预测得到的目标位置和大小，生成候选的图像块，将这些图像块输入到分类器网络模型中，得到它们属于前景类和背景类的概率。将属于前景类概率最大的5个候选块的位置和大小的均值作为跟踪结果，并计算概率均值，将其记为成功检测概率Psd(成功检测到前景类图像块)。

在步骤S9中，判断成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数是否整除10则更新分类器模型，反之则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则继续执行步骤S8。

具体地，如果成功检测概率值大于0.5，则在当前帧采集前景类和背景类样本，反之则当前帧与初始帧间隔的帧数n_f能够整除10则使用最近100帧内(不足100帧取所有帧)收集的前景类样本和最近30帧内(不足30帧取所有帧)收集的背景类样本更新分类器模型作为最新的分类器网络模型；或者在步骤S8中当预测跟踪结果时计算得到的成功检测概率值小于等于0.5时使用用最近30帧内(不足30帧取所有帧)收集的前景类样本和最近30帧内(不足30帧取所有帧)收集的背景类样本更新分类器模型参数，得到最新的分类器网络模型，反之，则根据条件判断是继续跟踪还是结束跟踪。如果处理完了视频最后一帧(帧数为ne)则结束跟踪过程，否则跳转至步骤S8继续执行跟踪过程直至处理完视频的最后一帧。

也就是说，本发明实施例的具体流程为：在已标注的视频数据集中的每一帧中利用滑动窗口、卡尔曼滤波算法或者粒子滤波算法等方式生成一些位置和大小不同的框，这些框训练分类器时用来从视频帧中截取前景类和背景类样本图像块，在跟踪过程中则是用来截取作为候选目标的图像块；在进行目标跟踪之前，采集一些视频数据，对视频的每一帧给出目标位置和大小的标注信息，前景类和背景类样本的采集则是根据图像块与给定的目标图像块的面积重叠比率值来划分，当该值大于一定的阈值时则作为前景类样本，否则作为背景类样本。对于两类样本分别打上二值化的标签1和0，利用它们训练一个分类器，常见的分类算法包括：支撑向量机SVM算法、决策树算法、朴素贝叶斯算法、Adaboost算法以及基于深度神经网络的算法等；分类器训练好后用于新的视频目标跟踪，对新的视频帧候选图像块提取特征，用分类器预测它们的类别，分类器给出每个图像块属于前景类和背景类的概率值，并且在目标跟踪过程中在线的采集样本更新分类器，直至完成跟踪。

综上，根据本发明实施例提出的基于改进的批量样本损失函数的视频单目标跟踪方法，充分利用了样本的IOU值信息，以及使用了改进的批量样本损失函数，因为对于前景类样本而言，IOU值越大则属于前景类的概率也应该越大，而利用IOU值计算得到的惩罚因子也越大；将惩罚因子作为批量样本中前景类样本损失的惩罚系数，使得IOU值大的前景类样本的损失值会乘以更大的惩罚系数，而训练的过程会通过反向传播以梯度下降的方式更新分类器网络模型的参数，减小批量样本的损失值，训练后最终会使得样本属于前景类的概率会进一步增大；样本IOU值的大小其实间接地反映图像块与目标图像块的特征相似度，IOU值越大相似度越高；从而能够更准确的预测候选图像块属于前景类的概率，从而能够提高目标跟踪的精度。另外，现有的技术没有利用IOU值信息以及直接使用二分类交叉熵损失函数BCELoss，因此现有预测的图像块属于前景类概率值的大小和图像块与目标图像块的相似度之间没有必然的关联关系，即属于前景类概率值大的图像块不一定与目标图像块相似度更匹配，故本发明施例比现有技术相比目标跟踪精度更高。

其次参照附图描述根据本发明实施例提出的基于改进的批量样本损失函数的视频单目标跟踪系统。

如图3所示，该系统10包括：选取样本模块100、确定前后景模块200、求解惩罚因子模块300、构造模块400、改进模块500、优化训练模块600、更新分类器网络模型模块700、求解概率模块800和跟踪模块900。

其中，选取样本模块100用于选取已标注的视频数据集中的大量初始样本，并求解大量初始样本与标定目标图像块的面积重叠比率。确定前后景模块200用于将所有面积重叠率依次与预设阈值比较，若大于预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本。求解惩罚因子模块300用于对前景类样本的面积重叠比率值进行处理，得到惩罚因子。构造模块400用于构造用于视频目标跟踪中前景和背景分类的深度神经网络。改进模块500用于利用惩罚因子对批量样本训练时使用的损失函数进行改进。优化训练模块600用于利用改进后的损失函数、前景类样本和背景类样本对用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练。更新分类器网络模型模块700用于将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型。求解概率模块800于将最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率。跟踪模块900用于判断成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数是否整除10则更新分类器模型，反之则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则跳转回求解概率模块。

进一步地，在本发明的一个实施例中，选取样本模块100具体包括：选取单元，用于在已标注的视频数据集中随机选取多个帧从中采集大量初始样本；截取单元，用于在多个帧中截取不同位置不同大小的图像块；计算单元，用于计算多个图像块与标定目标图像块的面积重叠比率。

进一步地，在本发明的一个实施例中，求解惩罚因子模块300具体包括：区间映射单元，用于通过前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；逻辑映射单元，用于使用logistic函数对区间映射值进行逻辑映射，得到逻辑映射值；构建惩罚因子单元，用于在逻辑映射值上加上一个预设常数项作为惩罚因子。

进一步地，在本发明的一个实施例中，改进后的损失函数为：

根据本发明实施例提出的基于改进的批量样本损失函数的视频单目标跟踪系统，充分利用了样本的IOU值信息，以及使用了改进的批量样本损失函数，因为对于前景类样本而言，IOU值越大则属于前景类的概率也应该越大，而利用IOU值计算得到的惩罚因子也越大；将惩罚因子作为批量样本中前景类样本损失的惩罚系数，使得IOU值大的前景类样本的损失值会乘以更大的惩罚系数，而训练的过程会通过反向传播以梯度下降的方式更新分类器网络模型的参数，减小批量样本的损失值，训练后最终会使得样本属于前景类的概率会进一步增大；样本IOU值的大小其实间接地反映图像块与目标图像块的特征相似度，IOU值越大相似度越高；从而能够更准确的预测候选图像块属于前景类的概率，从而能够提高目标跟踪的精度。另外，现有的技术没有利用IOU值信息以及直接使用二分类交叉熵损失函数BCELoss，因此现有预测的图像块属于前景类概率值的大小和图像块与目标图像块的相似度之间没有必然的关联关系，即属于前景类概率值大的图像块不一定与目标图像块相似度更匹配，故本发明施例比现有技术相比目标跟踪精度更高。

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述实施例所述的基于改进的批量样本损失函数的视频单目标跟踪方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施例所述的基于改进的批量样本损失函数的视频单目标跟踪方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于改进的批量样本损失函数的视频单目标跟踪方法，其特征在于，包括以下步骤：

步骤S1，选取已标注的视频数据集中的多个初始样本，并求解所述多个初始样本与标定目标图像块的面积重叠比率；

步骤S2，将所有面积重叠率依次与预设阈值比较，若大于所述预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本；

步骤S3，对所述前景类样本的面积重叠比率值进行处理，得到惩罚因子，具体包括：

步骤S301，通过所述前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；

步骤S301，在所述逻辑映射值上加上一个预设常数项，将结果作为所述惩罚因子；

步骤S4，构造用于视频目标跟踪中前景和背景分类的深度神经网络；

步骤S5，利用所述惩罚因子对批量样本训练时使用的损失函数进行改进；

步骤S6，利用改进后的损失函数、所述前景类样本和所述背景类样本对所述用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练；

步骤S7，将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型；

步骤S8，将所述最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率；

步骤S9，判断所述成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，若其小于等于0.5或者当前帧与初始帧的间隔帧数整除10则更新分类器模型，若不能整除10则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则继续执行所述步骤S8。

2.根据权利要求1所述的基于改进的批量样本损失函数的视频单目标跟踪方法，其特征在于，所述步骤S1具体包括：

步骤S101，在已标注的视频数据集中随机选取多个帧从中采集多个初始样本；

步骤S102，在所述多个帧中截取不同位置不同大小的图像块；

3.根据权利要求1所述的基于改进的批量样本损失函数的视频单目标跟踪方法，其特征在于，所述改进后的损失函数为：

4.一种基于改进的批量样本损失函数的视频单目标跟踪系统，其特征在于，包括：

选取样本模块，用于选取已标注的视频数据集中的多个初始样本，并求解所述多个初始样本与标定目标图像块的面积重叠比率；

确定前后景模块，用于将所有面积重叠率依次与预设阈值比较，若大于所述预设阈值则当前初始样本标记为前景类样本，反之则为背景类样本；

求解惩罚因子模块，用于对所述前景类样本的面积重叠比率值进行处理，得到惩罚因子，具体包括：

区间映射单元，用于通过所述前景类样本的面积重叠比率值先进行区间映射，得到区间映射值；

逻辑映射单元，用于使用logistic函数对区间映射值进行逻辑映射，得到逻辑映射值；

构建惩罚因子单元，用于在所述逻辑映射值上加上一个预设常数项作为所述惩罚因子；

构造模块，用于构造用于视频目标跟踪中前景和背景分类的深度神经网络；

改进模块，用于利用所述惩罚因子对批量样本训练时使用的损失函数进行改进；

优化训练模块，用于利用改进后的损失函数、所述前景类样本和所述背景类样本对所述用于视频目标跟踪中前景和背景分类的深度神经网络进行优化训练；

更新分类器网络模型模块，用于将训练好的模型的全连接层用一个新的全连接层替换并用于新的视频目标跟踪，在新的视频初始帧采集前景类样本和背景类样本训练新的全连接层参数，得到最新的分类器网络模型；

求解概率模块，用于将所述最新的分类器网络模型用于视频后续的目标跟踪，并求解成功检测概率；

跟踪模块，用于判断所述成功检测概率是否大于0.5，若是则当前帧采集前景类样本和背景类样本，反之若其小于等于0.5或者当前帧与初始帧的间隔帧数是否整除10则更新分类器模型，反之则判断当前帧是否为视频最后一帧，若是则结束跟踪，反之则跳转回所述求解概率模块。

5.根据权利要求4所述的基于改进的批量样本损失函数的视频单目标跟踪系统，其特征在于，所述选取样本模块具体包括：

选取单元，用于在已标注的视频数据集中随机选取多个帧从中采集大量初始样本；

截取单元，用于在所述多个帧中截取不同位置不同大小的图像块；

计算单元，用于计算多个图像块与标定目标图像块的面积重叠比率。

6.根据权利要求4所述的基于改进的批量样本损失函数的视频单目标跟踪系统，其特征在于，所述改进后的损失函数为：

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-3中任一所述的基于改进的批量样本损失函数的视频单目标跟踪方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一所述的基于改进的批量样本损失函数的视频单目标跟踪方法。