CN107679455A

CN107679455A - 目标跟踪装置、方法及计算机可读存储介质

Info

Publication number: CN107679455A
Application number: CN201710754313.XA
Authority: CN
Inventors: 周舒意; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2018-02-09
Also published as: WO2019041519A1

Abstract

本发明公开了一种基于卷积神经网络的目标跟踪装置，包括存储器和处理器，存储器上存储有可在处理器上运行的目标跟踪程序，该程序被处理器执行时实现步骤：按照采样点分布从视频帧图像上采集图片样本，并记录图片样本的位置坐标；基于CNN模型从图片样本中提取样本特征，并根据样本特征计算图片样本与跟踪目标的置信度；根据置信度调整图片样本的权重，根据位置坐标和权重计算跟踪目标的位置坐标；根据位置坐标从视频帧图像采集正样本和负样本以训练样本集训练CNN模型，进而更新CNN模型的模型参数；重复上述步骤，直至完成视频的跟踪。本发明还提出一种基于卷积神经网络的目标跟踪方法以及一种计算机可读存储介质。本发明提高了目标跟踪的准确度。

Description

目标跟踪装置、方法及计算机可读存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于卷积神经网络的目标跟踪装置、方法及计算机可读存储介质。

背景技术

计算机目标跟踪是视频监控等实际应用中的重要组成部分，目标跟踪是指对视频中的运动目标(例如行人、车辆等)的进行准确定位、跟踪，并且推测目标的轨迹。目标跟踪作为计算机视觉领域中的一个重要课题，在视频监控、目标识别、视频信息发现等方面有重要的价值。

随着大量目标跟踪算法的提出，目标跟踪技术得到了快速地发展，但是由于在实际跟踪中，目标跟踪任务存在很多现实困难，例如物体遮挡、视角变化、目标形变、周围光照变化以及难以预料的复杂的背景情况，而现有的目标跟踪算法多是利用目标与背景的差异构建分类模型，把目标从背景中分离出来，对目标进行跟踪，但是这种跟踪算法在跟踪过程中难以适应上述提到的目标及背景的变化，例如目标被部分遮挡，或者相似背景干扰等问题，造成目标的错误跟踪，导致目标跟踪准确度低。

发明内容

本发明提供一种基于卷积神经网络的目标跟踪装置、方法及计算机可读存储介质，其主要目的在于在跟踪过程中对模型进行动态的更新，以适应目标和背景的变化，提高目标跟踪的准确度。

为实现上述目的，本发明提供一种基于卷积神经网络的目标跟踪装置，该装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的目标跟踪程序，所述目标跟踪程序被所述处理器执行时实现如下步骤：

A、按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标；

B、基于卷积神经网络CNN模型从所述多个图片样本中对应地提取多个样本特征，并分别根据提取的样本特征分别计算每一图片样本与跟踪目标之间的置信度；

C、根据计算得出的置信度调整对应图片样本的权重，并根据所有图片样本的位置坐标和调整后的权重计算所述跟踪目标在所述视频帧图像上的位置坐标；

D、根据所述位置坐标从所述视频帧图像上采集所述跟踪目标的正样本和负样本；

E、根据所述正样本和负样本更新所述CNN模型的训练样本集，并使用更新后的训练样本集训练所述CNN模型以更新所述CNN模型的模型参数；

F、重复执行步骤A至E，直至完成对视频的所有视频帧图像中跟踪目标的跟踪。

可选地，所述步骤D包括：

采集位于所述位置坐标的周边区域内的第一预设数量的图片样本作为正样本，其中，所述周边区域为与所述位置坐标之间的距离小于第一预设阈值的点构成的区域；

采集位于所述位置坐标的远离区域内的第二预设数量的图片样本作为负样本，其中，所述远离区域为与所述位置坐标之间的距离大于第二预设阈值的点构成的区域，所述第二预设阈值大于所述第一预设阈值。

可选地，所述处理器还用于执行所述目标跟踪程序，以在步骤E之后，还实现如下步骤：

G、根据调整后的权重调整采样点在视频帧图像上的位置，以更新采样点分布；

所述步骤F包括：

重复执行步骤A至G，直至完成对视频的所有视频帧图像中的跟踪目标的跟踪。

可选地，所述步骤G包括：

在权重大于第一预设权重的样本对应的采样点的第一预设范围内增加采样点，在权重小于第二预设权重的样本对应的采样点的第二预设范围内减少采样点，其中，所述第二预设权重小于所述第一预设权重，增加的采样点的数量等于减少的采样点的数量。

可选地，所述处理器还用于执行所述目标跟踪程序，以实现如下步骤：

判断所述视频帧图像是否为所述视频的第一帧图像；

若所述视频帧图像为所述视频的第一帧图像，则提示用户在所述视频帧图像上手动选择跟踪目标并接收用户基于所述提示选择的跟踪目标，并在确定所述跟踪目标后，初始化采样点分布和所述CNN模型的训练样本集并接收第二帧图像；

若所述视频图像不是所述视频的第一帧图像，则执行所述步骤A。

此外，为实现上述目的，本发明还提供一种基于卷积神经网络的目标跟踪方法，该方法包括：

C、根据计算得出的置信度调整对应图片样本的权重，并根据所有图片样本的位置坐标和权重计算所述跟踪目标在所述视频帧图像上的位置坐标；

可选地，所述步骤D包括：

可选地，在步骤E之后，该方法还包括：

所述步骤F包括：

重复执行步骤A至G，，直至完成对视频的所有视频帧图像中的跟踪目标的跟踪。

可选地，所述步骤G包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有目标跟踪程序，所述目标跟踪程序可被至少一个处理器执行，以实现如上所述的基于卷积神经网络的目标跟踪方法的步骤。

本发明提出的基于卷积神经网络的目标跟踪装置、方法及计算机可读存储介质，对视频中的视频帧图像进行逐帧识别，按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标，基于CNN模型从多个样本图片对应地提取多个样本特征，根据提取的样本特征计算各个图片样本与跟踪目标之间的置信度，根据置信度对应的调整样本的权重，进而根据样本的位置坐标和权重计算跟踪目标在该视频帧图像上的位置坐标，并且根据该位置坐标从视频帧图像上采集跟踪目标的正样本和负样本，使用采集的样本重新训练CNN模型以更新模型参数，使用更新模型参数后的模型继续对下一帧图像跟踪，以此类推，在得到每一帧图像的跟踪结果后，根据跟踪结果对模型进行更新，使得在跟踪目标发生变化时，更新后的模型能够适应目标及背景的变化，即使图像中出现部分遮挡、背景干扰等现象时，也能够成功的进行目标的跟踪，提高目标跟踪的准确度。

附图说明

图1为本发明基于卷积神经网络的目标跟踪装置较佳实施例的示意图；

图2为本发明基于卷积神经网络的目标跟踪装置一实施例中目标跟踪程序的功能模块示意图；

图3为本发明基于卷积神经网络的目标跟踪方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于卷积神经网络的目标跟踪装置。参照图1所示，为本发明基于卷积神经网络的目标跟踪装置较佳实施例的示意图。

在本实施例中，基于卷积神经网络的目标跟踪装置可以是PC(PersonalComputer，个人电脑)，也可以是智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的终端设备。

该基于卷积神经网络的目标跟踪装置包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于卷积神经网络的目标跟踪装置的内部存储单元，例如该基于卷积神经网络的目标跟踪装置的硬盘。存储器11在另一些实施例中也可以是基于卷积神经网络的目标跟踪装置的外部存储设备，例如基于卷积神经网络的目标跟踪装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于卷积神经网络的目标跟踪装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于卷积神经网络的目标跟踪装置的应用软件及各类数据，例如目标跟踪程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行目标跟踪程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及目标跟踪程序的基于卷积神经网络的目标跟踪装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于卷积神经网络的目标跟踪装置中处理的信息以及用于显示可视化的用户界面。

可选地，该装置还可以包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。该装置的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该装置还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，若该装置为移动终端，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

在图1所示的装置实施例中，存储器11中存储有目标跟踪程序；处理器12执行存储器11中存储的目标跟踪程序时实现如下步骤：

A、按照采样点分布从所述视频帧图像上采集多个图片样本。

在本发明实施例中，基于卷积神经网络对海量图片进行离线训练得到一个CNN(Convolutional Neural Network，卷积神经网络)模型，该模型可以是一个二分类模型，利用该模型能够从图像中提取出深层次的语义化的运动目标的特征和目标的背景特征。

在对视频中的运动目标进行跟踪时，逐帧对视频图像进行跟踪。具体地，将要进行目标跟踪的视频输入到该装置，该装置按照下述操作对视频中的每一视频帧图像进行处理。

按照采样点分布从视频帧图像上采集图片样本，其中，采样点的数量可以由用户预先设置，例如采集100个图片样本，其中，在开始对第一帧图像进行识别时，可以由用户手动从图像中选择跟踪目标，例如，通过框选的形式选择跟踪目标，基于用户选择的跟踪目标的位置对采样点分布进行初始化。具体地，可以在接收到视频帧图像时，判断所述视频帧图像是否为所述视频的第一帧图像；若所述视频帧图像为所述视频的第一帧图像，则提示用户在所述视频帧图像上手动选择跟踪目标并接收用户基于所述提示选择的跟踪目标；在确定所述跟踪目标后，初始化采样点分布和所述CNN模型的训练样本集并接收第二帧图像；若所述视频图像不是所述视频的第一帧图像，则执行所述步骤A。或者，在其他的实施例中，用户预先设置好要跟踪的目标并存储，则在开始跟踪后直接获取跟踪目标，不需要用户再手动的从第一帧图像上选取。

在得到用户选择的跟踪目标后，计算跟踪目标区域的色彩直方图并将其作为跟踪目标的目标特征，该目标特征可以表示为一个N*1的向量。

B、基于卷积神经网络CNN模型从所述多个图片样本中对应地提取多个样本特征，并根据提取的样本特征分别计算每一图片样本与跟踪目标之间的置信度。

C、根据计算得出的置信度调整对应图片样本的权重，并根据所有图片样本的位置坐标和调整后的权重计算所述跟踪目标在所述视频帧图像上的位置坐标。

在采集到样本图片后，将采集的样本图片输入到上述训练好的CNN模型中进行特征提取，提取出样本特征，样本特征同样的可以表示为一个N*1的向量。每一个样本图片对应的提取一个样本特征，分别计算每一个样本特征与目标特征之间的置信度。样本特征的置信度体现出图片样本与跟踪目标之间的相似度，通过计算样本特征与目标特征之间的相似度，即计算上述两个N*1的向量之间的相似度，作为图片样本与跟踪目标之间的置信度。

在得到每一个图片样本的置信度之后，根据置信度调整每一个图片样本的权重，对于置信度小的样本，减小其权重，对于置信度大的样本，则增大其权重，然后对于所有的图片样本的权重进行归一化处理，使得所有样本的权重之和等于1。根据图片样本的权重值和其在视频帧图像上的位置坐标计算跟踪目标在该视频帧图像上的位置坐标。具体地，假设一共采集了k个图片样本，其中样本P_i的位置坐标为(x_i，y_i)，其与跟踪目标之间的置信度为S_i。则根据以下公式可以预测出跟踪目标的位置坐标(x，y)。

D、根据所述位置坐标从所述视频帧图像上采集所述跟踪目标的正样本和负样本。

E、根据所述正样本和负样本更新所述CNN模型的训练样本集，并使用更新后的训练样本集训练所述CNN模型以更新所述CNN模型的模型参数。

根据该位置坐标从视频帧图像上采集跟踪目标的正样本和负样本，具体地，采集位于所述位置坐标的周边区域内的第一预设数量的图片样本作为正样本，其中，所述周边区域为与所述位置坐标之间的距离小于第一预设阈值的点构成的区域；采集位于所述位置坐标的远离区域内的第二预设数量的图片样本作为负样本，其中，所述远离区域为与所述位置坐标之间的距离大于第二预设阈值的点构成的区域，所述第二预设阈值大于所述第一预设阈值。

也就是说，在预测到跟踪目标在图像上的位置后，从距离跟踪目标较近的区域内采集图片样本，这些样本与跟踪目标之间的差距较小，可以作为正样本，从视频帧图像距离跟踪目标较远的区域中采集图片样本，这些样本与跟踪目标之间的差别较大，可以作为负样本，添加到CNN模型的训练样本集中，并且使用对CNN模型进行训练，更新模型参数，提高模型从图片样本中识别出运动目标的特征的准确度，以使该模型能够适应视频帧图像中目标和背景的变化。通过这样的方式，在跟踪过程中，不断地对CNN模型更新，即使出现跟踪目标有部分遮挡或者有背景对跟踪目标造成干扰，也不会干扰到对目标的正确跟踪。在完成对该视频帧图像的跟踪后，继续对下一帧图像进行跟踪，采用更新后的CNN模型进行特征提取。按照步骤A至步骤E对每一帧图像进行目标跟踪，并且在跟踪完成后，对CNN模型进行训练，直至完成对视频的所有帧图像中目标的跟踪。可以理解的是，上述第一预设阈值、第二预设阈值、第一预设数量以及第二预设数量均可以由用预先设置。

进一步地，在其他实施例中，在步骤E之后，还实现如下步骤：

所述步骤F包括：重复执行步骤A至G，直至完成对视频的所有视频帧图像中的跟踪目标的跟踪。

具体地，根据调整后的权重对采样点的分布进行调整，具体地，在权重大于第一预设权重的样本对应的采样点的第一预设范围内增加采样点，即在权重大的图片样本对应的采样点附近增加更多的采样点，在权重小于第二预设权重的样本对应的采样点的第二预设范围内减少采样点，其中，第二预设权重小于第一预设权重，即减少权重小的图片样本对应的采样点附近的采样点，其中，增加的采样点的数量等于或者大于减少的采样点的数量，或者，当权重非常小时，可以将对应的采样点删除，例如，将权重小于第三预设权重的样本对应的采样点删除，其中，第三预设权重小于所述第四预设权重。

本实施例提出的基于卷积神经网络的目标跟踪装置，对视频中的视频帧图像进行逐帧识别，按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标，基于CNN模型从多个样本图片对应地提取多个样本特征，根据提取的样本特征计算各个图片样本与跟踪目标之间的置信度，根据置信度对应的调整样本的权重，进而根据样本的位置坐标和权重计算跟踪目标在该视频帧图像上的位置坐标，并且根据该位置坐标从视频帧图像上采集跟踪目标的正样本和负样本，使用采集的样本重新训练CNN模型以更新模型参数，使用更新模型参数后的模型继续对下一帧图像跟踪，以此类推，在得到每一帧图像的跟踪结果后，根据跟踪结果对模型进行更新，使得在跟踪目标发生变化时，更新后的模型能够适应目标及背景的变化，即使图像中出现部分遮挡、背景干扰等现象时，也能够成功的进行目标的跟踪，提高目标跟踪的准确度。

可选地，在其他的实施例中，目标跟踪程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

例如，参照图2所示，为本发明基于卷积神经网络的目标跟踪装置一实施例中的目标跟踪程序的功能模块示意图，该实施例中，目标跟踪程序可以被分割为预处理模块10、跟踪模块20、采样模块30和更新模块40，示例性地，

采集模块10用于：按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标；

预处理模块20用于：基于卷积神经网络CNN模型从所述多个图片样本中对应地提取多个样本特征，并分别根据提取的样本特征分别计算每一图片样本与跟踪目标之间的置信度；

跟踪模块30用于：根据计算得出的置信度调整对应图片样本的权重，并根据所有图片样本的位置坐标和权重计算所述跟踪目标在所述视频帧图像上的位置坐标；

采样模块40用于：根据所述位置坐标从所述视频帧图像上采集所述跟踪目标的正样本和负样本；

更新模块50用于：根据所述正样本和负样本更新所述CNN模型的训练样本集，并使用更新后的训练样本集训练所述CNN模型以更新所述CNN模型的模型参数；

采集模块10、预处理模块20、跟踪模块30、采样模块40和更新模块50按照视频中的视频帧图像的顺序执行上述步骤对目标进行跟踪，直至完成对视频中所有视频帧图像中的跟踪目标的跟踪。

上述采集模块10、预处理模块20、跟踪模块30、采样模块40和更新模块50被执行所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明还提供一种基于卷积神经网络的目标跟踪方法。参照图3所示，为本发明基于卷积神经网络的目标跟踪方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于卷积神经网络的目标跟踪方法包括：

步骤S10，按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标。

按照采样点分布从视频帧图像上采集图片样本，其中，采样点的数量可以由用户预先设置，例如采集100个图片样本，其中，在开始对第一帧图像进行识别时，可以由用户手动从图像中选择跟踪目标，例如，通过框选的形式选择跟踪目标，基于用户选择的跟踪目标的位置对采样点分布进行初始化。具体地，可以在接收到视频帧图像时，判断所述视频帧图像是否为所述视频的第一帧图像；若所述视频帧图像为所述视频的第一帧图像，则提示用户在所述视频帧图像上手动选择跟踪目标并接收用户基于所述提示选择的跟踪目标；在确定所述跟踪目标后，初始化采样点分布和所述CNN模型的训练样本集并接收第二帧图像；若所述视频图像不是所述视频的第一帧图像，则执行所述步骤S10。或者，在其他的实施例中，用户预先设置好要跟踪的目标并存储，则在开始跟踪后直接获取跟踪目标，不需要用户再手动的从第一帧图像上选取。

步骤S20，基于卷积神经网络CNN模型从所述多个图片样本中对应地提取多个样本特征，并分别根据提取的样本特征分别计算每一图片样本与跟踪目标之间的置信度。

步骤S30，根据计算得出的置信度调整对应图片样本的权重，并根据所有图片样本的位置坐标和权重计算所述跟踪目标在所述视频帧图像上的位置坐标。

步骤S40，根据所述位置坐标从所述视频帧图像上采集所述跟踪目标的正样本和负样本。

步骤S50，根据所述正样本和负样本更新所述CNN模型的训练样本集，并使用更新后的训练样本集训练所述CNN模型以更新所述CNN模型的模型参数。

步骤S60，重复执行步骤S10至S50，直至完成对视频的所有视频帧图像中跟踪目标的跟踪。

也就是说，在预测到跟踪目标在图像上的位置后，从距离跟踪目标较近的区域内采集图片样本，这些样本与跟踪目标之间的差距较小，可以作为正样本，从视频帧图像距离跟踪目标较远的区域中采集图片样本，这些样本与跟踪目标之间的差别较大，可以作为负样本，添加到CNN模型的训练样本集中，并且使用对CNN模型进行训练，更新模型参数，提高模型从图片样本中识别出运动目标的特征的准确度，以使该模型能够适应视频帧图像中目标和背景的变化。通过这样的方式，在跟踪过程中，不断地对CNN模型更新，即使出现跟踪目标有部分遮挡或者有背景对跟踪目标造成干扰，也不会干扰到对目标的正确跟踪。在完成对该视频帧图像的跟踪后，继续对下一帧图像进行跟踪，采用更新后的CNN模型进行特征提取。按照步骤S10至步骤S40对每一帧图像进行目标跟踪，并且在跟踪完成后，对CNN模型进行训练，直至完成对视频的所有帧图像中目标的全部跟踪。可以理解的是，上述第一预设阈值、第二预设阈值、第一预设数量以及第二预设数量均可以由用预先设置。

进一步地，在其他实施例中，在步骤S50之后，该方法还包括如下步骤：根据调整后的权重对采样点的分布进行调整，具体地，在权重大于第一预设权重的样本对应的采样点的第一预设范围内增加采样点，即在权重大的图片样本对应的采样点附近增加更多的采样点，在权重小于第二预设权重的样本对应的采样点的第二预设范围内减少采样点，其中，第二预设权重小于第一预设权重，即减少权重小的图片样本对应的采样点附近的采样点，其中，增加的采样点的数量等于或者大于减少的采样点的数量，或者，当权重非常小时，可以将对应的采样点删除，例如，将权重小于第三预设权重的样本对应的采样点删除，其中，第三预设权重小于所述第四预设权重。

本实施例提出的基于卷积神经网络的目标跟踪方法，对视频中的视频帧图像进行逐帧识别，按照采样点分布从视频帧图像上采集多个图片样本，并记录各个图片样本的位置坐标，基于CNN模型从多个样本图片对应地提取多个样本特征，根据提取的样本特征计算各个图片样本与跟踪目标之间的置信度，根据置信度对应的调整样本的权重，进而根据样本的位置坐标和权重计算跟踪目标在该视频帧图像上的位置坐标，并且根据该位置坐标从视频帧图像上采集跟踪目标的正样本和负样本，使用采集的样本重新训练CNN模型以更新模型参数，使用更新模型参数后的模型继续对下一帧图像跟踪，以此类推，在得到每一帧图像的跟踪结果后，根据跟踪结果对模型进行更新，使得在跟踪目标发生变化时，更新后的模型能够适应目标及背景的变化，即使图像中出现部分遮挡、背景干扰等现象时，也能够成功的进行目标的跟踪，提高目标跟踪的准确度。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有目标跟踪程序，所述目标跟踪程序被处理器执行时实现如下操作：

进一步地，所述目标跟踪程序被处理器执行时还实现如下操作：

根据调整后的权重调整采样点在视频帧图像上的位置，以更新采样点分布。

本发明计算机可读存储介质具体实施方式与上述基于卷积神经网络的目标跟踪装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于卷积神经网络的目标跟踪装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的目标跟踪程序，所述目标跟踪程序被所述处理器执行时实现如下步骤：

2.根据权利要求1所述的基于卷积神经网络的目标跟踪装置，其特征在于，所述步骤D包括：

3.根据权利要求1或2所述的基于卷积神经网络的目标跟踪装置，其特征在于，所述处理器还用于执行所述目标跟踪程序，以在步骤E之后，还实现如下步骤：

所述步骤F包括：

4.根据权利要求3所述的基于卷积神经网络的目标跟踪装置，其特征在于，所述步骤G包括：

5.根据权利要求1所述的基于卷积神经网络的目标跟踪装置，其特征在于，所述处理器还用于执行所述目标跟踪程序，以在步骤A之前，还实现如下步骤：

判断所述视频帧图像是否为所述视频的第一帧图像；

6.一种基于卷积神经网络的目标跟踪方法，其特征在于，所述方法包括：

7.根据权利要求6所述的基于卷积神经网络的目标跟踪方法，其特征在于，所述步骤D包括：

8.根据权利要求6或7所述的基于卷积神经网络的目标跟踪方法，其特征在于，在步骤E之后，该方法还包括：

所述步骤F包括：

9.根据权利要求8所述的基于卷积神经网络的目标跟踪方法，其特征在于，所述步骤G包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有目标跟踪程序，所述目标跟踪程序可被至少一个处理器执行，以实现如权利要求6至9中任一项所述的基于卷积神经网络的目标跟踪方法的步骤。