CN109446889B

CN109446889B - 基于孪生匹配网络的物体追踪方法及装置

Info

Publication number: CN109446889B
Application number: CN201811052680.6A
Authority: CN
Inventors: 林小平; 庄骏飞; 董远; 白洪亮; 熊风烨
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2021-03-09
Anticipated expiration: 2038-09-10
Also published as: CN109446889A

Abstract

本发明实施例提供一种基于孪生匹配网络的物体追踪方法及装置，该方法包括：获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。本发明实施例提供的一种基于孪生匹配网络的物体追踪方法及装置，在对目标物体进行追踪时，随机产生一系列备选截取框，在确定目标中心位置的同时确定目标的尺寸，避免了人为设定搜索尺寸，减小了人为因素对追踪结果的影响。

Description

基于孪生匹配网络的物体追踪方法及装置

技术领域

本发明涉及神经网络领域，尤其涉及一种基于孪生匹配网络的物体追踪方法及装置。

背景技术

目标追踪是视频分析技术中的重要环节，目标追踪的实质是在一段视频的第一帧给定一个物体的边界框，追踪算法需要在后续的视频中自动找出物体。追踪目标在整段视频中可能存在大范围形变，光照变化，干扰物体以及遮挡，而追踪算法接受的输入只有用户在第一帧的边界框，这要求追踪算法需要有自学能力，同时能够分辨出干扰物体和遮挡。

现在的追踪算法都是首先对目标中心的位置进行预测，然后以一定的尺度进行搜索，比如首先根据响应图的峰值确定目标中心的位置，然后根据目标在相邻帧中的变化是缓慢的这一特性，对尺度设置一个尺度因子1.05、1、0.95假设目标扩大到1.05倍，保持原大小，或者缩小到0.95倍。然后分别用三种尺度求响应图峰值，选择峰值最大的作为目标在本帧中的尺度。

然而这种尺度因子的假设是有限的，需要在确定目标的中心位置后再确定目标尺寸，人为因素对追踪结果的影响较大。

发明内容

本发明实施例为克服上述技术缺陷，提供一种基于孪生匹配网络的物体追踪方法及装置。

第一方面，本发明实施例提供一种基于孪生匹配网络的物体追踪方法，包括：

获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；

将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

第二方面，本发明实施例提供一种基于孪生匹配网络的物体追踪装置，包括：

获取模块，用于获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；

处理模块，用于将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如第一方面所述的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述基于孪生匹配网络的物体追踪方法。

本发明实施例提供的一种基于孪生匹配网络的物体追踪方法及装置，在对目标物体进行追踪时，随机产生一系列备选截取框，在确定目标中心位置的同时确定目标的尺寸，避免了人为设定搜索尺寸，减小了人为因素对追踪结果的影响。

附图说明

图1为本发明实施例一种基于孪生匹配网络的物体追踪方法的流程示意图；

图2为本发明实施例SiamCNN网络结构图；

图3为本发明实施例一种基于孪生匹配网络的物体追踪装置的结构示意图；

图4为本发明实施例一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种基于孪生匹配网络的物体追踪方法的流程示意图，如图1所示，包括：

步骤11，获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；

步骤12，将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

本发明实施例中目标的特征数据包括目标的标注位置(以下简称Ground truth)和目标截取框(以下简称bbox)，首先根据视频中的目标获取目标的Ground truth，Groundtruth包括(x，y，w，h)，其中x，y为目标的左上角所在的位置，w和h分别为目标的宽和高，根据Ground truth可以提取的目标的bbox。

将目标的特征数据输入到已训练好的孪生卷积神经网络模型(以下简称SiamCNN模型)，孪生神经网络的目标是寻找两个可比较对象的相似程度(例如，签名验证、人脸识别等)。这个网络有两个相同的子网络，两个子网络有相同的参数和权重。在物体追踪中，我们希望输入包含目标物体的图片，就能够追踪到该目标物体，这就是SiamCNN模型的作用。SiamCNN模型会根据输入的特征数据随机产生一系列备选截取框，根据备选截取框获取目标预测数据，得到目标的追踪位置。

以追踪视频中的行人为例，具体过程如下：

首先，提取目标行人第一帧所在的Ground truth所在的bbox，并调整图片大小到112×112的大小输入训练好的SiamCNN模型提取特征，作为样本特征。

其次，在前一帧的中心位置附近以高斯分布对中心位移和尺度变化进行随机采样生成256个候选框bbox，将这256个候选框bbox调整大小到112×112，输入到已训练好的SiamCNN模型进行特征提取，并记为候选框特征，比如预测目标在第二帧的位置时，在第一帧的中心位置附近以高斯分布进行采样。

最后，计算256个候选框特征和样本特征之间的欧式距离，选择距离最近的5个候选框，取5个候选框的位置和尺度平均作为最终预测的位置。

本发明实施例提供的一种基于孪生匹配网络的物体追踪方法，在对目标物体进行追踪时，随机产生一系列备选截取框，在确定目标中心位置的同时确定目标的尺寸，避免了人为设定搜索尺寸，减小了人为因素对追踪结果的影响。

在上述实施例的基础上，所述已训练好的孪生卷积神经网络模型通过以下步骤获取：

根据训练视频中目标物体的特征数据构建训练样本；

将所述训练样本中的数据输入到初始化孪生卷积神经网络，基于对比损失函数调整所述初始化孪生卷积神经网络网络，得到已训练好的孪生卷积神经网络模型。

所述根据训练视频中目标物体的特征数据构建训练样本，具体包括：

在所述训练视频中根据目标物体的标注位置提取所述目标物体的目标截取框；

利用服从高斯分布的位移参数和尺度参数，在所述目标物体的目标截取框周围生成一系列正样本和负样本，获得所述训练样本。

本发明实施例首先需要根据训练视频中目标物体的特征数据构建训练样本，在训练视频数据集中，根据目标的Ground truth提取目标的bbox，在目标周围采用服从高斯分布的位移参数和尺度参数生成一系列正样本和负样本，得到训练样本。

将训练样本输入到初始化孪生卷积神经网络，进行训练。训练时，将一对图片给与一个标签，其中一张图片是视频第一帧的bbox，另一张选择视频其他某一帧的正样本或负样本，该正样本或负样本来自于训练样本。对于正样本和负样本的标签不一致，例如，当选择正样本时，可将该对图片的标签设定为1，当选择负样本时，可将该对图片的标签设定为-1。将这样的样本对输入到初始化孪生卷积神经网络，并基于对比损失函数调整所述初始化孪生卷积神经网络网络。

图2为本发明实施例SiamCNN网络结构图，如图2所示，包括embeding层和contrastive loss层，embeding层是SiamCNN的提取特征的最终的卷积层，contrastiveloss层是对比损失层，用于连接孪生网络产生的两个特征以及相应标签，计算损失函数。

如图2所示，SiamCNN网络结构图，CNN网络需要输入112*112大小的彩色图片，将第一步采集的正负样本bbox调整到112*112大小，然后将样本及其所属类别的标签输入网络。经过block1其中卷积核大小7*7*3*96，经过relu和pool1步长为2到达block2。激活函数relu如下所示：

f(x)＝max(0,x)，

其中x表示输入relu的值，f(x)表示输出值。

block2中卷积核大小为5*5*96*256，pool2的步长为2；conv3中卷积核大小为3*3*256*512；conv4中卷积核大小为3*3*512*512；conv5中卷积核大小为3*3*512*512；pool5步长为2；接入embedding层得到最终的特征输入contrastive loss层用来计算损失函数如下所示，然后经过反馈训练网络参数。

其中N代表计算样本对的数量，y代表标签取+1或者-1，d代表欧式距离，其计算如下式，margin是可调参数，一般取10。

在对SiamCNN模型训练后，还需要进行测试。测试阶段在上一帧目标所在位置的中心，以服从高斯分布的位移和尺度参数生成若干个个bbox作为下一帧目标可能出现的位置和尺寸，将上一帧目标的bbox和这若干个个bbox输入SiamCNN进行特征提取。对这若干个个bbox的特征和上一帧目标bbox的特征计算欧式距离，选出前几个欧式距离最近的bbox，将这几个bbox坐标值进行平均作为最终下一帧目标的bbox。

例如，在测试阶段中，首先将SiamCNN网络的最后一层contrastive loss去掉，仅保留前面的卷积层，输入一个样本对来提取相应的特征。其次根据目标在视频第一帧中的ground truth所在的位置用高斯采样在采集256个候选样本，将256候选输入网络得到256个候选样本特征，再提取第一帧所在ground truth所在bbox提取的特征，计算第一帧样本和256个候选框样本特征的欧式距离，选择前5个欧式距离最近的候选框，对这5个候选框的位置求平均得到最后的均值位置作为下一帧的目标的位置。

在上述实施例的基础上，所述高斯分布的公式为：

其中，x为所述位移参数或所述尺度参数，μ为x的平均值，σ为x的方差。

高斯分布，是一种最常见的随机变量的分布，是一个在数学、物理及工程等领域都非常重要的概率分布，数理统计中的高斯分布是很多重要问题的解决的基础，在理论研究中占有举足轻重的地位，在统计学的许多方面也有着重大的影响力。若随机变量x服从一个数学期望为μ、标准方差为σ²的高斯分布，其期望值μ决定了其位置，其标准差σ决定了分布的幅度。服从高斯分布的随机变量的概率规律为取与μ邻近的值的概率大，而取离μ越远的值的概率越小；σ越小，分布越集中在μ附近，σ越大，分布越分散。

本发明实施例中，在构建训练样本时，首先在训练视频中根据目标物体的标注位置提取目标物体的目标截取框。然后，利用服从高斯分布的位移参数和尺度参数，在目标物体的目标截取框周围生成一系列正样本和负样本，获得所述训练样本。由于正样本和负样本都是根据服从高斯分布的位移参数和尺度参数，在目标物体的bbox附近生成的，能够较大程度上反应目标在下一帧时可能出现的位置，因此根据此方法生成的训练样本在模型中能够较好的识别目标物体。

本发明实施例提供的一种基于孪生匹配网络的物体追踪方法，在对目标物体进行追踪时，随机产生一系列备选截取框，在确定目标中心位置的同时确定目标的尺寸，避免了人为设定搜索尺寸，减小了人为因素对追踪结果的影响，同时，根据服从高斯分布的位移参数和尺度参数生成的正负样本构建训练样本，能够更好的进行物体追踪。

在上述实施例的基础上，所述正样本与所述目标物体的目标截取框的交并比在0.7-1之间，所述负样本与所述目标物体的目标截取框的交并比在0-0.5之间。

交并比(Intersection-over-Union，IOU)，目标检测中使用的一个概念，是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值。

本发明实施例中，在构建训练样本时，首先在训练视频中根据目标物体的标注位置提取目标物体的目标截取框。然后，利用服从高斯分布的位移参数和尺度参数，在目标物体的目标截取框周围生成一系列正样本和负样本，获得所述训练样本。在训练样本中，将与目标物体的bbox的交并比在0.7-1之间的作为正样本，将与目标物体的bbox的交并比在0-0.5之间的作为负样本。

在上述实施例的基础上，所述初始化孪生卷积神经网络通过以下步骤获取：

采用imagenet-VGG-m网络作为基础网络生成两个孪生网络，其中所述两个孪生网络的参数共享；

去除全连接层，保留提取特征数据的卷积层，在所述卷积层后接入embeding层；

利用对比损失层对所述两个孪生网络产生的特征进行连接。

SiamCNN网络即为连体的神经网络，神经网络的连体是通过共享权值来实现的，SiamCNN网络的作用是衡量两个输入的相似程度。孪生神经网络有两个输入，将其输入到两个神经网络，这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。通过损失函数的计算，评价两个输入的相似度。在本发明实施例中，SiamCNN采用imagenet-VGG-m网络作为基础网络生成孪生网络，两个基础网络的参数是共享的，去掉所有的全连接层，只保留提取特征的卷积层部分。在卷积层后面接入embeding层，最后用contrastiveloss层对孪生网络产生的特征进行连接，并输入相应的标签计算损失函数。损失函数的计算公式如下：

在上述实施例的基础上，所述将所述训练样本中的数据输入到初始化孪生卷积神经网络，基于对比损失函数调整所述初始化孪生卷积神经网络，具体包括：

将所述训练样本及其所属类别标签输入到所述初始化孪生卷积神经网络，所述训练样本包括所述目标物体的目标截取框、所述正样本和所述负样本；

利用所述训练样本及其所属类别标签对所述目标物体进行特征提取，基于对比损失函数的反馈训练所述初始化孪生卷积神经网络。

生成训练样本：在训练视频数据集中根据ground truth提取目标的bbox，在目标周围采用服从高斯分布的位移参数和尺度参数生成一系列正负样本，例如，正样本取共50个，负样本共取200个。

这些正负样本需要满足以下条件：

1)正样本与目标框的IOU大于0.7小于1；

2)负样本与目标的IOU小于0.5大于0。

初始化SiamCNN网络：SiamCNN采用imagenet-VGG-m网络作为基础网络生成孪生网络，两个基础网络的参数是共享的，去掉所有的全连接层，只保留提取特征的卷积层部分。在卷积层后面接入embeding层，最后用contrastive loss层对孪生网络产生的特征进行连接，并输入相应的标签计算损失函数。

训练阶段：将一对图片输入网络进行训练，并给予这一对图片一个标签，其中一张图片是视频第一帧的bbox，另一张则选择视频其他某一帧的正样本或者负样本。当选择正样本的时候则这一对图片的标签可设置为1，选择负样本的时候则这一对图片的的标签可设置为-1。将这样的样本对输入SiamCNN提取特征，并由contrastive loss调整整个网络的参数。

如图2所示，SiamCNN网络结构图，CNN网络输入112*112大小的彩色图片，将第一步采集的正负样本bbox调整到112*112大小，然后将样本及其所属类别的标签输入网络。经过block1其中卷积核大小7*7*3*96，经过relu和pool1步长为2到达block2。激活函数relu如下所示：

f(x)＝max(0,x)，

其中x表示输入Relu的值，f(x)表示输出值。

以追踪视频中的行人为例，具体过程如下：

图3为本发明实施例一种基于孪生匹配网络的物体追踪装置的结构示意图，如图3所示，包括获取模块31和处理模块32，其中：

获取模块31，用于获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；

处理模块32，用于将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

本发明实施例中目标的特征数据包括目标的标注位置(以下简称Ground truth)和目标截取框(以下简称bbox)，首先获取模块31根据视频中的目标获取目标的Groundtruth，Ground truth包括(x,y,w,h)，其中x,y为目标的左上角所在的位置，w和h分别为目标的宽和高，获取模块31根据Ground truth可以提取的目标的bbox。

处理模块32将目标的特征数据输入到已训练好的孪生卷积神经网络模型(以下简称SiamCNN模型)，孪生神经网络的目标是寻找两个可比较对象的相似程度(例如，签名验证、人脸识别等)。这个网络有两个相同的子网络，两个子网络有相同的参数和权重。在物体追踪中，我们希望输入包含目标物体的图片，就能够追踪到该目标物体，这就是SiamCNN模型的作用。SiamCNN模型会根据输入的特征数据随机产生一系列备选截取框，根据备选截取框获取目标预测数据，得到目标的追踪位置。

本发明实施例提供的一种基于孪生匹配网络的物体追踪装置是用于执行上述方法实施例的，具体的流程和详细介绍请参见上述各方法实施例，此处不再赘述。

本发明实施例提供的一种基于孪生匹配网络的物体追踪装置，在对目标物体进行追踪时，随机产生一系列备选截取框，在确定目标中心位置的同时确定目标的尺寸，避免了人为设定搜索尺寸，减小了人为因素对追踪结果的影响。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和总线440，其中，处理器410，通信接口420，存储器430通过总线440完成相互间的通信。总线440可以用于电子设备与传感器之间的信息传输。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的伪基站定位方法，例如包括：获取目标的特征数据，所述特征数据包括所述目标的标注位置和目标截取框；将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充，但并不会偏离本发明的精神或者超越所附权利要求书定义的范围。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于孪生匹配网络的物体追踪方法，其特征在于，包括：

将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据；

所述已训练好的孪生卷积神经网络模型通过以下步骤获取：

根据训练视频中目标物体的特征数据构建训练样本；

将所述训练样本中的数据输入到初始化孪生卷积神经网络，基于对比损失函数调整所述初始化孪生卷积神经网络，得到已训练好的孪生卷积神经网络模型；

所述初始化孪生卷积神经网络通过以下步骤获取：

利用对比损失层对所述两个孪生网络产生的特征进行连接；

利用服从高斯分布的位移参数和尺度参数，在所述目标物体的目标截取框周围生成一系列正样本和负样本，获得所述训练样本；

所述正样本与所述目标物体的目标截取框的交并比在0.7-1之间，所述负样本与所述目标物体的目标截取框的交并比在0-0.5之间。

2.根据权利要求1所述的方法，其特征在于，所述高斯分布的公式为：

3.根据权利要求1所述的方法，其特征在于，所述将所述训练样本中的数据输入到初始化孪生卷积神经网络，基于对比损失函数调整所述初始化孪生卷积神经网络，具体包括：

4.一种基于孪生匹配网络的物体追踪装置，其特征在于，包括：

处理模块，用于将所述特征数据输入到已训练好的孪生卷积神经网络模型，获取目标预测数据；

所述已训练好的孪生卷积神经网络模型通过以下步骤获取：

根据训练视频中目标物体的特征数据构建训练样本；

所述初始化孪生卷积神经网络通过以下步骤获取：

利用对比损失层对所述两个孪生网络产生的特征进行连接；

5.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至3任一项所述基于孪生匹配网络的物体追踪方法。