CN112651998B

CN112651998B - 基于注意力机制和双流多域卷积神经网络的人体跟踪算法

Info

Publication number: CN112651998B
Application number: CN202110059916.4A
Authority: CN
Inventors: 姬晓飞; 李俊鹏; 田晓欧; 琚兆杰; 赵东阳
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2023-10-31
Anticipated expiration: 2041-01-18
Also published as: CN112651998A

Abstract

本发明公开了基于注意力机制和双流多域卷积神经网络的人体跟踪算法，所述双流多域神经卷积网络采用双流输入，多流输出的方式对人体目标进行跟踪；通过原始视频序列提取人体目标的表观特征，通过帧差序列提取人体目标的运动特征，并根据人体目标的运动幅度在图像中的占比作为自适应融合参数，实现目标表观特征与运动特征自适应融合；该算法有效的解决了待跟踪的人体目标本身发生形状、尺度、纹理等变化时跟踪效果差的问题，并采用离线训练共享层网络参数，在线学习独立层网络参数的方式，实时对跟踪目标进行特征优化和改进。通过实验结果可知，此网络能够在保证实时跟踪的前提下，实现准确的人体目标跟踪。

Description

基于注意力机制和双流多域卷积神经网络的人体跟踪算法

技术领域

本发明公开涉及计算机视觉技术领域，尤其涉及一种基于注意力机制和双流多域卷积神经网络的人体跟踪算法。

背景技术

当前的目标视觉跟踪主要分为两大类:生成模型方法和判别模型方法。生成类方法首先要对目标区域进行建模，并且要在后续帧中找到与模型最相似的区域，进而实现位置预测。判别类方法则是将图像特征与机器学习相结合，以目标区域作为正样本，背景区域作为负样本，使用分类器在整个图像中找到最优区域。近年来，相关的滤波类方法和深度学习类方法表现出出众的准确性和快速性，常常被学者所使用，但深度学习类的方法在实际应用中的处理速度还有待提高。

使用深度学习的方法进行目标跟踪：文献Nam H.,Han B.Learning Multi-DomainConvolutional Neural Networks for Visual Tracking[J].2015.1-13，提出了多域卷积神经网络(Multidomain convolutional neural network，MDnet)，是2015年VisualObject Tracking(VOT)视觉跟踪大赛的冠军，多域卷积神经网络基于CNN多域学习模型，设计了共享层与独立全连接层相结合的网络结构，能够很好的将多个目标独立的信息从目标中分开，但此网络在时间和空间方面具有很高的计算复杂度，对于潜在目标并没有进行模型优化，使得网络在跟踪方面的速度只能达到1FPS。为了提高跟踪网络模型的速度，文献Jung I.,Son J.,Baek M.,et al.Real-Time MDNet[J].the European Conference onComputer Vision(ECCV),2018:1-16.在MDNet网络的基础上借鉴了Mask R-CNN快速检测的思想，引入了自适应RoIAlign，并将CNN卷积网络转变为稠密映射网络，优化损失函数以提高类间目标的分类能力，有效的加快了目标跟踪的速度。

目前在人体目标检测与跟踪算法中，存在着目标实时跟踪速度慢，目标本身发生形状、尺度、纹理等变化时跟踪效果差的问题。

发明内容

鉴于此，本发明公开提供了一种基于注意力机制和双流多域卷积神经网络的人体跟踪算法，通过双流多域卷积神经网络分别提取人体目标表观特征与运动特征，将目标跟踪问题转化为了目标与背景的二分类问题，在满足实时跟踪的前提下实现了准确人体目标跟踪。

本发明提供的技术方案，具体为，

基于注意力机制和双流多域卷积神经网络的人体跟踪算法，所述双流多域神经卷积网络采用双流输入，多流输出的方式对人体目标进行跟踪；

通过原始视频序列提取人体目标的表观特征，通过帧差序列提取人体目标的运动特征，并根据人体目标的运动幅度在图像中的占比作为自适应融合参数，实现目标表观特征与运动特征自适应融合；

应用所述双流多域神经卷积网络进行目标跟踪时，包括：

1)离线训练：通过对不同视频段内标定的人体目标进行深层次的特征提取，获得网络共享层参数；

2)在线学习：通过在线学习的方式，更新网络中全连接层参数，并结合卷积层融合得到的特征进行边框回归，优化目标跟踪的结果。

具体包括如下步骤：

S1：构造训练数据，对训练数据中的视频进行目标标定，即标定待跟踪的人体目标；

S2：读取标定的人体目标跟踪区域信息以及对应的视频段，确定训练的视频段数目K，并将读取的视频数据进行归一化；

S3：将归一化的视频数据进行帧差处理，对帧差图像进行预处理操作，获得人体目标运动的区域，并根据人体目标运动的区域与目标标定的区域计算目标运动程度，进而得到卷积网络特征融合权重；

S4：构造离线训练时基于注意力机制的双流多域卷积网络模型，根据S2中得到的训练视频段数K，确定双流多域卷积神经网络的独立层分支数，初始化网络模型并确定损失函数与优化器；

S5：将归一化的视频数据和每一个视频序列及对应的帧差序列进行打乱，采用样本生成器及重叠率函数S^*(IOU)生成及区分正负样本；

S6：将步骤5中得到的正负样本及其标签送入S4中构造的离线网络模型中进行训练，得到训练后的网络共享层参数；

S7：将得到的网络共享层参数进行保留，构造在线学习时基于注意力机制的双流多域卷积网络模型；

S8：对待跟踪目标进行在线学习，将跟踪目标的首帧送入在线跟踪模型，进行网络训练，更新全连接层参数；

S9：计算边框回归需要的参数，通过网络模型最后一个卷积层的输出进行边框回归，实现目标跟踪边框的优化；

S10：以前一帧中目标所在的位置预测后一帧目标的位置；其中以前一帧目标位置作为中心，以随机高斯分布的方式生成候选区域，通过网络模型输出的跟踪目标相似度分数，确定跟踪目标在下一帧的位置，在下一帧相同位置周围行进目标候选框设置，判断候选区域与跟踪目标的相似度，进而确定跟踪区域；

S11：反复执行S9及S10，通过边框回归实现跟踪目标所在位置的优化，通过相邻两帧的目标的相似度得分准确定位出跟踪目标，不断地循环视频序列，更新fc4-6层参数，最终实现视频中的人体目标的跟踪。

进一步地，所述S3中自适应特征融合权重的计算公式为：

δ_R＝1-δ_E

其中：δ_R为目标表观特征权重，δ_E为运动特征权重，R_R为原始图像中目标所在矩形框面积，R_R为帧差图像中目标所在矩形框面积。

进一步地，所述S4构建的双流多域卷积神经网络中包括三个卷积层(conv1-3)，三个全连接层(fc4-6)；其中三个卷积层(conv1-3)部分采用相同的网络结构，在第一卷积层与第二卷积层中间添加空间注意力机制，在第二卷积层与第三卷积层中采用扩张卷积的方式进行卷积，在第三层卷积后添加自适应RoIAlign层，在全连接层(fc4-6)间添加通道注意力机制。

进一步地，所述S4中网络中全连接层的最后一层根据S2中读入的视频段数K来确定，即K个视频段，fc6有K个分支，确定损失函数L与优化器adma。

进一步地，所述S4中确定的损失函数包括人体目标本身的损失函数以及目标之间的损失函数两个部分，损失函数的具体计算过程如下：

L＝L_cls+αL_inst

其中：L为损失函数；L_cls为同域中目标与背景的损失函数；L_inst为不同域中目标指尖的损失函数；α为两个损失函数调节的超参数；σ为softmax分类器激活函数；y_i∈{0,1}^2×D，表示区域真值标签的热编码；[y_i]_cd表示d视频域中的跟踪框与c类跟踪目标的归属度，值为1或0。

进一步地，所述重叠率函数S^*(IOU)计算公式为：

其中:R_T为真实区域的面积，R_G为候选区域面积。

进一步地，所述S6具体为：在训练过程中遍历所有视频序列，更新conv1-3层，fc4-5层，以及fc6k层的参数。

进一步地，所述S7中构造在线跟踪网络模型具体为，将步骤6离线训练得到的前五层参数进行保留，并将第六层的K个分支变为一个全连接层，同时在卷积层特征融合后添加一个特征输出分支。

进一步地，所述S9计算边框回归需要的参数是通过卷积层融合后的输出特征(fc_bbox)进行线性回归处理而得到。

本发明提供的一种基于注意力机制和双流多域卷积神经网络的人体跟踪算法，该算法中双流多域卷积神经网络通过对人体目标提取表观特征与运动特征，并对两种特征进行自适应融合，有效的解决了待跟踪的人体目标本身发生形状、尺度、纹理等变化时跟踪效果差的问题，并采用离线训练共享层网络参数，在线学习独立层网络参数的方式，实时对跟踪目标进行特征优化和改进。通过实验结果可知，此网络能够在保证实时跟踪的前提下，实现准确的人体目标跟踪。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中基于注意力机制和双流多域神经网络的人体跟踪算法工作流程图；

图2是本发明中基于注意力机制的双流多域神经网络离线训练模型示意图；

图3是本发明中空间注意力，通道注意力模型示意图；

图4是本发明中基于注意力机制的双流多域神经网络损失函数示意图；

图5是本发明中基于注意力机制的双流多域神经网络在线学习模型示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。

目前在人体目标检测与跟踪算法中，存在着目标实时跟踪速度慢，目标本身发生形状、尺度、纹理等变化时跟踪效果差的问题，本实施方案提出了一种基于注意力机制和双流多域卷积神经网络的人体跟踪算法，主要用于人体目标跟踪，双流多域卷积神经网络主要分为共享层与目标独立层两部分，由共享层提取人体目标的共有特征，独立层提取不同目标独有特征，实现人体目标检测和跟踪。算法实现过程包括两个部分，离线训练和在线学习。在离线训练过程中，通过对不同视频段内标定的人体目标进行深层次的特征提取，获得网络共享层参数，然后通过在线学习的方式，更新网络中全连接层参数，并结合卷积层融合得到的特征进行边框回归，优化目标跟踪的结果。

如图1所示，该算法实现具体包括如下步骤：

步骤1：构造训练数据，对训练数据中的视频进行目标标定，即标定待跟踪的人体目标；

算法开始前，首先做好数据准备工作，对视频中的每一帧中需要跟踪的目标标注出目标所在位置矩形框的坐标以及矩形框的宽高；如每一帧视频的标签为[k,n,x,y,w,h]，其中k表示待训练的第k个视频，n表示此视频中的第n帧，x，y分别表示待跟踪的人体目标所在位置左上角的横纵坐标，w，h则表示人体目标所在矩形框的宽高。

步骤2：读取标定的人体目标跟踪区域信息以及对应的视频段，将步骤1标定好的数据进行读取，需要读取的主要内容包括视频编号k，每一段视频内视频帧数，每一帧中人体目标所处的位置信息，同时将读入的每一帧视频进行归一化，转化成107*107大小，同时对标定好的标签进行相同尺度的放缩。

步骤3：将归一化的视频数据进行帧差处理，对帧差图像进行预处理操作，获得人体目标运动的区域，并根据人体目标运动的区域与目标标定的区域计算目标运动程度，进而得到卷积网络特征融合权重；

即将步骤2中归一化的视频序列进行帧差处理，对帧差图像进行膨胀腐蚀，最大连通域提取等操作，获得人体目标活动的区域，并根据目标运动区域与目标标定区域计算目标运动程度，进而得到自适应特征融合权重，自适应特征融合权重的计算公式为：

δ_R＝1-δ_E

步骤4：构造离线训练时基于注意力机制的双流多域卷积网络模型，根据S2中得到的训练视频段数K，确定双流多域卷积神经网络的独立层分支数，初始化网络模型并确定损失函数L与优化器adma；

离线训练时基于注意力机制的双流多域卷积网络模型如图2所示，构造双流多域卷积神经网络，其中包括三个卷积层，三个全连接层，网络的卷积层部分采用相同的网络结构，在第一卷积层与第二卷积层中间添加空间注意力机制，在双流多域卷积神经网络的卷积层和全连接层添加注意力机制，进一步提高目标在背景中区分度，实现更加准确的人体目标跟踪。

在第二卷积层与第三卷积层中采用扩张卷积的方式进行卷积，在第三层卷积后添加自适应RoIAlign层，网络剩下部分为全连接层，在全连接层间添加通道注意力机制，全连接层的最后一层根据步骤2中读入的视频段数K来确定，即K个视频段，第六层有K个分支，其中注意力机制模块如图3所示。优化器选择adma，损失函数包括人体目标本身的损失函数以及目标之间的损失函数两个部分，损失函数模型如图4所示，具体计算过程如下：

L＝L_cls+αL_inst

步骤5：将归一化的视频数据和每一个视频序列及对应的帧差序列进行打乱，采用样本生成器及重叠率函数S^*(IOU)生成及区分正负样本；

将归一化后的视频数据进行打乱，每一个视频序列以及对应的帧差序列同样进行打乱，然后采用样本生成器生成正负样本，如以8帧为一个周期，然后在每一帧待跟踪区域周围随机生成50个正样本和200个负样本，每一帧中随机选取4个正样本，12个负样本，每一周期共计选取32正样本，96负样本。其中正负样本的区分主要由重叠率函数S^*(IOU)来确定,正样本为S⁺≥0.7的样本，负样本为S^-≤0.3的样本，重叠率函数S^*(IOU)计算公式为：

其中:R_T为真实区域的面积，R_G为候选区域面积。

步骤6：将步骤5中得到的正负样本及其标签送入S4中构造的离线网络模型中进行训练，得到训练后的网络共享层参数；

具体为，将步骤5中选取的正负样本及其标签送入步骤4中构造的离线训练模型中，遍历所有视频序列，在训练过程中更新三个卷积层，两个全连接层以及第六层的第k个分支参数。如在K个训练视频序列的情况下，共使用100K轮训练，并且设置conv1～3的学习率为0.0001，fc4～6的学习率为0.001。

步骤7：将得到的网络共享层参数进行保留，构造在线学习时基于注意力机制的双流多域卷积网络模型；

在线学习时基于注意力机制的双流多域卷积网络模型如图5所示，在线学习的模型与离线训练模型的基础上做了如下改动：将步骤6离线训练得到的前五层参数进行保留，并将第六层的K个分支变为一个全连接层，同时在卷积层特征融合后添加一个特征输出分支。

步骤8：对待跟踪目标进行在线学习，将跟踪目标的首帧送入在线跟踪模型，进行网络训练，更新全连接层参数；

具体为，对待跟踪目标进行在线学习，对首帧目标进行训练，训练前保留离线训练时得到的前五层参数，训练时更新全连接层(后三层)参数，首帧训练时样本准备：在首帧目标周围使用高斯分布确定500正样本与5000负样本，设置fc4/fc5学习率为0.0001，fc6学习率为0.001，做30次迭代训练(SGD)。每次迭代的mini batch大小为128，使用随机选择的32个正样本，以及[随机的1024个负样本中选取的96个hard负样本(hard negatives)]。

步骤9：将卷积层融合后的输出特征进行线性回归处理，计算出fc_bbox参数，然后对边框进行平移、缩放、尺度变化的方法实现边框回归；

边框回归并非用于计算得到目标边框的实际数值，而是用计算得到的参数调整已通过别的计算方法得到的目标边框，使其更接近真实的目标边框。图像内窗口一般使用向量[x,y,width,height]表示，(x,y)表示窗口的中心点坐标，width和height分别表示窗口的宽高。正确的边框称为Ground Truth，已有的边框为Region Proposal。令RegionProposal为[x,y,width,height]，边框回归计算输出为回归调整参数[w_x,w_y,w_width,w_height]，经由回归参数调整后的边框变为使得调整后的边框接近Ground Truth[x_G,y_G,width_G,height_G]。

边框回归分为平移和尺度变换两个部分。

平移变换公式：

尺度缩放变换公式：

假设经由回归参数调整后的边框无限接近真实区域时，即：

则回归计算输出值：

输入特征向量为Φ，则有损失函数公式：

为了保证足够的泛化，做L2正则化得到训练使用的损失函数：

使用梯度下降法计算得到4个参数向量[w_x,w_y,w_width,w_height]。

步骤10：以前一帧中目标所在的位置预测后一帧目标的位置，以前一帧目标所在位置为中心，然后以随机高斯分布的方式生成256个候选区域，然后通过网络模型输出的跟踪目标相似度分数，来确定跟踪的目标在后一帧的位置，此处取相似度分数最大的5个候选框的平均值作为后一帧目标所在位置。

步骤11：反复执行S9及S10，通过边框回归实现跟踪目标所在位置的优化，通过相邻两帧的目标的相似度得分准确定位出跟踪目标，不断地循环视频序列，更新全连接层fc4-6层参数，实现人体目标与背景的分类，最终实现视频中的人体目标的跟踪。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述双流多域神经卷积网络采用双流输入，多流输出的方式对人体目标进行跟踪；

应用所述双流多域神经卷积网络进行目标跟踪时，包括：

2)在线学习：通过在线学习的方式，更新网络中全连接层参数，并结合卷积层融合得到的特征进行边框回归，优化目标跟踪的结果；

具体包括如下步骤：

S11：反复执行S9及S10，通过边框回归实现跟踪目标所在位置的优化，通过相邻两帧的目标的相似度得分准确定位出跟踪目标，不断地循环视频序列，更新fc4-6层参数，最终实现视频中的人体目标的跟踪；

所述S3中自适应特征融合权重的计算公式为：

δ_R＝1-δ_E

2.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S4构建的双流多域卷积神经网络中包括三个卷积层(conv1-3)，三个全连接层(fc4-6)；其中三个卷积层(conv1-3)部分采用相同的网络结构，在第一卷积层与第二卷积层中间添加空间注意力机制，在第二卷积层与第三卷积层中采用扩张卷积的方式进行卷积，在第三层卷积后添加自适应RoIAlign层，在全连接层(fc4-6)间添加通道注意力机制。

3.根据权利要求1或2所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S4中网络中全连接层的最后一层根据S2中读入的视频段数K来确定，即K个视频段，fc6有K个分支，确定损失函数L与优化器adma。

4.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S4中确定的损失函数包括人体目标本身的损失函数以及目标之间的损失函数两个部分，损失函数的具体计算过程如下：

L＝L_cls+αL_inst

5.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述重叠率函数S^*(IOU)计算公式为：

其中:R_T为真实区域的面积，R_G为候选区域面积。

6.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S6具体为：在训练过程中遍历所有视频序列，更新conv1-3层，fc4-5层，以及fc6k层的参数。

7.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S7中构造在线跟踪网络模型具体为，将步骤6离线训练得到的前五层参数进行保留，并将第六层的K个分支变为一个全连接层，同时在卷积层特征融合后添加一个特征输出分支。

8.根据权利要求1所述的基于注意力机制和双流多域卷积神经网络的人体跟踪算法，其特征在于，所述S9计算边框回归需要的参数是通过卷积层融合后的输出特征(fc_bbox)进行线性回归处理而得到，边框回归分为平移和尺度变换两个部分。