CN108520203A

CN108520203A - 基于融合自适应多外围框与十字池化特征的多目标特征提取方法

Info

Publication number: CN108520203A
Application number: CN201810212726.XA
Authority: CN
Inventors: 林巍峣; 陈志明
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-11
Anticipated expiration: 2038-03-15
Also published as: CN108520203B

Abstract

一种基于融合自适应多外围框与十字池化特征的多目标特征提取方法，以连续帧图像作为训练数据，针对其中每一帧图像中的目标分别提取三层多外围框的特征并进行自适应去除噪声的特征加权，接着对特征进行十字池化噪声去除，最后将自适应多外围框与十字池化特征联合并进行端到端训练，最后将训练后的目标检测器进行测试。本发明利用卷积神经网络架构，通过三元组损失函数优化特征，使相同的目标之间的特征相似度更强，不同的目标之间的特征相似度更弱，即使在视频帧中出现目标之间表观相似、检测框不准确、目标姿态变化等一系列情况，最终依旧能够达到优越的效果同时保持速度快速。

Description

基于融合自适应多外围框与十字池化特征的多目标特征提取方法

技术领域

本发明涉及的是一种视频目标跟踪领域的技术，具体是一种基于融合自适应多外围框与十字池化特征的多目标特征提取方法。

背景技术

在视频的多目标跟踪领域，目前常用的思路是：先通过一个检测器，检测出每帧每个目标框的位置，然后提取每个目标框的位置的特征，在经过数据关联算法，进行相邻帧的多目标特征相似度关联，特征提取的好坏，直接决定了多目标跟踪最终的效果。然而，对于大多数的特征提取方法，当不同目标的外表非常相似时，不同目标提取的特征相似很高，会出现数据关联错误，或当每帧目标比较多时，每个目标都单独提取特征，速度比较慢，或在相同的目标在不同帧之间会外表会发生形变，造成同一个目标不同帧提取的特征相似度下降。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于融合自适应多外围框与十字池化特征的多目标特征提取方法，利用卷积神经网络架构，通过三元组损失函数优化特征，使相同的目标之间的特征相似度更强，不同的目标之间的特征相似度更弱，即使在视频帧中出现目标之间表观相似、检测框不准确、目标姿态变化等一系列情况，最终依旧能够达到优越的效果同时保持速度快速。

本发明是通过以下技术方案实现的：

本发明以连续帧图像作为训练数据，针对其中每一帧图像中的目标分别提取三层多外围框的特征并进行自适应去除噪声的特征加权，接着对特征进行十字池化噪声去除，最后将自适应多外围框与十字池化特征联合并进行端到端训练，最后将训练后的目标检测器进行测试。

所述的三层多外围框的特征，将目标检测与特征提取融合为一个网络，从自适应噪声特征层分支出一个多外围特征提取网络，通过提取物体周围场景信息来帮助区分外表相似物体，其具体通过以下方式提取得到：首先对目标本身目标框尺寸进行一次ROI-Pooling，然后再分别放大目标框大小为原来的1.5、2.0倍数并分别进行一次ROI-Pooling，从而得到三个尺度的目标框特征，并分别将特征值归一化处理，最后将归一化后的三个尺度的目标框特征进行融合。

所述的归一化处理，处理后特征值范围为0～20。

所述的十字池化噪声去除，具体包括以下步骤：

①对维度为7×7×C的特征先进行纵向均分为两半，均分后的特征维度均为：7×4×C，然后将纵向均分后的特征进行每行取最大响应值操作，得到的特征维度为：7×2×C；

②对纵向均分后的特征进行横向均分，均分后的特征维度均为：4×7×C，然后将横向均分后特征进行每列取最大响应操作，得到的特征维度为：2×7×C，再将特征维度转变为：7×2×C；

③将纵向和横向操作得到的特征进行融合，得到的特征维度为：7×4×C。

技术效果

与现有技术需要先检测出目标框，根据目标框裁剪出目标的图像，不用针对每个目标的图像分别输入网络提取特征，过程繁琐且缓慢，很难满足实时性要求相比，本发明将目标检测与跟踪联合为一体，通过共享参数，大大地提高了多目标跟踪的实时性。

附图说明

图1为本发明目标检测效果图；

图2为自适应噪声去除模块示意图；

图3为多外围框特征提取模块示意图；

图4为十字池化模块示意图；

图5为端到端训练模块示意图；

图6为本发明网络测试流程图；

图7为本发明实施例效果图。

具体实施方式

如图6所示，为本实施例基于融合自适应多外围框与十字池化特征的多目标特征提取系统，包括：目标检测器、多外围框特征提取模块、自适应噪声去除模块、十字池化模块、特征联合模块和端到端训练模块，其中：目标检测器与Conv4_3层相连并传输当前帧的目标框信息，自适应噪声去除模块与Conv4_3层相连并传输去除噪声的特征图信息，多外围框特征提取模块与去除噪声的特征图相连并传输多外围框的特征图信息，十字池化模块与分支的Conv5_3层相连并传输十字池化后的特征图信息，特征联合模块与TripletLoss相连实现端到端训练。

本发明选择Conv4_3卷积层，是因为该层既保留了小目标的信息，又保留了大目标的信息，有益于不同尺度的目标进行ROI-Pooling特征提取。为了与VGG-16网络参数一致，后面接一个过渡卷积层，然后接Conv5_1、Conv5_2、Con5_3卷积层、后面接输出维度为512的全连接层。

如图6所示，本实施例以连续帧图像作为训练数据，针对其中每一帧图像中的目标分别提取三层多外围框的特征并进行自适应去除噪声的特征加权，接着对特征进行十字池化噪声去除，最后将自适应多外围框与十字池化特征联合并进行端到端训练，最后将训练后的目标检测器进行测试。

所述的训练数据中的每一帧图像预先经过主干的卷积神经网络检测，优选为连续帧图像且每张图像包括每个目标的id号和在图像中的左上角和右下角坐标，例如：Id、1xmin：12ymin、14xmax：72ymax、166；进一步优选采用标注的数据库，且训练时要求每一个batchsize中图像帧间隔为6张。

所述的主干的卷积神经网络采用基于VGG-16网络结构的SSD(single shotmultibox detector)，采用任意大小分辨率的图像进行训练，网络会将任意分辨率大小的图像先调整为512×512维，得到行人与背景的二分类的目标检测器。

所述的目标检测器的训练图像采用但不限于预先标注的12000张左右图像和MOT数据库，训练时的阈值优选设为0.3。

如图2所示，所述的自适应去除噪声是指：从主干的卷积神经网络VGG-Net的Conv4_3的卷积层，经过一个卷积核为3×3，stride为2的卷积层，经过一个反卷积层使其与Conv4_3卷积层大小相同，再经过一个Sigmoid激活层以去除噪声，然后将输出的特征先和Conv4_3特征对应相乘，得到的结果再和Conv4_3特征相加，最终得到去除噪声的特征；经过自适应去除噪声后的特征其中：为第n层的特征，W是对输入数据进行非线性变换的参数，网络可以自适应学习W参数。

如图3所示，所述的三层多外围框的特征，将目标检测与特征提取融合为一个网络，从自适应噪声特征层分支出一个多外围特征提取网络，通过提取物体周围场景信息来帮助区分外表相似物体，其具体通过以下方式提取得到：首先对目标本身目标框尺寸进行一次ROI-Pooling，然后再分别放大目标框大小为原来的1.5、2.0倍数并分别进行一次ROI-Pooling，从而得到三个尺度的目标框特征，并分别单独进行归一化处理为0～20范围内，最后将归一化后的三个尺度的目标框特征进行融合。

例如：在训练好的检测网络中，从VGG-16网络的Conv4_3下面，分支出一个多外围框特征提取网络。假设某个目标框的大小为N×M，本发明将目标框大小分别放大为原来的1.0、1.5、2.0倍数，效果图，见图3，拼接成一个特征金字塔，然后分别进行ROI-Pooling操作，都池化为14×14的特征图。本发明选择Conv4_3卷积层，是因为该层既保留了小目标的信息，又保留了大目标的信息，有益于不同尺度的目标进行ROI-Pooling特征提取。为了与VGG-16网络参数一致，后面接一个过渡卷积层，然后接Conv5_1、Conv5_2、Con5_3卷积层、后面接输出维度为512的全连接层。

所述的ROI-Pooling是指：Ren S,Kai H,,Girshick R,et al.在Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137.)中提出的方法。

如图4所示，所述的十字池化噪声去除，具体包括以下步骤：

所述的特征联合是指：将浅层的特征进行了相互共享：在训练好的检测器网络中，分支出特征提取网络，即用检测器的框提取多外围框特征，具体步骤包括：设置检测器的预测框的置信度大于0.3作为检测器的输出框，同时真实框作为监督，每一个真实框分别与检测器的每个输出框计算框的重叠率，当真实框存在与其重叠率大于0.8的检测器输出框，则选择该检测器输出框，否则选择真实框。

多外围框ROI-Pooling得到的特征之后，后面接一个过渡卷积层，然后接Conv5_1、Conv5_2、Con5_3卷积层、后面接输出维度为512的全连接层。在Con5_3卷积层后面加入十字池化模块，后面接输出维度为128的全连接层。然后512维的特征和128维特征分别用Schroff F，Kalenichenko D，Philbin J.在FaceNet:A unified embedding for facerecognition and clustering[C]//IEEE Conference on Computer Vision and PatternRecognition.IEEE Computer Society，2015:815-823.中提出的TripletLoss方法进行优化。

本发明在TripletLoss优化时，其正负样品采样策略优选为：在得到许多目标多外围框ROI-Pooling特征之后，随机选一个样本，该样本称为Anchor，然后再随机选取一个和Anchor属于相同身份的样本和不同身份的样本，这两个样本分别对应的称为Positive和Negative由此构成一个(Anchor，Positive，Negative)三元组，假设三元组对应的特征，分别为：则目标函数的公式为：

如图5所示，由于同一个目标在相邻若干帧其周围信息变化比较小，故本发明把训练数据连续6帧作为一个包进行训练。每次训练3个包作为一个batchsize输入网络训练。整个网络权值基于VGG-16初始化，采用SGD梯度下降优化网络，初始学习率为:0.001，整个训练数据每迭代完十次，学习率变为原来的十分之一。

所述的测试是指：采用训练后的目标检测器设置置信度阈值0.3作为最终输出框，对每个输出框进行多外围特征提取和十字池化特征提取并融合后，作为每个目标的表观特征，再将其外围计算的目标的动作信息进行融合，输入相应的数据关联算法中，得出待测图像中每个目标的运动轨迹。

所述的数据关联算法包括：图匹配算法、全匹配算法等。

本实施例具体通过以下步骤实现：

步骤一、输入任意分辨率的连续帧至训练好的网络中，然后被调整图像分辨率为

512×512，本实施例中网络有两个分支，首先经过目标检测分支，输出每一帧的目标检测框，然后设置非极大值抑制(Non-Maximum Suppression)的阈值为0.45，目标框的置信度阈值设为0.3，作为最终的输出框，如图1所示。

步骤二、为了使后面多外围框ROI-Pooling提取的特征更加干净，网络对Conv4_3特征进行自适应去除小噪声。

步骤三、对自适应去除小噪声的特征进行多外围框特征提取，分别按照目标框尺度的1.0、1.5、2.0倍数，经过一个卷积过渡层，使其与VGG-16的Conv4_3的参数一致，便于网络初始化权值，后面接一系列卷积Conv5_3，最后通过全连接层输出512维特征。

步骤四：为了提高特征的鲁棒性，本实施例进行十字池化操作。本实施例对Conv5_3卷积层进行十字池化操作，然后进过全连接层输出128维特征。

步骤五：将分别输出的512维和128维特征进行融合，得到640维特征，并将其输入常用的目标跟踪算法，如：Yu F，Li W，Li Q，et al.在POI:Multiple Object Trackingwith High Performance Detection and Appearance Feature[J].2016:36-42.中提出的方法、Chu Q，Ouyang W，Li H，et al.在Online Multi-object Tracking Using CNN-BasedSingle Object Tracker with Spatial-Temporal Attention Mechanism[J].2017.中提出的方法，进行目标轨迹匹配，其效果如图7所示。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于融合自适应多外围框与十字池化特征的多目标特征提取方法，其特征在于，以连续帧图像作为训练数据，针对其中每一帧图像中的目标分别提取三层多外围框的特征并进行自适应去除噪声的特征加权，接着对特征进行十字池化噪声去除，最后将自适应多外围框与十字池化特征联合并进行端到端训练，最后将训练后的目标检测器进行测试。

2.根据权利要求1所述的方法，其特征是，所述的三层多外围框的特征，将目标检测与特征提取融合为一个网络，从自适应噪声特征层分支出一个多外围特征提取网络，通过提取物体周围场景信息来帮助区分外表相似物体，其具体通过以下方式提取得到：首先对目标本身目标框尺寸进行一次ROI-Pooling，然后再分别放大目标框大小为原来的1.5、2.0倍数并分别进行一次ROI-Pooling，从而得到三个尺度的目标框特征，并分别将特征值归一化处理，最后将归一化后的三个尺度的目标框特征进行融合。

3.根据权利要求1所述的方法，其特征是，所述的十字池化噪声去除，具体包括以下步骤：

4.根据权利要求1所述的方法，其特征是，所述的训练数据中的每一帧图像预先经过主干的卷积神经网络检测且为连续帧图像且每张图像包括每个目标的id号和在图像中的左上角和右下角坐标。

5.根据权利要求1所述的方法，其特征是，所述的主干的卷积神经网络采用基于VGG-16网络结构的SSD，采用任意大小分辨率的图像进行训练，网络会将任意分辨率大小的图像先调整为512×512维，得到行人与背景的二分类的目标检测器。

6.根据权利要求1所述的方法，其特征是，所述的自适应去除噪声是指：从主干的卷积神经网络VGG-Net的Conv4_3的卷积层，经过一个卷积核为3×3，stride为2的卷积层，经过一个反卷积层使其与Conv4_3卷积层大小相同，再经过一个Sigmoid激活层以去除噪声，然后将输出的特征先和Conv4_3特征对应相乘，得到的结果再和Conv4_3特征相加，最终得到去除噪声的特征；经过自适应去除噪声后的特征其中：为第n层的特征，W是对输入数据进行非线性变换的参数，网络可以自适应学习W参数。

7.根据权利要求1所述的方法，其特征是，所述的特征联合是指：将浅层的特征进行了相互共享：在训练好的检测器网络中，分支出特征提取网络，即用检测器的框提取多外围框特征，具体步骤包括：设置检测器的预测框的置信度大于0.3作为检测器的输出框，同时真实框作为监督，每一个真实框分别与检测器的每个输出框计算框的重叠率，当真实框存在与其重叠率大于0.8的检测器输出框，则选择该检测器输出框，否则选择真实框；

多外围框ROI-Pooling得到的特征之后，后面接一个过渡卷积层，然后接Conv5_1、Conv5_2、Con5_3卷积层、后面接输出维度为512的全连接层，在Con5_3卷积层后面加入十字池化模块，后面接输出维度为128的全连接层。然后512维的特征和128维特征分别采用TripletLoss方法进行优化。

8.根据权利要求7所述的方法，其特征是，所述的优化，其正负样品采样策略优选为：在得到许多目标多外围框ROI-Pooling特征之后，随机选一个样本，该样本称为Anchor，然后再随机选取一个和Anchor属于相同身份的样本和不同身份的样本，这两个样本分别对应的称为Positive和Negative由此构成一个(Anchor，Positive，Negative)三元组，假设三元组对应的特征，分别为：则目标函数的公式为：

9.根据权利要求1所述的方法，其特征是，所述的测试是指：采用训练后的目标检测器设置置信度阈值0.3作为最终输出框，对每个输出框进行多外围特征提取和十字池化特征提取并融合后，作为每个目标的表观特征，再将其外围计算的目标的动作信息进行融合，输入相应的数据关联算法中，得出待测图像中每个目标的运动轨迹。

10.一种基于融合自适应多外围框与十字池化特征的多目标特征提取系统，其特征在于，包括：目标检测器、多外围框特征提取模块、自适应噪声去除模块、十字池化模块、特征联合模块和端到端训练模块，其中：目标检测器与Conv4_3层相连并传输当前帧的目标框信息，自适应噪声去除模块与Conv4_3层相连并传输去除噪声的特征图信息，多外围框特征提取模块与去除噪声的特征图相连并传输多外围框的特征图信息，十字池化模块与分支的Conv5_3层相连并传输十字池化后的特征图信息，特征联合模块与TripletLoss相连实现端到端训练。