CN113506317A

CN113506317A - 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法

Info

Publication number: CN113506317A
Application number: CN202110631768.9A
Authority: CN
Inventors: 崔泽鹏; 宋禹; 明悦; 蒋欣欣; 于文豪
Original assignee: Beijing Baizhuo Network Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Baizhuo Network Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-15
Anticipated expiration: 2041-06-07
Also published as: CN113506317B

Abstract

本发明提供了一种基于Mask R‑CNN和表观特征融合的多目标跟踪方法。该方法包括：通过Mask R‑CNN网络搜索待识别的图像，获得图像中的目标的候选区域及特征图；基于候选区域在特征图上切割出特征作为孪生神经网络的输入，生成特征矩阵；通过空间注意力模块根据所述特征矩阵对所述图像中关键区域进行空间结构加强处理，得到具有空间注意力加权的目标特征；通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息。本发明提出了基于空间注意模型的抗遮挡多目标跟踪算法，通过空间信息来增加跟踪模型的特征区分度，对图像中关键点进行加权融合，有效地提高目标跟踪过程中身份信息稳定的概率。

Description

一种基于Mask R-CNN和表观特征融合的多目标跟踪方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于Mask R-CNN和表观特征融合的多目标跟踪方法。

背景技术

计算机视觉技术是一门通过智能图像设备采集图像并处理的技术。多目标跟踪技术作为计算机感知系统的重要组成部分，是国内外各大实验室的研究热点。多目标跟踪主要是对视频中感兴趣的目标(行人、车辆等)进行检测定位，通过在运动过程中链接各自的运动轨迹，并在后续跟踪中保持各个目标身份信息不变。多目标跟踪算法在现实场景中广泛应用，与其他机器视觉任务相结合可获得巨大的应用价值与研究意义。在当前人工智能的应用落地中，智能监控、自动驾驶、车辆流量监控占据很大的比重。这些应用都以多目标跟踪技术为基础，这说明多目标跟踪在当前具有广泛的应用价值研究价值，同时在高级人机交互系统、AI机器人等诸多应用上同样离不开多目标跟踪技术的支持。

在真实的场景中，视频场景复杂多变，摄像采集设备各种各样，造成视频的图像像素和背景出现很多不一致的现象。因此，多目标跟踪算法的研究目前仍面临许多未解决问题，比如，出现相似目标交互、频繁遮挡、背景像素干扰等问题，导致多目标跟踪的性能不佳。

目标检测不准确的问题:多目标跟踪针对目标频繁进出视野造成的遮挡或者消失情况，可以对目标进行重新检测并识别跟踪，并保持其身份信息，因此多目标跟踪的准确率更加依赖检测器的性能。复杂多变的天气和密集的人群都会引起目标检测结果出现误差，导致跟踪准确率降低。由于不同目标之间的频繁遮挡、相似外观特征，目标检测时会出现误检或者漏检等不可靠检测的情况。检测器的性能影响数据关联问题，从而影响目标跟踪结果的鲁棒性。

目标的遮挡问题:由于在运动过程中，多个目标通常会出现目标之间移动或者背景因素导致的遮挡问题。多目标跟踪在进行帧序列跟踪过程中需要检测出每一帧的目标边框，图像背景的遮挡或者目标之间的交互都会导致检测算法无法检测出被遮挡目标。当目标未被检测出来时，它的历史跟踪轨迹无法进行数据关联匹配，导致目标重现时出现目标ID变化。

表观特征相似问题:复杂场景中，外观相似的目标可能存在多个，由于多个外观相似的目标距离相近导致很难区分目标的身份，可能造成目标身份ID交换。低质量拍摄像素和复杂的背景，当远距离跟踪目标时，由于目标较小会忽略细节，当多个相似的目标靠近或者交互时，由于视觉表观特征相似，无法与正确的轨迹匹配关联。

随着深度学习在图像处理方面的发展，结合深度学习的方法逐渐应用于多目标跟踪研究。基于传统方法的多目标跟踪算法在建立数据匹配关联方面通过概率推理模型、全局或局部匹配的模型方法实现长期跟踪。全局数据关联采用多帧检测结果建立和更新模型，可以解决目标跟踪漂移、身份切换等问题。根据数据关联匹配方法，传统多目标跟踪算法分为多假设跟踪、网络流和条件随机场等。

多假设跟踪算法(Multiple Hypotheses Tracking,MHT)将生成的候选目标都保留下来，形成跟踪假设树，计算每个运动轨迹的置信度，传递目标的多种假设的后验概率，消除观测数据的不确定性。MHT算法通过保留多种关联匹配方式获得精准的跟踪结果，但是计算量大，即使采用多种处理方式也无法达到实时跟踪的目的。

基于网络流的多目标跟踪算法将数据关联问题转化成一组已知轨迹片段的匹配问题，通过计算最大后验估计概率进行关联。最大后验估计将网络流模型中最大流量从起始点到终止点进行分配，并计算网络流模型的最小费用流，获得全局最优数据关联匹配。网络流模型利用了序列的全局信息提高关联匹配度，但是缺乏相对性导致轨迹匹配的计算效率比较低。

基于条件随机场的多目标跟踪算法将目标运动轨迹关联问题定义为跟踪目标之间相似度的能量最小化问题，目标相似度由视觉信息和运动信息组成。该方法将视频帧序列中检测的每个目标通过提取特征信息计算相似度，并使用匹配关联算法生成短轨迹。该方法构建条件随机场模型计算目标轨迹之间的关联实现全局最优关联。条件随机场模型通过轨迹间的相似度和依赖性提高数据关联匹配度，通过最小能量标签进行匹配，但是很难达到全局最优结果。

多目标跟踪算法的主要任务可以分为目标检测、特征提取、相似性度量、数据关联四个关键任务。随着深度学习方法的快速发展，可以将从相关任务中学习到的深度特征结合起来应用在这些关键任务上，提高跟踪性能。根据深度学习在多目标跟踪方法中的分析对比，可以分为四类方法：深度特征增强、端到端深度学习、深度网络嵌入、联合架构的深度学习网络。

现有技术中的第一种多目标跟踪算法的技术方案为：基于bounding box的特征提取区域选择。现有对感兴趣目标的特征提取中，特征提取的区域选择都是基于目标检测的结果进行的，其主要形式包括两种：基于bounding box的两步特征提取和基于boundingbox的一步特征提取。

其具体步骤为：

目标检测，通过目标检测方法，提取感兴趣目标的位置信息。

特征提取，基于位置信息，两步特征提取需要从图像中划分出用于提取特征的区域并输入单独的特征提取网络进行特征提取；一步提取方法直接对检测输出的特征图简单处理后划分出目标特征。

上述现有技术中的第一种多目标跟踪算法的技术方案的缺点为：目标检测器是用边界框来定位目标，边界框存在一定的问题：边界框无法拟合目标的形状，框选区域包括目标的背景，影响跟踪器的性能，另外多个目标在遮挡情况下位置相近，导致边框重叠影响目标的特征，使得目标的区分性降低导致多目标的跟踪结果不佳，因此在目标密集拥挤的情况下，多目标跟踪的结果受限于边界框背景因素的影响，同时在轨迹更新中，会将背景特征累计到目标特征中，降低特征表达能力。

现有技术中的第二种多目标跟踪算法的技术方案为：多目标跟踪的特征提取是用于计算目标间相似度的主要依据。其需要应对目标遮挡时的目标信息不全、其他目标的特征干扰导致的轨迹分配错误、特征更新杂波问题。该方法中使用方向梯度直方图和局部二值模式结合生成特征，深度学习的背景下常使用专门设计的具有重识别功能的网络进行特征提取。

上述现有技术中的第二种多目标跟踪算法的技术方案的缺点为：该方法需要使用冗余的网络结构。需要引入一个单独的网络来完成相应任务，额外的网络结构会导致系统运行速度的降低，并且网络训练需要额外的数据集。

发明内容

本发明的实施例提供了一种基于Mask R-CNN和表观特征融合的多目标跟踪方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于Mask R-CNN和表观特征融合的多目标跟踪方法，包括：

通过Mask R-CNN网络搜索待识别的图像，获得图像中的目标的候选区域及特征图；

基于候选区域在特征图上切割出特征作为孪生神经网络的输入，生成特征矩阵；通过空间注意力模块根据所述特征矩阵对所述图像中关键区域进行空间结构加强处理，得到具有空间注意力加权的目标特征；

通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息。

优选地，所述的得到预测的目标位置信息之后，还包括：

通过级联数据关联，引入分割掩膜交并比、外观相似度、运动相似度进行检测目标和跟踪轨迹的相似度计算，使用匈牙利算法基于相似度进行匹配，获得目标的实时跟踪轨迹信息。

优选地，所述的通过Mask R-CNN网络搜索待识别的图像，获得图像中的目标的候选区域及特征图，包括：

通过Mask R-CNN主干网络搜索待识别的图像，在Mask R-CNN主干网络上连接四个任务分支，分别实现分类、回归、分割和特征提取，获得图像中的目标的候选区域及特征图；

Mask R-CNN主干网络采用特征金字塔FPN网络提取特征，将图像作为输入通过FPN网络提取固定大小的特征图，在RPN网络中通过一个3×3的滑动窗口遍历所有的特征图，对于每个窗口按照(1:2,1:1,2:1)的比例和尺度生成9个锚框，通过全连接层实现初步分类和边界框回归，通过非极大值抑制NMS的限制选择设定数量的候选区域；

每个候选区域通过RoI Align划分为16×16个单元并选取四个标准位置，采用双线性插值的方法对标准位置进行精调，在回归分类分支中通过全连接层映射为4096维的特征向量。

优选地，所述的基于候选区域在特征图上切割出特征作为孪生神经网络的输入，生成特征矩阵，包括：

从特征金字塔FPN网络通过上采样融合不同层级的特征得到具有上下文信息的特征图，将当前帧检测响应与前一帧检测响应对应的特征图作为孪生网络的输入，通过孪生网络得到两个具有判别性的特征矩阵。

优选地，所述的通过空间注意力模块根据所述特征矩阵对所述图像中关键区域进行空间结构加强处理，得到具有空间注意力加权的目标特征，包括：

构建包括最大池化层、中值池化层和平均池化层的空间注意力模块，将从孪生神经网络架构匹配层中提取的特征矩阵作为所述空间注意力模块的输入，通过空间注意力模块对所述特征矩阵中的目标的空间特征进行推理得到空间强化特征，得到具有空间注意力加权的目标特征，将两个具有空间加权的特征矩阵通过全连接网络层进行特征融合得到特征向量，之后通过逻辑回归模型计算分类类别的概率，实现两个输入响应之间的相同性验证，计算相似度，用于目标之间的数据关联。

优选地，所述的通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息，包括：

通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，获得运动特征向量，将运动特征向量通过全连接层映射为运动轨迹向量；通过高斯函数对预测的运动轨迹向量和实际的运动轨迹真值进行距离度量，获得目标轨迹之间的运动相似度Λ；

运动相似度Λ的计算方式如公式(2-12)所示：

Λ＝G(Δx-μ_m，δ_m) (2-12)

其中,Δx服从均值为μ_m，标准差为δ_m的高斯分布函数，Δx是多帧运动预测中相重叠时间中的平均距离；

综合多帧预测结果使用高斯分布函数对目标轨迹之间的运动相似度Λ进行距离度量，根据距离度量结果得到预测的目标位置信息。

采用嵌入实例分割网络进行检测跟踪，通过增加掩码的形式进行级联数据关联，流程包括采用分割掩膜交并比、外观相似度、运动相似度进行检测目标和跟踪轨迹的相似度计算，在级联数据关联匹配中采用基于Mask掩码交并比的数据关联，目标掩码交并比的计算如公式(2-4)所示，A,B分别代表掩码对应点的数量：

使用匈牙利算法基于相似度进行匹配，获得新的跟踪轨迹信息。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出了结合实例分割的方法，在多目标跟踪过程中实现目标检测的作用，并采用分割掩码精确描述目标，采用区分度高的描述方式提升了目标的跟踪准确度。本发明提出了基于空间注意模型的抗遮挡多目标跟踪算法，通过空间信息来增加跟踪模型的特征区分度，对图像中关键点进行加权融合，有效地提高目标跟踪过程中身份信息稳定的概率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于Mask R-CNN和表观特征融合的多目标跟踪方法的实现原理图；

图2为本发明实施例提供的一种基于Mask R-CNN和表观特征融合的多目标跟踪方法的处理流程图；

图3为本发明实施例提供的一种改进的Mask R-CNN主干网络的结构图；

图4为本发明实施例提供的一种基于特征金字塔的特征提取网络的结构图；

图5为本发明实施例提供的一种特征关联网络进行数据匹配的处理过程；

图6为本发明实施例提供的一种掩码交并比(Mask IoU,mIoU)表示形式示意图；

图7为本发明实施例提供的一种网络损失函数策略示意图；

图8为本发明实施例提出了一种基于空间注意力网络的抗遮挡多目标跟踪方法的实现原理示意图；

图9为本发明实施例提出了一种的空间注意力模块的网络结构示意图；

图10为本发明实施例提出的一种基于深度特征的运动估计模型的结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

多目标跟踪主要是对视频中感兴趣的目标(行人、车辆等)进行检测定位，通过在运动过程中链接各自的运动轨迹，并在后续跟踪中保持各个目标身份信息不变。

物体分类，需要预测出图像中出现的物体的类别；目标检测(Object detection)不仅需要预测图像中物体的类别，还需要预测物体的位置(bounding box)。语义分割(Semantic segmentation)需要预测出输入图像的每一个像素点属于哪一类的标签。实例分割(instance segmentation)在语义分割的基础上，还需要区分出同一类不同的个体。

孪生神经网络(Siamese Network)：通常由两个结构相同的网络结构组成，核心理论是输入一组同类别的样本，通过网络函数将结果映射到隐含空间中，通过距离判定函数计算两个目标之间的相似度。在孪生神经网络训练过程中，要求样本种类相同的损失函数最小，样本种类不同的损失函数最大。

注意力机制(Attention Network)：由于人通过眼睛的视觉系统观察图像中的内容时，对于每一个区域投入的注意力是有差异的。那么在视觉观察图像中的信息时，注意到区域中关键部分的信息最为清晰，其他信息将会自动忽略掉，所以提出了空间注意力机制，着重关注图像区域中的细节，通过加权的方式增加关键区域的信息，减小无用信息的影响。空间注意力机制是针对图像中某些关键区域进行空间结构上的处理(裁剪、尺寸变换、空间旋转等)，对于目标位置区域的部分进行特别关注可以通过不同的注意力值进行加权处理。

长短时记忆网络(Long and Short Term Memory network，LSTM)：长短时记忆网络是一种循环神经网络(Recurrent neural network,RNN)。循环神经网络是在神经网络的基础上加入了循环，通过记忆点保存历史信息，结合当前信息解决问题。长短时记忆网络结构解决，主要思想是提出了三个门限开关，合理地控制所需要的记忆点，减少参数量和计算量。在网络的隐含层中添加一个门限开关储存长期记忆信息和状态，可以通过门限开关对当前的单元状态控制信息的增加和遗忘。

本发明实施例提出了一种复杂场景下的基于Mask R-CNN和表观特征融合的多目标跟踪方法。该方法先引入实例分割的方法增加目标掩膜对目标位置的描述，可保留具有不规则形状的目标的轮廓特征，并添加一个特征提取分支提取深度特征，同时通过改进损失策略使得模型检测目标结果更加收敛，有效降低目标漏检误检问题。然后将空间注意力机制引入到多目标跟踪，对图像中关键点进行加权融合，通过空间信息增强目标特征之间的相似度，提高目标的识别能力，并通过训练Siamese网络验证目标身份类别，使得外观特征更具有判别性。通过改进空间注意力的特征融合方式，保留不同通道中目标的空间结构信息，训练出更具有区分度的特征，增强跟踪过程中图像目标变化的鲁棒性，解决因遮挡造成的跟踪漂移。最后通过时间信息学习跟踪特征在时序上的变化，提出采用长短时记忆网络利用的时间记忆信息，在线学习非线性的运动模型，解决检测目标与跟踪轨迹不匹配的问题。

图1为本发明实施例提供的一种基于Mask R-CNN和表观特征融合的多目标跟踪方法的实现原理图，具体处理流程如图2所示，包括如下处理步骤：

步骤S10：通过Mask R-CNN网络搜索待识别的图像，获得图像中的目标的候选区域及特征图；

步骤S20：基于候选区域在特征图上切割出特征作为孪生神经网络的输入，生成特征矩阵；

将检测响应中对应的特征块通过孪生神经网络和匹配层得到新的特征矩阵。这里每个检测响应代表一个目标，检测响应是一个包围框，每个包围框在特征图上覆盖的范围被剪裁出来作为对应目标的特征，称为一个patch，patch被传入孪生神经网络用于进一步计算出用于匹配的特征。

步骤S30：通过空间注意力模块根据所述特征矩阵对所述图像中关键区域进行空间结构加强处理，得到具有空间注意力加权的特征。

步骤S40：通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息。

步骤S50：通过级联数据关联采用分割掩膜交并比、外观相似度、运动相似度进行检测目标和跟踪轨迹的相似度计算，使用匈牙利算法基于相似度进行匹配，获得目标的实时跟踪轨迹信息。

具体处理过程包括：以Mask R-CNN网络作为基础架构实现检测和分割，添加一个特征提取分支增加特征的复用性。首先通过Mask R-CNN网络搜索待识别的图像，在Mask R-CNN网络上连接四个任务分支，分别实现分类、回归、分割和特征提取，获得图像中的目标的候选区域及特征图，基于暹罗网络结构生成用于关联的特征，同时基于LSTM计算运动信息。最后采用分割掩膜交并比、外观相似度、运动相似度进行检测目标和跟踪轨迹的相似度计算，使用贪婪算法基于相似度进行匹配。

图2为本发明实施例提供的一种改进的Mask R-CNN主干网络的结构图。本发明实施例的Mask R-CNN主干网络采用ResNet-101提取特征，通过增强网络深度提取丰富的语义信息，模型修改为有监督的特征学习提取特征，采用特征金字塔FPN实现多个尺度特征的融合，使用预测掩膜去除图像中的背景像素。

视频图像作为输入通过ResNet-101/FPN主干网络提取固定大小的特征图，在区域建议网络RPN中通过一个3×3的滑动窗口遍历所有的特征图，对于每个窗口按照(1:2,1:1,2:1)的比例和尺度生成9个锚框，然后通过全连接层实现初步分类和边界框回归，通过非极大值抑制NMS的限制选择大约300个更精准的候选框，此方法降低了计算复杂度，减少冗余信息的影响。然后候选区域通过RoI Align划分为16×16个单元并选取四个标准位置，采用双线性插值的方法对其进行精调，然后在回归分类分支中通过全连接层映射为4096维的特征向量。掩码预测分支采用FCN语义分割算法预测掩膜像素。

本发明在Mask R-CNN网络架构上添加提取跟踪特征的网络分支，实现联合检测和特征提取，模型为使同一目标对的输出特征相似度接近，学习全连接层中的权重矩阵W和偏差向量b。通过给定的一组轨迹

(d_i，d_j)分别表示成对检测目标，l_ij表示相似值(0/1)：

本发明在训练过程中每个采样RoI的多任务损失函数可表示为公式(2-2)：

L_total＝L_mask+L_cls+L_box+L_embedding (2-2)

结合实例分割的检测和跟踪算法精确描述目标的边界框，目标特征信息不会因背景污染造成跟踪漂移，提高目标检测的精度。多任务中的跟踪特征提取分支减少模型参数，降低计算复杂度。

图3为本发明实施例提供的一种基于特征金字塔的特征提取网络的结构图。本发明实施例中的特征提取分支采用特征金字塔(FPN)的网络架构，采用ResNet101模型构建深度特征提取网络，通过四个卷积层输出提取的特征。

特征金字塔网络可以提取多尺度的特征，针对图像中目标尺度变化大的视频序列，多目标跟踪的跟踪性能可以达到良好的稳定性。特征金字塔通过conv1提取低层次的目标特征，后续中经过conv2到conv5的卷积层得到不同尺寸的目标深度特征，层数越高，包含的语义信息越丰富，将得到的四个尺寸的特征图通过上采样的操作进行融合得到目标的特征图。

表1网络模型的具体参数设置

表1展示了目标特征提取网络中ResNet网络模型的每个网络层的参数，包括卷积层的大小、通道数和输出维度。

图4为本发明实施例提供的一种特征关联网络进行数据匹配的处理过程，从特征金字塔网络通过上采样融合不同层级的特征，将四个不同尺寸的特征图经过重构卷积操作形成向量，并拼接为一个特征向量F_t，与前一帧特征向量F_t-1创建特征矩阵，按照概率数据关联的方法建立关联矩阵，用于目标之间的数据关联。本发明实施例将特征提取分支从Mask R-CNN的主干网络中进行扩展可以减少特征提取的重复计算过程，提高计算效率。

本发明实施例采用嵌入实例分割网络进行检测跟踪，则增加掩码的形式进行数据关联，因此在级联数据关联匹配中采用基于Mask掩码交并比的数据关联，掩码交并比(MaskIoU,mIoU)表示形式如图5所示。

其中目标掩码交并比的计算如公式(2-4)所示，A,B分别代表掩码对应点的数量：

本发明实施例引入掩码交并比进行数据关联，提取细粒度更高的像素描述目标，掩码可以拟合目标的不规则形状，减少背景信息的干扰。在拥挤遮挡场景中，该方法也可以忽略目标的遮挡物影响，具有更强的区分度。

整个网络总共包含四个分支，分类和回归分支、分割掩码分支以及跟踪特征提取分支。图6为本发明实施例提供的一种网络损失函数策略示意图。

分类损失函数如公式(2-5)所示：

L_cls＝-log[c_gtc+(1-c_gt)(1-c)] (2-5)

其中c代表预测的分类概率，c_gt为真实分类结果。

回归损失函数：基于IoU为基础的回归损失函数如公式(2-6)所示：

L_box＝1-IoU+R(Box，Box_gt) (2-6)

其中R(Box，Box_gt)代表预测框和真实框之间的惩罚项，如公式(2-7)所示：

其中ρ代表欧式距离度量函数，box代表预测框的中心位置，box_gt代表Groundtruth的中心位置，c代表包围预测框和真实框的最小区域的对角线距离。如公式(2-8)所示，DIoU损失函数公式：

分割掩膜的损失函数：本发明采用像素级二值交叉熵损失函数计算预测的掩膜Mask和真实掩膜Mask_gt之间的损失，如公式(2-9)所示：

L_mask＝BCE(Mask，Mask_gt)

＝-(βMask log(Mask_gt)+(1-β)(1-Mask)log(1-Mask_gt)) (2-9)

其中BCE(·)表示平衡交叉熵损失函数。

跟踪特征提取分支主要采用三元组损失和交叉熵损失设置损失函数。在训练阶段，由于样本对的特征距离度量较小可能会引起梯度消失，将通过小的训练单元中使用正负样本训练来确定损失函数。

L_embedding＝∑_i max(0，f_gtf_n-f_gtf_p) (2-10)

其中f_gt代表选定候选框的真实结果，f_p代表和真实结果相对应的正样本，f_n表示和f_gt真实结果相对应的负样本。

本发明实施例提出了一种基于空间注意力网络的抗遮挡多目标跟踪方法的实现原理示意图如图7所示，具体处理过程包括：通过深度神经网络提取特征，在空间注意力模块对目标的空间特征进行推理得到空间强化特征，进一步计算空间强化特征的余弦距离，通过Siamese网络获得目标相似度。

为了增强目标之间的判别性，本发明引入空间注意力网络通过图像聚合其他目标的信息增强输入的外观特征。目标表示为o_i＝(φ_i，box_i)，其中φ_i表示输入的外观特征，

表示目标的位置信息。目标通过聚合其他目标的信息加强特征信息。

φ′_i＝φ_i+∑_jw_ij·(W_V·φ_i) (2-11)

其中w_ij表示目标j对目标i贡献的注意权重，W_V是输入特征的变换矩阵。

本发明实施例提出的一种空间注意力模块的网络结构如图8所示，其中P1表示最大池化层，P2表示中值池化层，P3表示平均池化层。将从孪生神经网络架构匹配层中提取的特征矩阵D_iM或D_jM作为空间注意力模块的输入，空间注意力模块输出具有空间注意力加权的特征。

本发明提出采用长短时记忆网络学习目标轨迹的时序特征，从目标的历史轨迹信息中提取运动特征。图9为本发明实施例提出的一种基于深度特征的运动估计模型的结构图，模型分为两个部分：一是长短时记忆网络训练获得运动特征向量，将运动特征向量通过全连接层映射为运动轨迹向量；二是通过高斯函数对预测的运动轨迹向量和实际的运动轨迹真值进行距离度量，获得运动相似度。运动估计模型的输入为同一目标的运动轨迹的坐标，通过运动估计对其进行训练得到预测的轨迹值，计算运动相似度来提高跟踪准确率。

为了能够准确地表达目标的真实运动情况，综合多帧预测结果使用高斯分布函数对目标轨迹之间的运动相似度Λ进行距离度量，运动相似度的计算方式如公式(2-12)所示:

Λ＝G(Δx-μ_m，δ_m) (2-12)

其中,Δx服从均值为μ_m,标准差为δ_m的高斯分布函数。Δx是多帧运动预测中相重叠时间中的平均距离。

本发明可以应用于复杂场景下的行人跟踪中用于行人流量分析、车辆自动驾驶中的行人避障，智能监控等领域，根据数据集的不同，也可以进行车辆跟踪，同样应用于自动驾驶，车流量监控等领域。

综上所述，本发明实施例通过针对边界框背景污染引起的检测和特征提取不佳问题，提出了结合实例分割的方法，在多目标跟踪过程中实现目标检测的作用，并采用分割掩码精确描述目标，采用区分度高的描述方式提升了目标的跟踪准确度。

本发明实施例针对目标的遮挡问题，提出了基于空间注意模型的抗遮挡多目标跟踪算法，通过空间信息来增加跟踪模型的特征区分度，对图像中关键点进行加权融合，有效地提高目标跟踪过程中身份信息稳定的概率。通过使用空间注意力掩膜标识图像的关键特征，在暹罗网络下训练图像，获得了更具代表性的目标特征，在物体因遮挡而产生外观变化及外观杂波问题时，能够有效维持轨迹的稳定性。

本发明实施例针对运动轨迹匹配问题，提出了的LSTM运动估计模型通过公开数据集学习目标的运动特性，利用LSTM的记忆单元选择性保留目标历史运动信息，获得包含丰富信息的深度运动特征，预测目标的最佳位置。通过时间序列利用历史运动信息计算目标之间运动相似度，融合多种相似度度量提高多目标跟踪结果的关联匹配度。结合运动相似度，可以提升多目标跟踪轨迹的成功率，即提升多目标跟踪准确率MOTA和跟踪成功率MT。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于Mask R-CNN和表观特征融合的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的得到预测的目标位置信息之后，还包括：

3.根据权利要求1所述的方法，其特征在于，所述的通过Mask R-CNN网络搜索待识别的图像，获得图像中的目标的候选区域及特征图，包括：

Mask R-CNN主干网络采用特征金字塔FPN网络提取特征，将图像作为输入通过FPN网络提取固定大小的特征图，在RPN网络中通过一个3×3的滑动窗口遍历所有的特征图，对于每个窗口按照(1:2，1:1，2:1)的比例和尺度生成9个锚框，通过全连接层实现初步分类和边界框回归，通过非极大值抑制NMS的限制选择设定数量的候选区域；

每个候选区域通过RoIAlign划分为16×16个单元并选取四个标准位置，采用双线性插值的方法对标准位置进行精调，在回归分类分支中通过全连接层映射为4096维的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述的基于候选区域在特征图上切割出特征作为孪生神经网络的输入，生成特征矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述的通过空间注意力模块根据所述特征矩阵对所述图像中关键区域进行空间结构加强处理，得到具有空间注意力加权的目标特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述的通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息，包括：

运动相似度Λ的计算方式如公式(2-12)所示：

Λ＝G(Δx-μ_m，δ_m) (2-12)

其中，Δx服从均值为μ_m，标准差为δ_m的高斯分布函数，Δx是多帧运动预测中相重叠时间中的平均距离；

7.根据权利要求6所述的方法，其特征在于，所述的通过长短时记忆网络利用所述具有空间注意力加权的特征对目标轨迹的历史位置信息进行计算，得到预测的目标位置信息，包括：

采用嵌入实例分割网络进行检测跟踪，通过增加掩码的形式进行级联数据关联，流程包括采用分割掩膜交并比、外观相似度、运动相似度进行检测目标和跟踪轨迹的相似度计算，在级联数据关联匹配中采用基于Mask掩码交并比的数据关联，目标掩码交并比的计算如公式(2-4)所示，A，B分别代表掩码对应点的数量：