CN114677633A

CN114677633A - 基于多部件特征融合的行人检测多目标跟踪系统及方法

Info

Publication number: CN114677633A
Application number: CN202210579638.XA
Authority: CN
Inventors: 张文广; 王军; 徐晓刚; 何鹏飞; 曹卫强; 朱亚光
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-06-28
Anticipated expiration: 2042-05-26
Also published as: CN114677633B

Abstract

本发明公开了基于多部件特征融合的行人检测多目标跟踪系统及方法，首先，获取行人图像数据集并进行行人多部件标注；其次，构造并训练基于多部件特征融合的行人检测多目标跟踪系统，系统包括沙漏模块、目标尺寸回归模块、目标中心点偏移回归模块、目标中心点热度图模块和多部件特征融合模块；然后，基于所述训练得到的模型进行推理获取单帧行人检测结果及多帧的行人融合特征；其次，计算当前帧检测得到的行人特征与前一帧轨迹的融合特征的相似度；最终，利用所述相似度矩阵进行数据关联，生成当前帧的行人轨迹，并更新轨迹的特征。本方法耗时较低，且对遮挡问题鲁棒性较好。

Description

基于多部件特征融合的行人检测多目标跟踪系统及方法

技术领域

本发明涉及图像识别技术领域，尤其是涉及基于多部件特征融合的行人检测多目标跟踪系统及方法。

背景技术

随着城市公共区域监控相机的广泛部署，基于公共安全及紧急求援的需求，针对行人的在线检测及多目标跟踪技术具有重大的学术与商业价值。

当前的大部分多目标跟踪算法均是采用两阶段模式，即先利用相对成熟的检测算法检测得到目标，然后对目标提取外观特征及运动信息，再基于上述特征对目标和轨迹进行关联从而达到多目标跟踪的目的。但是这种方法有明显的缺陷：

1.两阶段方法极度依赖检测算法的效果，一旦目标因为遮挡等问题导致漏检，第二阶段的跟踪算法无法对上述漏检做任何修补。

2.两阶段跟踪算法需要单独先对目标进行检测然后再对检测得到的目标一一提取外观和运动特征，这种两阶段模式耗时较长，无法满足当前的在线实时检测和跟踪的需求。

针对两阶段多目标跟踪算法的缺陷，学术界提出将检测和跟踪融合的多目标跟踪网络，虽然在运行效率上避免了两阶段的耗时过长问题，但是在遮挡问题上一直表现欠佳，由于遮挡导致的漏检问题甚至最终效果不如两阶段算法。

基于此，需要提供一种运行效率较高，抗遮挡且性能优异的行人检测多目标跟踪方法。

发明内容

为解决现有技术的不足，实现提高行人检测多目标跟踪的抗遮挡性、提高检测效率的目的，本发明采用如下的技术方案：

一种基于多部件特征融合的行人检测多目标跟踪系统，包括沙漏模块、目标尺寸回归模块、目标中心点热度图模块、目标中心点偏移回归模块和多部件特征融合模块，沙漏模块分别获取第t帧及其前k帧图像的特征图，特征提取的过程共享权重，第t帧的特征图分别通过目标尺寸回归模块、目标中心点偏移回归模块、目标中心点热度图模块和多部件特征融合模块，得到目标宽高、目标中心点偏移、目标中心点和外观特征，多部件特征融合模块分别与沙漏模块和目标中心点热度图模块连接，分别获取第t帧及其前k帧图像的特征图，提取外观特征后，将前k帧的具有与第t帧图像相同身份识别号的外观特征，基于目标中心点进行拼接，得到目标在第t帧的外观特征，身份识别号用于表示行人不同的部件，由于有锚框anchor的存在，直接在全图的特征图中，基于目标中心点截取得到目标中心点区域的特征，因此提取出的外观特征，就是基于目标中心点的外观特征。

所述系统还包括图像预处理模块，对输入的图像进行图像缩放，并将缩放后的图像由RGB空间转换至RGBP空间，再进行像素灰度归一化，得到的输入张量作为沙漏模块的输入。

所述沙漏模块，包括依次连接的一组不同尺寸的残差模块，为该组的部分残差模块生成对应的复制模块，在该组不同尺寸的残差模块的输出端，依次累加与所述部分残差模块对应的复制模块。

所述残差模块，包括一组残差单元，每个残差单元包括依次连接的卷积层、激活层和批归一化层，残差模块的输出与输入进行相加，得到残差模块的最终输出。

一种基于多部件特征融合的行人检测多目标跟踪系统的跟踪方法，包括如下步骤：

步骤S1：获取行人图像数据集并对行人部件进行标注；

步骤S2：构造并训练基于多部件特征融合的行人检测多目标跟踪系统；首先回归得到行人的P类部件对应的多部件特征，对多部件特征进行融合，得到多部件融合特征；

步骤S3：基于训练得到的系统进行推理，获取单帧行人检测结果及多帧的行人融合特征，使用训练好的系统，检测得到的行人多部件，通过单个部件搜索最近邻其他部件，组合成一个人体；

步骤S4：计算当前帧检测得到的行人特征与前一帧轨迹的融合特征的相似度，根据步骤S2获取的当前帧的多部件融合特征，与当前帧之前的历史轨迹的融合特征进行相似度比较；

步骤S5：利用相似度矩阵进行数据关联，生成当前帧的行人轨迹，并更新轨迹的特征。

进一步地，所述步骤S1中，使用矩形框对视频的每帧图像的行人部件进行框注，包括头肩区域标注为类别0、躯干区域标注为类别1和腿部区域标注为类别2，相同区域标注相同的身份识别号；

所述步骤S3中，如果没有检测到头肩区域，则按照躯干区域搜索最近的腿部区域，然后将目标框组合成人体，如果仅检测到腿部区域，则按照误检处理。

进一步地，所述步骤S2中，系统的总损失函数包括分类损失函数和检测损失函数，分类损失函数采用多部件融合特征分类损失函数，第i个行人的多部件特征经全连接层得到多部件分类输出，通过多部件分类输出、第t帧图像中第i个行人中是否检测到了该部件，以及各类部件在融合分类中的占比，得到第i个行人的多部件融合分类输出；最终第t帧的损失函数为检测损失函数与分类损失函数平均和。

进一步地，所述步骤S2中，系统首先回归得到人体P类部件，对应的多部件特征则用

表示，其中i表示第i个行人，n表示在t-k帧到t帧内检测到同一个行人的同一个部件的次数，a为P类部件的上标，对应的多部件融合特征用

表示。

进一步地，所述步骤S2中分类损失函数，第i个行人的多部件特征

经过全连接层，得到多部件分类输出

，则第i个行人的多部件融合分类输出表示为：

其中

为第t帧第i个多部件特征

经过全连接层得到多部件分类输出，α为三个部件在融合分类中的占比权重，且满足α ₀+α ₁+…+α _P=1，φ _i,t为第t帧图像中第i个行人中是否检测到了该部件，如果未检测到则数值为0，否则数值则为1，表示为

，分类损失函数为当前t帧内，检测得到的所有m个目标的多部件融合特征分类损失的平均和，公式表示为：

其中C表示按行人分类的类别个数，在训练中则为整个训练集轨迹的个数，最终t帧的分类损失函数表示为：

。

进一步地，所述步骤S2中的检测损失函数采用L1损失函数，令第i个部件的检测L1 损失函数为

，则检测损失函数表示为

，其中m为训练数据集第t帧中总的行人个数，a为行人三个部件的上标。

进一步地，所述步骤S3中，使用训练好的系统，检测得到的行人P个部件目标框，通过单个部件搜索最近邻其他部件，组合成一个人体；第i个目标框的P部件用

表示，其中x，y，w，h分别表示目标框中心点的坐标和目标框的宽高，a为P个部件的上标，第i个组合人体的目标框表示为

。

进一步地，所述步骤S4中，相似度采用部件对部件的余弦距离进行计算，由步骤S2 可知，第t帧第i个目标的多部件融合特征表示为

，历史轨迹第j个轨迹的特征表示为

，则该目标与该轨迹的相似度表示为

，其中α为P个部件在融合分类中的占比权重，且满足α ₀+α ₁+…+α _P=1，

为第t帧图像中第i 个人体中是否检测到了该部件，如果未检测到则数值为0，否则数值则为1，即

，

为跟踪轨迹前k帧的部件融合特征，表示为

。

进一步地，所述步骤S5中，利用匈牙利算法按相似度矩阵进行关联匹配，第t帧检测到的目标与各个轨迹中相似度最高的轨迹进行关联匹配，如果最大相似度小于相似度阈值，则认为该目标对应的组合人体未关联上任何一个轨迹，并且该组合人体会生成一个新的轨迹；如果某个轨迹未关联上任何一个组合人体，则该轨迹的多部件融合特征第t帧数值采用第t-1帧的数值，如果连续n’帧未关联上任何组合人体，则认定该轨迹为消失轨迹，最后，基于形成的第t帧的目标轨迹更新融合特征，特征更新为

，其中i表示第t帧中的第i个轨迹，a为多部件的上标，k为特征融合的总帧数。

本发明的优势和有益效果在于：

本发明通过构建检测与跟踪融合的单阶段网络，可以使得模型推理时共享检测与跟踪的权重计算，相较于传统检测与跟踪独立的两阶段网络大幅较少了计算耗时，降低了实际部署的硬件成本；通过k帧加权累加更新目标的多部件特征，实时更新轨迹目标的特征库，增强算法对目标在运动中由于角度光照等问题导致的特征变化的鲁棒性；通过分别检测行人的多个部件然后组合成一个人体来检测行人，增强了检测模块对遮挡的抗干扰性，在仅遮挡下半身的情况中算法性能较传统检测算法大幅提升；通过提取人体的多部件融合特征来表征一个人体的外观特征，加大更能表征人体的头肩和躯干特征的权重，提升了跟踪重识别的准确度。

附图说明

图1为本发明实施例的系统框架图。

图2为本发明实施例中沙漏模块的网络框架图。

图3为本发明实施例中沙漏模块中的残差模块框架图。

图4为本发明实施例的方法流程图。

图5为本发明实施例中行人多部件标注效果图。

图6是本发明实施例的装置结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

以解决现有两阶段算法耗时较长，且单阶段算法对遮挡鲁棒性较差的问题。针对两阶段算法耗时较长问题，本发明提出了测与跟踪融合的单阶段网络，采用Hourglass作为网络模型的主干，通过同时回归行人的头肩、躯干、腿部三个部件然后将部件进行组合成行人，基于回归框通过特征提取网络同时提取行人的头肩、躯干、腿部三个部件的外观特征然后将特征进行融合组成行人的重识别特征，最后基于重识别特征与轨迹的相似度进行轨迹关联，从而达到多目标跟踪的目的。

如图1所示，基于多部件特征融合的行人检测多目标跟踪系统，包括沙漏模块、目标尺寸回归模块、目标中心点偏移回归模块、目标中心点热度图模块和多部件特征融合模块，沙漏模块分别获取第t帧及其前k帧图像的特征图，特征提取的过程共享权重，第t帧的特征图分别通过目标尺寸回归模块、目标中心点偏移回归模块、目标中心点热度图模块和多部件特征融合模块，得到目标宽高、目标中心点偏移、目标中心点和外观特征，多部件特征融合模块分别与沙漏模块和目标中心点热度图模块连接，分别获取第t帧及其前k帧图像的特征图，提取外观特征后，将前k帧的具有与第t帧图像相同身份识别号的外观特征，基于目标中心点进行拼接，得到目标在第t帧的外观特征，身份识别号用于表示行人不同的部件，由于有锚框anchor的存在，直接在全图的特征图中，基于目标中心点截取得到目标中心点区域的特征，因此提取出的外观特征，就是基于目标中心点的外观特征。

系统还包括图像预处理模块，对输入的图像进行图像缩放，并将缩放后的图像由RGB空间转换至RGBP空间，再进行像素灰度归一化，得到的输入张量作为沙漏模块的输入。

沙漏模块包括依次连接的一组不同尺寸的残差模块，为该组的部分残差模块生成对应的复制模块，在该组不同尺寸的残差模块的输出端，依次累加与所述部分残差模块对应的复制模块。

残差模块包括一组残差单元，每个残差单元包括依次连接的卷积层、激活层和批归一化层，残差模块的输出与输入进行相加，得到残差模块的最终输出。

具体地，步骤S2所述行人多部件检测与特征提取网络中主要包含以下几个子网络模块：Hourglass模块（沙漏子网络），目标尺寸回归模块，目标中心点偏移回归模块，目标中心点热度图模块，多部件特征融合模块，首先，将第t帧的图像缩放至512*512尺寸，并将该缩放图像由RGB空间转换至RGBP空间，而后像素灰度归一化至0到1的范围内得到网络的输入张量；然后，将输入张量送入Hourglass子网络得到128*128*256尺寸的特征图；再由特征图分别经过3*3*256和1*1*256*2的两个卷积层得到目标的宽高，由特征图分别经过3*3*256和1*1*256*2的两个卷积层得到目标的中心点偏移，由特征图分别经过3*3*256和1*1*256*3的两个卷积层以及一个最大值池化层得到目标的中心点，由特征图分别经过3*3*256和1*1*256*128的两个卷积层得到目标的外观特征，再将前k帧的具有相同身份识别号的外观特征进行平均求和得到目标在t帧的外观特征。

具体地，如图2所示，沙漏模块为沙漏子网络，采用多个不同尺寸的残差模块组合而成，C1~C7分别表示为一个不同尺寸的残差模块，C1a~C4a分别表示C1~C4的复制模块，C1a~C4a与C1~C4模块相加则得到C1b~C4b。沙漏网络用于目标检测和特征提取，残差模块结构如图3所示，模块输出由输入经过三个不同尺寸的卷积层、激活层、批归一化（BN）层然后与原输入相加得到。

如图4所示，基于多部件特征融合的行人检测多目标跟踪方法，包括以下步骤：

步骤S1：获取行人图像数据集并进行行人多部件标注；

如图5所示，使用矩形框对视频的每帧图像的行人部件进行框注，包括头肩区域标注为类别0、躯干区域标注为类别1和腿部区域标注为类别2，相同区域标注相同的身份识别号；

系统的总损失函数包括分类损失函数和检测损失函数，分类损失函数采用多部件融合特征分类损失函数，第i个行人的多部件特征经全连接层得到多部件分类输出，通过多部件分类输出、第t帧图像中第i个行人中是否检测到了该部件，以及各类部件在融合分类中的占比，得到第i个行人的多部件融合分类输出；最终第t帧的损失函数为检测损失函数与分类损失函数平均和。

系统首先回归得到人体P类部件，对应的多部件特征则用

表示。

具体地，S2所述模型首先回归得到人体头肩、人体躯干、人体腿部三类部件目标，对应的多部件特征则用

表示，其中i表示第i个目标（第i个人），n表示在t-k帧到t帧内检测到同一个目标的同一个部件的次数，a为三个部件的上标，对应的多部件融合特征用

表示。

分类损失函数，第i个行人的多部件特征

经过全连接层，得到多部件分类输出

，则第i个行人的多部件融合分类输出表示为：

其中

为第t帧第i个多部件特征

。

具体地，S2所述模型的分类损失函数采用多部件融合特征分类损失函数，即所述第i个人的多部件特征

经过一个全连接层得到多部件分类输出

，则第i个人的多部件融合分类输出表示为

，其中

为第t帧第i个多部件特征

经过一个全连接层得到多部件分类输出，α为三个部件在融合分类中的占比权重，且满足α ₀+α ₁+α ₂=1，φ _i,t为第t帧图像中第i个人体中是否检测到了该部件，如果未检测到则数值为0，否则数值则为1，表示为

，分类损失函数为当前t帧内，检测得到的所有m个目标的多部件融合特征分类损失的平均和，公式表示为

，其中C表示按行人分类的类别个数，在训练中则为整个训练集轨迹的个数，最终t帧的分类损失函数表示为

。

检测损失函数采用L1损失函数，令第i个部件的检测L1损失函数为

，则检测损失函数表示为

具体地，S2所述模型的检测损失函数采用常用的L1损失函数，令第i个部件的检测 L1损失函数表示为

，则检测损失函数表示为

，其中m为训练数据集第t帧中总的行人个数，a为行人三个部件的上标；最终第t帧的损失函数为检测损失函数与分类损失函数平均和，即

。

S3：基于训练得到的系统进行推理，获取单帧行人检测结果及多帧的行人融合特征，使用训练好的系统，检测得到的行人多部件，通过单个部件搜索最近邻其他部件，组合成一个人体；

使用训练好的系统，检测得到的行人P个部件目标框，通过单个部件搜索最近邻其他部件，组合成一个人体；第i个目标框的P部件用

表示，其中x，y，w，h分别表示目标框中心点的坐标和目标框的宽高，a为P个部件的上标，第i 个组合人体的目标框表示为

。

具体地，S3所述使用训练好的模型检测得到的人体三个部件目标框，通过头肩、躯干、腿部按照Y轴增大方向最近邻搜索其他两个部件来组合成一个人体，第i个目标框的三个部件用

表示，其中x，y，w，h分别表示目标框中心点的坐标和目标框的宽高，a为三个部件的上标，则第i个组合人体的目标框表示为

，如果没有检测到头肩则按照躯干搜索最近的腿部目标框组合成人体，如果仅检测到腿部则按照误检处理。

S4：计算当前帧检测得到的行人特征与前一帧轨迹的融合特征的相似度，根据步骤S2获取的当前帧的多部件融合特征，与当前帧之前的历史轨迹的融合特征进行相似度比较；

相似度采用部件对部件的余弦距离进行计算，由步骤S2可知，第t帧第i个目标的多部件融合特征表示为

，历史轨迹第j个轨迹的特征表示为

，则该目标与该轨迹的相似度表示为

为第t帧图像中第i个人体中是否检测到了该部件，如果未检测到则数值为0，否则数值则为1，即

，

为跟踪轨迹前k帧的部件融合特征，表示为

。

具体地，S4所述计算组合人体与前一帧轨迹的相似度采用部件对部件的余弦距离进行计算，由S2可知，第t帧第i个目标的多部件融合特征表示为

，历史轨迹第j个轨迹的特征表示为

，则该目标与该轨迹的相似度表示为

，其中α为三个部件在融合分类中的占比权重，且满足α ₀+α ₁+α ₂=1，

，为跟踪轨迹前k帧的部件融合特征，表示为

，本发明的实施例中，k=15；α ₀=0.6；α ₁=0.3；α ₂=0.1，参数的取值与应用场景有一定关系。

S5：利用相似度矩阵进行数据关联，生成当前帧的行人轨迹，并更新轨迹的特征。

利用匈牙利算法按相似度矩阵进行关联匹配，第t帧检测到的目标与各个轨迹中相似度最高的轨迹进行关联匹配，如果最大相似度小于相似度阈值，则认为该组合人体未关联上任何一个轨迹，并且该组合人体会生成一个新的轨迹；如果某个轨迹未关联上任何一个组合人体，则该轨迹的多部件融合特征t帧数值采用t-1帧的数值，如果连续n’帧未关联上任何组合人体，则认定该轨迹为消失轨迹，最后，基于所述形成的t帧的目标轨迹更新融合特征，特征更新为

，其中i表示第t帧中的第i个轨迹，α为多部件的上标，k为特征融合的总帧数。

具体地，本实施例中为n’=15。最后，基于所述形成的t帧的目标轨迹更新融合特征，特征更新为

与前述基于多部件特征融合的行人检测多目标跟踪方法的实施例相对应，本发明还提供了基于多部件特征融合的行人检测多目标跟踪装置的实施例。

参见图6，本发明实施例提供的基于多部件特征融合的行人检测多目标跟踪装置，包括一个或多个处理器，用于实现上述实施例中的基于多部件特征融合的行人检测多目标跟踪方法。

本发明基于多部件特征融合的行人检测多目标跟踪装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明基于多部件特征融合的行人检测多目标跟踪装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多部件特征融合的行人检测多目标跟踪方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于多部件特征融合的行人检测多目标跟踪系统，包括沙漏模块、目标尺寸回归模块、目标中心点热度图模块、目标中心点偏移回归模块和多部件特征融合模块，其特征在于：沙漏模块分别获取第t帧及其前k帧图像的特征图，特征提取的过程共享权重，第t帧的特征图分别通过目标尺寸回归模块、目标中心点偏移回归模块、目标中心点热度图模块和多部件特征融合模块，得到目标宽高、目标中心点偏移、目标中心点和外观特征，多部件特征融合模块分别与沙漏模块和目标中心点热度图模块连接，分别获取第t帧及其前k帧图像的特征图，提取外观特征后，将前k帧的具有与第t帧图像相同身份识别号的外观特征，基于目标中心点进行拼接，得到目标在第t帧的外观特征，身份识别号用于表示行人不同的部件。

2.一种基于多部件特征融合的行人检测多目标跟踪方法，应用于权利要求1所述的基于多部件特征融合的行人检测多目标跟踪系统，其特征在于包括如下步骤：

步骤S1：获取行人图像数据集并对行人部件进行标注；

3.根据权利要求2所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S1中，使用矩形框对视频的每帧图像的行人部件进行框注，包括头肩区域标注为类别0、躯干区域标注为类别1和腿部区域标注为类别2，相同区域标注相同的身份识别号；

4.根据权利要求2所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S2中，系统的总损失函数包括分类损失函数和检测损失函数，分类损失函数采用多部件融合特征分类损失函数，第i个行人的多部件特征经全连接层得到多部件分类输出，通过多部件分类输出、第t帧图像中第i个行人中是否检测到了该部件，以及各类部件在融合分类中的占比，得到第i个行人的多部件融合分类输出；最终第t帧的损失函数为检测损失函数与分类损失函数平均和。

5.根据权利要求4所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S2中，系统首先回归得到人体P类部件，对应的多部件特征则用

表示。

6.根据权利要求5所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S2中分类损失函数，第i个行人的多部件特征

经过全连接层，得到多部件分类输出

，则第i个行人的多部件融合分类输出表示为：

其中

为第t帧第i个多部件特征

。

7.根据权利要求4所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S2中的检测损失函数采用L1损失函数，令第i个部件的检测L1损失函数为

，则检测损失函数表示为

8.根据权利要求4所述的跟踪方法，其特征在于：所述步骤S3中，使用训练好的系统，检测得到的行人P个部件目标框，通过单个部件搜索最近邻其他部件，组合成一个人体；第i个目标框的P部件用

表示，其中x，y， w，h分别表示目标框中心点的坐标和目标框的宽高，a为P个部件的上标，第i个组合人体的目标框表示为

。

9.根据权利要求4所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S4中，相似度采用部件对部件的余弦距离进行计算，由步骤S2可知，第t帧第i 个目标的多部件融合特征表示为

，历史轨迹第j 个轨迹的特征表示为

，则该目标与该轨迹的相似度表示为

，其中为P个部件在融合分类中的占比权重，且满足α ₀+α ₁+…+α _P=1，

，

为跟踪轨迹前k帧的部件融合特征，表示为

。

10.根据权利要求9所述的基于多部件特征融合的行人检测多目标跟踪方法，其特征在于：所述步骤S5中，利用匈牙利算法按相似度矩阵进行关联匹配，第t帧检测到的目标与各个轨迹中相似度最高的轨迹进行关联匹配，如果最大相似度小于相似度阈值，则认为该目标对应的组合人体未关联上任何一个轨迹，并且该组合人体会生成一个新的轨迹；如果某个轨迹未关联上任何一个组合人体，则该轨迹的多部件融合特征第t帧数值采用第t-1帧的数值，如果连续n’帧未关联上任何组合人体，则认定该轨迹为消失轨迹，最后，基于形成的第t帧的目标轨迹更新融合特征，特征更新为