CN117690123A

CN117690123A - 多目视觉下基于融合特征的行人3d姿态点跟踪方法

Info

Publication number: CN117690123A
Application number: CN202410156976.1A
Authority: CN
Inventors: 陈凯; 黄煜杰; 赵晓冬; 王子源; 朱海华; 唐敦兵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-03-12

Abstract

本发明实施例公开了一种多目视觉下基于融合特征的行人3D姿态点跟踪方法，涉及智能制造技术领域，将行人在空间场中的跟踪需求与计算机深度学习领域的功能相结合，可以更精确地关联行人特征实现三维姿态跟踪。本发明包括：在各视角下进行多目标行人边界框的识别与定位；根据目标图像提取各行人融合特征；对融合特征进行关联、补充与校验，完成多目标的跟踪匹配；更新特征池，提取目标特征模板；提取行人2D姿态点，并通过相机参数投影至三维空间，实现完整、精确的行人3D姿态点跟踪。从而提高三维行人姿态跟踪的成功率与精确度。

Description

多目视觉下基于融合特征的行人3D姿态点跟踪方法

技术领域

本发明涉及智能制造技术领域，尤其涉及一种多目视觉下基于融合特征的行人3D姿态点跟踪方法。

背景技术

目前，在大规模智能制造领域，除产品外，行人跟踪的应用场景（如智能驾驶等）也变得更加复杂，实际场景中的复杂情境给多目标跟踪任务带来了很大挑战。一方面，由于人体动作的灵活性以及面对遮挡时的姿态不确定性，当前大部分二维跟踪算法已经不能满足实际需求，如智能化工厂的数字孪生建模等技术都要求实现行人在3D空间中的跟踪；另一方面，由于遮挡、摄像机拍摄角度不同、视角受限等原因，仅跟踪行人边界框无法准确定位行人的某一个三维中心点，这种跟踪方式并不具有实际意义。因此亟需一种在多目视觉下的三维姿态点跟踪方法，在空间场中实现有效、精确的行人姿态跟踪。

当前传统的行人姿态跟踪算法所适用的场景较为简单。部分基于单目视觉的跟踪方法已经能够初步解决短缩和小幅遮挡，但仍然不能有效解决目标受大幅遮挡以及在摄像机视角中完全消失后重现等问题。当前广泛使用的姿态跟踪模式为自下而上，即通过姿态检测器找到图像中所有的姿态点后再一一关联至不同目标中。该模式不仅对于检测器有较高要求，还容易在关联时出现重复、错误、姿态点缺失等问题。对于部分自顶而下的跟踪模式，跟踪器的数量随着跟踪人数增多使得整体的状态空间大幅增长，令多目标跟踪变得不切实际。因此，如何在保证较低状态空间使用率的情况下提高3D行人姿态点跟踪的成功率与精确度，成为了需要研究解决的问题。

发明内容

本发明的实施例提供一种用于多目视觉下基于融合特征的行人3D姿态点跟踪方法，能够在保证较低状态空间使用率的情况下提高3D行人姿态点跟踪的成功率与精确度。

为达到上述目的，本发明的实施例采用如下技术方案：

S1、识别不同视角下的同一个行人，并获取每一个行人在所出现的视角中的边界框，其中，不同视角下的相同行人对应同一个行人标识，一个行人标识对应多个边界框坐标；具体的，在各视角下进行多目标行人边界框的识别与定位，其中包括：通过单目视觉跟踪算法检测并跟踪所有视角下每一帧中出现的所有行人，获取所有跟踪目标的边界框坐标；在不同视角中统一相同行人的编号。

S2、从所确定的边界框对应的目标图像中，提取行人的融合特征；

S3、对所述融合特征进行预处理后，对行人进行跟踪匹配；

S4、利用所得到的跟踪匹配的结果，通过SMPL人体模型提取行人的2D姿态点并通过多相机视角投影至三维空间中，得到行人的3D姿态点跟踪结果。

本实施例的S2中，所述从所确定的边界框对应的目标图像中，提取行人的融合特征，包括：

通过ResNet-50网络提取所述目标图像的特征图，并从所述特征图中提取包含人体主要部位的分区级特征，其中，分区级特征对应相关性特征f ₁ ~f ₆，所述特征图的全局对比特征为f ₀；

融合所述相关性特征f ₁ ~f ₆和全局对比特征f ₀，获取所述目标图像的融合特征；

可以每一个所述分区级特征作为主特征，获取该主特征的相关性特征f ₁ ~f ₆，其中，利用身体部位间的联系匹配多个目标，其中，通过聚合除主特征之外的其余特征信息得到该分区i的相关性特征f _i：，i,j为分区级特征编号；R为一个由1×1卷积、批量归一化和ReLU层组成的子网络；/>表示第i个主特征；/>表示对特征进行平均池化操作；/>表示特征与特征的串联；/>为除分区i外所有分区级特征串联后进行平均池化得到的聚合特征；获取全局对比特征f ₀的方式包括：/>；对比特征P _cont和最大池化特征P _max通过卷积操作得到/>和/>；对比特征P _cont为最大池化特征P _max与平均池化特征P _avg的差值。

本实施例的S3中，包括：对所述融合特征进行预处理，对行人进行跟踪匹配利用特征模板计算同一帧中所有融合特征的相似度矩阵，并通过计算结果关联各视角下的行人；其中，计算同一帧中所有融合特征的相似度矩阵，通过计算结果关联各视角下的目标行人，其中还包括：在初始帧特征池未存储特征时，选取未关联目标数最多的视角作为主视角。以主视角中的所有特征为Query，其余视角的所有特征为Gallery进行相似度矩阵计算；通过基于K-means的动态阈值策略确定初始动态阈值，利用相似度矩阵进行该帧内部的关联匹配；将所得到的关联结果添加进特征池中。

对关联结果进行校验，排除错误结果并补充遗漏结果，获取该帧下的目标行人跟踪结果，其中，若出现新增的行人则补充进关联结果。实际应用中，对所述融合特征进行关联、补充与校验，其中包括：基于特征相关性利用所述特征模板计算同一帧中所有融合特征的相似度矩阵，通过计算结果关联各视角下的目标行人；在多视角下基于特征相关性判定新增行人，补充所述关联结果；基于单应性约束对所述关联结果进行校验，排除错误结果并补充遗漏结果，获取最终的该帧下的目标行人跟踪结果。

其中，所述利用特征模板计算同一帧中所有融合特征的相似度矩阵，并通过计算结果关联各视角下的行人，包括：

选取查询项与匹配项并计算二者的距离，得到特征相关相似度矩阵，其中，对以所述特征模板作为一组查询项Query，以新出现的所有未关联特征作为匹配项Gallery；采用动态阈值策略，基于K-means计算行人特征关联匹配的动态阈值，之后将满足阈值且K-means聚类中心最小的一组结果作为该目标的关联结果。

所述动态阈值策略，包括：建立相似度模型：，其中，基于K-means对所述特征相关相似度矩阵进行第一次聚类，初始相似度矩阵为/>，p为目标ID，t为当前时刻，m为一组Query数量，n为当前帧所有Gallery数量，所需类别数量为2，表示相似度结果，具体是将聚类中心较小一类所有元素的均值作为该匹配项在该组查询项当中的相似度结果。[,:]为列向量操作运算符，K_min为取K-means后聚类中心最小一类的所有元素，Avg为取平均值运算符；利用所述相似度模型计算动态阈值：，其中，threshold为初始固定阈值；

之后在第一次聚类结果的基础上进行第二次聚类，所需类别数量为2，在所有Query中确定与该组Gallery匹配的正确特征，，[:]为行向量操作运算符；/>为最终选出的成功关联项作为目标p的关联结果。

进一步的，是否出现新增的行人的检测过程包括：若检测到当前帧对应的所有视角中，有60%以上的视角的图像中出现两个以上的未关联特征，则触发行人新增判定；

对未关联特征进行相似度矩阵计算，得到一个n阶方阵,n为所述未关联特征的数量；当出现至少两个特征存在于至少两个视角，且相似度矩阵计算结果低于动态阈值时，判定出现新增行人。具体的，可在多视角下基于特征相关性判定新增行人，其中包括：确定触发判定方式。在完成第一次特征关联后，若当前帧仍然在60%以上的视角中出现两个以上的未关联特征，将触发行人新增判定；计算相似度矩阵。将未关联的所有特征同时作为Query和Gallery进行相似度矩阵计算，获取一个n阶方阵,n为所述未关联特征数量；关联判定。取所述n阶方阵的上三角矩阵，通过所述动态阈值策略判定结果，当出现至少两个特征存在于至少两个视角且相似度矩阵计算结果低于动态阈值时，判定出现新增行人；添加目标。判定出现新增目标后，将对应的目标信息添加进Query当中，并从下一次目标特征关联匹配时进行该新增目标的跟踪。

在本实施例的S3之后，还包括：利用所述跟踪匹配后的融合特征更新特征池并提取特征模板，所提取的特征模板用于下一次跟踪匹配；其中，在利用所述跟踪匹配后的融合特征更新特征池并提取特征模板的过程中，包括：设置单目标特征存储上限，并对特征池中现有的特征进行更新，从而完成特征池的特征流动过程；基于GMM高斯混合模型提取具有代表性的特征模板。

所述特征池的特征流动过程，包括：设置单个目标在特征池中的存储上限S；根据特征池存储情况在新增判定中的当前帧中加入新的行人跟踪结果并删除原有的旧特征，其中包括：，X _T,C为特征池中某一个行人的特征集合，t为时刻编号，c为相机视角编号，X _new为新增特征；X _del为待删除旧特征，M为现有特征数，W为新增特征数，D为需删除特征数；/>为特征流动完成后特征池中该行人特征集合；/>为集合中的第N个特征。

所述基于GMM高斯混合模型提取具有代表性的特征模板，包括：在初始参数设置后，设置所需特征模板数量K：当特征池中存在大于K’个特征时，选取K个特征作为模板，在新增目标中，目标特征较为相似，需要存储更多不同因素影响下的特征，因此设置K’＞ K；其中，设置初始参数：，各高斯分布、均值与协方差矩阵可初始化为/>。

其中，X _T,C为特征池中某行人特征；T为特征所处时间；C为特征所处的视角编号；隐变量Z _H为特征所属高斯分布的类别；H为特征对应的行人ID；K为该行人所需提取的特征模板数量。

根据下一时刻的高斯分布结果，提取出的行人所有代表性特征x _t,c，从而完成特征模板的选取。

在本实施例的S4中，通过SMPL人体模型提取行人的2D姿态点，包括：利用MVSPIN人体渲染模型提取行人的6890个人体表面姿态点坐标矩阵，并获取SMPL基础模型关节回归先验矩阵，其中，MVSPIN是一种基于SMPL人体模型的建模算法，MV指Multi-View，多视角，MVSPIN模型是在传统SPIN建模模型上进行的改进，用于人体建模和渲染；故称MVSPIN人体渲染模型或者MVSPIN模型；根据两个矩阵计算目标行人的24个3D预测姿态点坐标，并获取所预测的相机矩阵；根据所预测的相机矩阵将24个3D预测姿态点坐标还原至同视角原图像中，获取24个2D姿态点坐标；其中，获取24个2D姿态点坐标的方式包括：构建四维单位矩阵将所述预测的1×3三维相机参数转换为3×4的相机预测矩阵；对所述3D预测姿态点增加维度至四维后进行矩阵变换，将24×4的姿态点矩阵转换为1×24×4×1；将所述经矩阵变换的姿态点矩阵与所述相机预测矩阵相乘，得到相机方向上的姿态点坐标矩阵，维度为1×24×3×1；舍弃所述相机方向的姿态点坐标矩阵的深度，并通过矩阵变换为不包含相机预测参数的2D姿态点坐标，维度为24×2。

本实施例提供的基于融合特征的行人3D姿态点跟踪方法，将行人在空间场中的跟踪需求与计算机深度学习领域的功能相结合，可以更精确地关联行人特征实现三维姿态跟踪。在各视角下进行多目标行人边界框的识别与定位；根据目标图像提取各行人融合特征；对融合特征进行关联、补充与校验，完成多目标的跟踪匹配；更新特征池，提取目标特征模板；之后通过提取行人2D姿态点，并通过相机参数投影至三维空间，实现完整、精确的行人3D姿态点跟踪。从而提高可以在保证较低状态空间使用率的情况下提高3D行人姿态点跟踪的成功率与精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的整体框架流程示意图；

图2为本发明实施例提供的融合特征提取流程示意图；

图3为本发明实施例提供的提取相关性特征示意图；

图4为本发明实施例提供的提取全局对比特征示意图；

图5为本发明实施例提供的特征相关性计算原理示意图；

图6为本发明实施例提供的行人新增判定原理示意图；

图7为本发明实施例提供的基于单应性约束校验原理示意图；

图8为本发明实施例提供的特征池流动原理示意图；

图9为本发明实施例提供的基于GMM提取特征模板示意图；

图10为本发明实施例提供的获取2D预测姿态点过程示意图；

图11为本发明实施例提供的获取3D真实姿态点过程示意图；

图12为本发明提供的方法流程示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本实施例提供一套多目视觉下基于融合特征的行人3D姿态点跟踪方法，如图1和图12所示，包括：

S1、识别不同视角下的同一个行人，并获取每一个行人在所出现的视角中的边界框；

S3、对所述融合特征进行预处理后，对行人进行跟踪匹配；

本实施例中，在S1中，所述在各视角下进行多目标行人边界框的识别与定位，其中包括：

通过单目视觉跟踪算法检测并跟踪所有视角下每一帧中出现的所有行人，获取所有跟踪目标的边界框坐标。

在本实施例中，所述通过单目视觉跟踪算法检测并跟踪所有视角下每一帧中出现的所有行人，包括：

通过YOLOv5模型进行多目标跟踪。设置跟踪目标为行人，设定跟踪阈值为0.8，认为检测到一个有效行人。对不同视角的时间流图像分别进行跟踪，获取每一个视角的行人目标边界框。

本实施例中，在S2中，所述通过所述行人边界框对应的目标图像提取各行人融合特征，包括：通过ResNet-50网络提取所述目标图像的特征图，获取6个包含人体主要部位的分区级特征。其中，对正常站立的行人而言，主要身体部位包括：头部、肩部、腰部（肘部）、臀部（手部）、膝部、脚部等六部分。如图2所示的，提取一个大小为H×W×C的特征图，进行最大全局池化处理，得到6个尺寸为1×1×C的分区级特征，使其有效区分上述几个主要的身体区域。所提取的分区级特征能够更有效地表达出所代表身体部位包含的信息，有利于后续的特征融合与关联匹配。

具体的，所述以每一个所述分区级特征作为主特征，获取该主特征的相关性特征f ₁ ~f ₆。其中，如图3所示的，分别以每一个分区级特征作为主特征，利用身体部位间的联系匹配多个目标，即通过聚合除/>之外其他分区级特征以得到该分区i的相关性特征f _i，，式中：i, j为分区级特征编号；R为一个由1×1卷积、批量归一化和ReLU层组成的子网络；

表示第i个主特征；/>表示对特征进行平均池化操作；/>表示特征与特征的串联；/>为除分区i外所有分区级特征串联后进行平均池化得到的聚合特征，其包含了除主特征之外的其余所有分区级特征信息。

为一个与主特征部位相关联，又同时包含其他部位信息的分区级融合特征。当/>存在缺陷时（如遮挡引起特征污染），但与其他身体部位的内在关联性是客观存在的。加入该分区级融合特征不仅使f _i表达/>本身的信息，还包含了与其他身体部位的关联信息，弥补了/>的自身问题。进而使f ₁ ~f ₆更利于表达目标特征。

在本实施例中，所述获取所述该特征图的全局对比特征f ₀。其中，主要目的在于获取一个最能体现与其他特征差异的全局特征f ₀。在获取f ₀的过程中，如图4所示，对比特征P _cont为最大池化特征P _max与平均池化特征P _avg的差值，因此其包含了所有水平分区中，更具有区分性的一部分特征。按公式进行全局对比特征计算，获得f ₀不仅有整体特征中最突出的一部分，还包含了剩余所有分区中相对更突出的一部分，使整体特征更具有代表性。式中：R为一个由1×1卷积、批量归一化和ReLU层组成的子网络；C _t为特征与特征的串联；对比特征P _cont以及最大池化特征P _max通过卷积操作得到/>和/>。

在本实施例中，所述基于特征相关性计算同一帧中所有融合特征的相似度矩阵，包括：选取查询项与匹配项，对于单个目标，以所述特征模板作为一组查询项Query，以新出现的所有未关联特征作为匹配项Gallery；计算所述查询项与匹配项的距离，获取特征相关相似度矩阵。

具体的，在获取到当前帧下所有视角中的待关联行人特征后，需要利用特征池选出的特征模板对所有待关联特征进行匹配。如图5所示，以基于GMM选出的特征模板Query作为查询项，一个目标ID经GMM选出的10个特征为一组；当前帧下所有待关联特征Gallery为匹配项，通过Query与Gallery之间的距离计算，可以获取所有Gallery在每一组Query下的基于特征相关的相似度矩阵，每组Query与Gallery的计算结果越小，两特征越相近。

其中，所述基于特征相关性计算同一帧中所有融合特征的相似度矩阵，当某目标在特征池为空时，则需要单独在各视角中进行目标关联。如初始帧中，设未关联边界框数量最多的视角为主视角。在多视角间进行目标特征匹配：将主视角中所有特征作为Query，其余视角的所有特征作为Gallery，进行相似度矩阵计算。

在本实施例中，所述通过计算结果关联各视角下的目标行人，包括：通过所述相似度矩阵关联目标行人，采用动态阈值策略，基于K-means计算行人特征关联匹配的动态阈值；将满足阈值且K-means聚类中心最小的一组结果作为该目标的关联结果。

具体的，所述动态阈值策略，包括对特征相似度矩阵进行两次聚类，确定每一帧行人特征关联匹配的动态阈值，以适应当前环境下的多视角跟踪。在获取相似度矩阵时，错误对象之间的关联无法避免，即使目标正确，也会出现由于相机角度不同引起的计算结果偏差。因此在利用相似度结果进行关联前，需要先排除这些干扰特征。以一组Query为例，其相似度结果为一个m×n矩阵，其中p为目标ID，t为当前时刻，m为该组Query数量，n为当前帧所有Gallery数量。进行第一次聚类，所需类别数量为2。

如公式，利用K-means对/>进行列操作，即对每一个Gallery在一组Query中的所有结果聚类，取聚类中心较小一类所有元素的均值作为该匹配项在该组查询项当中的相似度结果，由此获得一个/>的向量/>。此时利用/>中的n个元素按公式(1)进行动态阈值计算，在该范围内确定关联成功的标准。之后进行第二次聚类，在所有Gallery中确定与该组Query匹配的正确特征，利用K-means对/>进行行操作，如式/>，[,:]为列向量操作运算符；[:]为行向量操作运算符，/>为最终选出的成功关联项作为目标p的关联结果。K _min为取K-means后聚类中心最小一类的所有元素， Avg为取平均值操作；找到m’个聚类中心较小一类的元素，同时判断各元素是否满足动态阈值，完成该组Query的匹配过程。

其中，利用所述相似度模型计算动态阈值：，threshold为初始固定阈值；

之后在第一次聚类结果的基础上进行第二次聚类，所需类别数量为2，即，/>为最终选出的成功关联项作为目标p的关联结果。。

动态阈值确定方法可以适应不同环境下的特征相关相似度计算结果，尤其是在多目视觉下的动态多目标跟踪中，有效减少了跟踪误差以及由于背景动态变化而引起的特征关联问题，提高了目标特征跟踪的准确性。

在本实施例中，所述在多视角下基于特征相关性判定新增行人，补充所述关联结果。其中包括：确定触发判定方式；计算相似度矩阵；目标关联判定；添加目标特征。

具体的，所述基于特征相关性的新增行人判定，在完成第一次特征关联后，若当前帧仍然在60%以上的视角中出现两个以上的未关联特征，将触发行人新增判定；如图6所示的，将剩余未关联的所有特征同时作为Query和Gallery进行相似度矩阵计算，获取一个n阶方阵,n为所述未关联特征数量；取所述n阶方阵的上三角矩阵，通过所述动态阈值策略判定结果，当出现至少两个特征存在于至少两个视角且相似度矩阵计算结果低于动态阈值时，判定出现新增行人；判定出现新增目标后，将对应的目标信息添加进Query当中，并从下一次目标特征关联匹配时进行该新增目标的跟踪。

在本实施例中，所述基于单应性约束对所述关联结果进行校验，其中包括：获取各视角中同一目标边界框中心坐标；利用各视角相机矩阵投影至三维空间；排除错误项并补充遗漏项，获取最终该帧下的目标行人跟踪结果。

具体的，由于单应性约束算法不具有关联匹配的主动性，因此本实施例在特征关联完成后利用该方法对关联结果进行验证工作。此时各相机矩阵参数以及每个视角下的目标ID位置等信息都成为已知量。利用相机矩阵便可以将各视角下目标ID的二维中心坐标投影并转换为三维空间位置坐标。各视角中的同一个目标在投影至三维空间时其中心坐标应集中在同一点附近。通过对当前帧目标ID在各视角中的位置信息进行两两投影计算，获取其投影后的中心位置坐标。如图7所示的，输入一组具有同ID编号的检测框二维坐标，若其在三维空间的投影距离均在较小范围内，则认为该组关联均成功；反之，若某视角出现错跟等情况，则与该点对应的三维坐标距离计算均会出现较大偏差，则很容易判别并校正错误项。如虚线所示，对于部分应关联而未关联到的漏跟现象，该方法也能够展现出色的效果。该校验方法在基于融合特征相关性的多目标跟踪结果的基础上进一步减少了多目视觉跟踪过程中偶然出现的错跟、漏跟现象，使跟踪准确率和成功率进一步提升。

在本实施例中，所述利用所述跟踪匹配后的融合特征更新特征池，其中包括：设置单个目标在特征池中的存储上限S；根据特征池存储情况加入所述该帧下新的行人跟踪结果并删除原有的旧特征。

具体的，所述根据特征池存储情况更新特征池，包括：如图8所示的，在每一帧的关联匹配结束后，将该帧下每个目标ID的所有新关联特征添加进特征池中；若特征池中目标ID的特征数量超过S，则在添加新特征前淘汰最早添加的特征，使特征数量维持在存储上限；若当前帧未出现新关联特征，则维持现有特征。特征流动如公式所示，其中，X _T,C 为特征池中某行人特征集合；t为时刻编号；c为相机视角编号；X _new为新增特征；X _del为待删除旧特征；N为现有特征数；W为新增特征数；D为需删除特征数；/>为特征流动完成后特征池中该行人特征集合；/>为集合中的第N个特征。在本实施例中，单个目标在特征池中最大存储数量S会影响关联成功率。设置S=50能在减少计算次数的情况下使特征池保持适宜的特征更新速率。

在本实施例中，所述融合特征池更新，其中，对已关联到的目标ID，当出现目标在各视角中完全消失、完全受遮挡等情况时，特征池中的存储特征不会随时间和环境的变化而被污染，也不会因状态空间问题而对后续的关联匹配产生影响。因此，当该目标重现时，该框架能够重新跟踪并关联到之前的ID中，有效避免ID跳变、跟踪漂移等问题。

在本实施例中，所述基于GMM高斯混合模型提取具有代表性的特征模板，以用于下一帧的特征关联，其中包括：设置初始参数；设置所需特征模板数量K；获取Q函数，并将初始参数代入计算；获取下一时刻的各高斯分布；根据所述高斯分布结果，提取该行人所有代表性特征，用于下一次特征关联。

具体的，所述利用高斯混合模型提取特征模板，其目的在于解决多目视觉下目标行人动作随时间发生动态变化，目标行人图像存在遮挡、背景变换、相对位置变化所带来的跟踪问题，提高行人跟踪的准确性与成功率。将不同视角、不同时间点下的行人特征收集为高斯分量的混合物，每个分量从不同方面表达行人特征，使从特征池中选出的特征模板持续适用于当前环境和状态下的多视角多目标跟踪。

所述获取高斯分量的混合物，其中包括：第一，设置初始参数：各高斯分布、均值与协方差矩阵可初始化为/>。其中X _T,C为特征池中某行人特征；T为特征所处时间；C为特征所处的视角编号；隐变量Z _H为特征所属高斯分布的类别；H为特征对应的行人ID；K为该行人所需提取的特征模板数量；第二，设置所需特征模板数量K：如图9所示的，当特征池中存在大于K’个特征时，选取K个特征作为下一帧关联匹配的特征模板，否则直接取现有全部K’个特征。在本实施例中，为在选取到足够代表性特征的同时尽量减少特征相似度计算次数，设置K=10；在新增目标中，目标特征较为相似，需要存储更多不同因素影响下的特征，因此设置K’=15适当增加初始阶段存储数量以保持足够的泛化能力；第三，获取Q函数：，/>为第i次迭代后参数的估计值；/>是隐变量在当前参数下的后验概率。其内部所有参数都已确定，因此将其用新变量/>；获取下一时刻的各高斯分布：/>；根据所述高斯分布结果，提取出的该行人所有代表性特征x _t,c，完成特征模板的选取。

在本实施例中，所述基于SMPL人体模型提取其2D姿态点，其中包括：基于MVSPIN人体渲染模型提取行人的6890个人体表面姿态点坐标矩阵；获取SMPL基础模型关节回归先验矩阵；根据所述两个矩阵计算目标行人的24个3D预测姿态点坐标，并获取所预测的相机矩阵；根据所述预测相机矩阵将24个3D预测姿态点坐标还原至同视角原图像中，获取24个2D姿态点坐标。

具体的，输入所有已关联行人的二维图像，通过MVSPIN姿态检测模型能够得到基于平面图像每个目标的SMPL人体渲染模型。具体的，本实施例中的获取3D预测姿态点坐标的具体方式，可以理解为：在渲染模型中，可以得到6890个人体表面姿态点坐标矩阵；同时，提取SMPL基础模型中的关节回归先验矩阵，其为一个稀疏矩阵，包含了人体关节之间的相对位置信息，能够帮助模型更准确地估计人体姿态。通过两个矩阵即可计算SMPL通用人体模型中一组24个3D预测姿态点坐标，如公式，式中，JRP为基础模型的关节回归先验矩阵，Vertices为SMPL模型生成的人体表面姿态点坐标，所得到的/>为24个姿态点三维坐标。所述MVSPIN模型基于单视图预测三维姿态会存在纵向深度方向上的误差，且不同视角图像由于拍摄角度、遮挡、背景环境不同，所预测出的3D姿态也会与实际产生偏离。因此本实施例中通过每个目标SMPL模型构建过程中生成的预测相机矩阵，将三维预测坐标还原至原图像的二维平面中，以消除可能的误差。

所述将三维预测坐标还原至原图像的二维平面中，其中包括：如图10所示的，构建一个四维单位矩阵将模型所述预测的1×3三维相机参数转换为3×4的相机预测矩阵；对所述3D预测姿态点增加维度至四维后进行矩阵变换，将24×4的姿态点矩阵转换为1×24×4×1；将所述经矩阵变换的姿态点矩阵与所述相机预测矩阵相乘，得到相机方向上的姿态点坐标矩阵，其维度为1×24×3×1；舍弃所述相机方向的姿态点坐标矩阵的深度维度，并通过矩阵变换为不包含相机预测参数的2D姿态点坐标，其维度为24×2。不同于从图像表面关联姿态点，从三维人体模型通过计算还原2D姿态点不仅保证了一组姿态点的完整性，同时将行人的厚度考虑在内，使得各视角下的同一姿态点投影至三维空间后与真实位置更加接近。通过从3D预测姿态点利用预测相机矩阵还原至2D姿态点，消除模型预测数据所带来的影响。

本实施例中，所述通过多相机视角投影至三维空间中，其中：由于在多视角下进行3D姿态点的跟踪，因此无需使用姿态估计模型所预测的深度数据，仅利用各视角垂直投影的2D坐标进行相机矩阵投影来计算三维空间坐标。如图11所示的输入各单视角的2D姿态点坐标，利用各视角的真实相机矩阵进行三角剖分来获取最终在空间场中的3D姿态坐标。相较于通过图像表面的姿态点关联，该坐标能够真实反映行人在空间中的位置，对于轨迹预测、空间建模等应用具有现实意义。

本发明实施例公开了一套多目视觉下基于融合特征的行人3D姿态点跟踪方法，能够提高行人跟踪与3D姿态点检测的准确率与成功率。在各视角下识别并定位多目标行人边界框坐标；通过行人边界框坐标提取对应目标行人图像的融合特征；对融合特征进行关联、补充与校验，实现目标行人的跟踪匹配；利用所述跟踪匹配后的目标特征更新特征池并提取特征模板，用于下一次跟踪匹配；利用目标行人跟踪匹配结果，基于SMPL人体模型提取其2D姿态点并通过多相机视角投影至三维空间中，实现完整、精确的行人3D姿态点跟踪。本发明适用于密集行人场景中的行人定位与姿态点跟踪。其中，本实施例通过所得到的不包含预测数据的2D姿态点，利用真实相机矩阵将其重新投影至三维空间，获取真实的3D姿态坐标，该坐标不包含预测数据，且由于是基于SMPL人体模型通过矩阵计算得到的姿态点，该姿态点考虑了人体厚度的情况，更贴近于真实的3D姿态。此外，基于SMPL计算得到的姿态点不同于表面关联，该姿态点组数量完整，且已经提前与目标关联，避免了多出无ID的单个姿态点以及产生重复关联的姿态点等问题。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多目视觉下基于融合特征的行人3D姿态点跟踪方法，其特征在于，包括：

S1、识别不同视角下的同一个行人，并获取每一个行人在所出现的视角中的边界框，其中，不同视角下的相同行人对应同一个行人标识，一个行人标识对应多个边界框坐标；

S3、对所述融合特征进行预处理后，对行人进行跟踪匹配；

2.根据权利要求1所述的方法，其特征在于，所述从所确定的边界框对应的目标图像中，提取行人的融合特征，包括：

其中，通过聚合除主特征之外的其余特征信息得到该分区i的相关性特征f _i：，i, j为分区级特征编号；R为一个由1×1卷积、批量归一化和ReLU层组成的子网络；/>表示第i个主特征；/>表示对特征进行平均池化操作；/>表示特征与特征的串联；/>为除分区i外所有分区级特征串联后进行平均池化得到的聚合特征；获取全局对比特征f ₀的方式包括：/>，对比特征P _cont和最大池化特征P _max通过卷积操作得到/>和/>，对比特征P _cont为最大池化特征P _max与平均池化特征P _avg的差值。

3.根据权利要求1所述的方法，其特征在于，S3中，包括：对所述融合特征进行预处理，对行人进行跟踪匹配

利用特征模板计算同一帧中所有融合特征的相似度矩阵，并通过计算结果关联各视角下的行人；

对关联结果进行校验，排除错误结果并补充遗漏结果，获取该帧下的目标行人跟踪结果，其中，若出现新增的行人则补充进关联结果。

4.根据权利要求3所述的方法，其特征在于，所述利用特征模板计算同一帧中所有融合特征的相似度矩阵，并通过计算结果关联各视角下的行人，包括：

选取查询项与匹配项并计算二者的距离，得到特征相关相似度矩阵，其中，对以所述特征模板作为一组查询项Query，以新出现的所有未关联特征作为匹配项Gallery；

采用动态阈值策略，基于K-means计算行人特征关联匹配的动态阈值，之后将满足阈值且K-means聚类中心最小的一组结果作为该目标的关联结果。

5.根据权利要求4所述的方法，其特征在于，所述动态阈值策略，包括：

建立相似度模型：，其中，基于K-means对所述特征相关相似度矩阵进行第一次聚类，初始相似度矩阵为/>，p为目标ID，t为当前时刻，m为一组Query数量，n为当前帧所有Gallery数量，所需类别数量为2，/>表示相似度结果，[,:]为列向量操作运算符，K_min为取K-means后聚类中心最小一类的所有元素，Avg为取平均值运算符；

利用所述相似度模型计算动态阈值：，其中，threshold为初始固定阈值；

之后在第一次聚类结果的基础上进行第二次聚类，所需类别数量为2，，[:]为行向量操作运算符；/>为最终选出的成功关联项作为目标p的关联结果。

6.根据权利要求3所述的方法，其特征在于，是否出现新增的行人的检测过程包括：

若检测到当前帧对应的所有视角中，有60%以上的视角的图像中出现两个以上的未关联特征，则触发行人新增判定；

对未关联特征进行相似度矩阵计算，得到一个n阶方阵,n为所述未关联特征的数量；

当出现至少两个特征存在于至少两个视角，且相似度矩阵计算结果低于动态阈值时，判定出现新增行人。

7.根据权利要求1所述的方法，其特征在于，在S3之后，还包括：

利用所述跟踪匹配后的融合特征更新特征池并提取特征模板，所提取的特征模板用于下一次跟踪匹配；

其中，在利用所述跟踪匹配后的融合特征更新特征池并提取特征模板的过程中，包括：

设置单目标特征存储上限，并对特征池中现有的特征进行更新，从而完成特征池的特征流动过程；

基于GMM高斯混合模型提取具有代表性的特征模板。

8.根据权利要求7所述的方法，其特征在于，所述特征池的特征流动过程，包括：

设置单个目标在特征池中的存储上限S；根据特征池存储情况加入新的行人跟踪结果并删除原有的旧特征，其中包括：， X _T,C为特征池中某一个行人的特征集合，t为时刻编号，c为相机视角编号，X _new为新增特征；X _del为待删除旧特征，M为现有特征数，W为新增特征数，D为需删除特征数；/>为特征流动完成后特征池中该行人特征集合；/>为集合中的第N个特征。

9.根据权利要求7所述的方法，其特征在于，所述基于GMM高斯混合模型提取具有代表性的特征模板，包括：

在初始参数设置后，设置所需特征模板数量K：当特征池中存在大于K’个特征时，选取K个特征作为模板，K’＞ K；

10.根据权利要求9所述的方法，其特征在于，在S4中，通过SMPL人体模型提取行人的2D姿态点，包括：

提取行人的6890个人体表面姿态点坐标矩阵，并获取SMPL基础模型关节回归先验矩阵；

根据两个矩阵计算目标行人的24个3D预测姿态点坐标，并获取所预测的相机矩阵；

根据所预测的相机矩阵将24个3D预测姿态点坐标还原至同视角原图像中，获取24个2D姿态点坐标；

其中，获取24个2D姿态点坐标的方式包括：

构建四维单位矩阵将所述预测的1×3三维相机参数转换为3×4的相机预测矩阵；对所述3D预测姿态点增加维度至四维后进行矩阵变换，将24×4的姿态点矩阵转换为1×24×4×1；

将经矩阵变换的姿态点矩阵与所述相机预测矩阵相乘，得到相机方向上的姿态点坐标矩阵，维度为1×24×3×1；

舍弃所述相机方向的姿态点坐标矩阵的深度，并通过矩阵变换为不包含相机预测参数的2D姿态点坐标，维度为24×2。