CN114037950A

CN114037950A - 一种基于行人和头部检测的多行人跟踪方法及装置

Info

Publication number: CN114037950A
Application number: CN202111245220.7A
Authority: CN
Inventors: 陈军; 孙志宏; 梁超; 陈金; 柴笑宇; 王晓芬; 叶钰; 高�浩; 胡皓威
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-11

Abstract

本发明提供了一种基于行人和头部检测的多行人跟踪方法及装置，其中的方法包括：首先分别采用行人检测器和头部定位算法定位出图像中的行人和头部，得到行人检测框和头部检测框；其次设计一种关联模型，对同一行人的头部检测框和行人检测框进行关联，得到新的行人检测框集合；然后通过将新的行人检测框集合转化成头部检测框，采用头部跟踪方式进行多行人跟踪；最后将得到的头部轨迹转化成行人轨迹。本发明提出的方法解决了拥挤场景中因为遮挡导致行人漏检误检等问题，可以有效因局部遮挡导致行人检测框漏检，有效地改善了拥挤场景中多行人检测质量，提升了跟踪的准确度。在对实际监控数据集的定量和定性测试中，都佐证了本发明所提方法的有效性。

Description

一种基于行人和头部检测的多行人跟踪方法及装置

技术领域

本发明涉及监控目标跟踪技术领域，尤其涉及一种基于行人和头部检测的多行人跟踪方法及装置。

背景技术

多目标跟踪的任务是给定一段视频，输出视频中所有出现的目标的轨迹。跟踪目标的类别可以是行人、车辆和动物等。行人是非刚体，有着可变形等性质，在跟踪过程中容易产生形变等问题，研究行人跟踪对于对目标跟踪而言是较好的目标例子。其次监控场景中行人跟踪有着广泛的应用，可应用于多媒体分析、视觉监控和体育分析等。作为计算机视觉领域中的中级任务，多行人跟踪一直是研究学者们研究的重点。

基于检测的多行人跟踪是目前多行人跟踪领域最主流的框架，其采用行人检测器对输入视频图像帧进行行人检测，然后提取行人的外观特征进行数据关联，并得到最终的运动轨迹。简单场景中，采用最先进的行人检测器对场景中的行人可以较好的定位，使得跟踪器取得较好的性能。但是在拥挤场景中，行人之间存在大量遮挡，使得被遮挡的行人难以检测出来，进而影响了场景中整体的检测性能，最终导致跟踪准确率不高。因此针对拥挤场景的检测定位对于多行人跟踪准确率来说具有十分重要作用。

相关研究学者通过融入头部定位来提高多目标跟踪准确率。有相关研究者采用行人检测器和头部检测器分别对数据集图像进行检测，最终得到某一帧中两种不同检测结果集合。然后对于这两种不同的检测集合，采用两条不同的网络流进行关联。另外，有作者采用基于图模型的数据关联方法对行人检测结果和头部检测结果进行关联，然后采用Frank-Wolfe算法来求得最优解。其他研究中考虑加入额外的检测信息，即头部检测结果，并将数据关联问题用图模型建模，用最小网络最大流进行建模。此外，还有作者在行人检测结果之上，增加了额外的头部检测结果。然后分别采用SORT跟踪器对这两种不同检测结果进行跟踪，最后融合这两种跟踪结果得到最终轨迹。虽然他们都利用了头部定位信息，但是他们都是讲头部定位和行人检测视为两个平行的检测结果，分别进行跟踪，最后对这两个跟踪结果进行融合(相关文献见实审参考资料)。现有技术中的上述方法，虽然在一定程度上能解决遮挡问题，但是增加了跟踪器处理时间，难以满足实时性需求。此外，拥挤场景中，行人检测器有很多误检，这样导致基于全身检测器的跟踪结果也存在很多误跟问题，对最终跟踪结果带来一定影响。

发明内容

本发明提出一种基于行人和头部检测的多行人跟踪方法及装置，用于解决或者至少部分解决现有技术中存在的跟踪准确率不高的技术问题。

为了解决上述技术问题，本发明第一方面公开了一种基于行人和头部检测的多行人跟踪方法，包括：

S1：分别利用行人检测器和头部跟踪器对场景目标进行定位，得到行人检测结果和头部检测结果；

S2：采用关联融合模式将同一行人的头部检测框和行人检测框进行融合得到新的行人检测框集合；

S3：根据行人检测框与头部检测框之间的关系，将新的行人检测框集合中行人检测框转化为头部检测框，转化后得到的头部检测框构成新的头部检测框集合；

S4：采用头部跟踪方法，对新的头部检测框集合中相邻帧的头部检测框的数据进行关联，得到头部轨迹集合；

S5：根据行人检测框与头部检测框之间的关系，将头部轨迹集合中每条头部轨迹上的头部检测框转化为行人检测框，得到最终的行人轨迹。

在一种实施方式中，步骤S1包括：

S1.1：采用行人检测器对视频图像帧进行检测，获得每帧行人检测结果，行人检测结果包括行人检测框；

S1.2：将行人检测器在CrowdHuman数据集上训练，训练好后的行人检测器作为头部跟踪器，通过头部跟踪器对视频图像进行逐帧检测，获得每帧头部检测结果，头部检测结果包括头部检测框。

在一种实施方式中，步骤S2包括：

S2.1：根据每一个行人检测框与头部检测框的空间位置距离、行人检测框与头部检测框之间的覆盖率，得到匹配代价；

S2.2：基于匹配代价，采用匈牙利匹配算法对行人检测框与头部检测框进行匹配，得到匹配结果，并根据匹配结果对头部检测框和行人检测框进行融合，得到新的行人检测框集合。

在一种实施方式中，步骤S2.1中匹配代价的计算方式为：

Cost_f＝γ*Cost_d+(1-γ)*Cost_IOU,

其中，Cost_f为行人检测框与头部检测框之间的匹配代价，γ为权衡因子， Cost_d为行人检测框与头部检测框的空间位置距离，Cost_IOU为行人检测框与头部检测框之间的覆盖率，Cost_d和Cost_IOU计算公式分别如下：

与

分别为第i个行人检测框和第j个头部检测框的y坐标，BB(head) 与BB(body)分别代表头部检测框和行人检测框。

在一种实施方式中，步骤S2.2包括：

S2.2.1：根据匈牙利匹配算法的最优解得到头部检测框与行人检测框一一对应的匹配对，对于匹配到头部检测框的行人检测框，将对应的行人检测框加入新的行人检测框集合；

S2.2.2：对于未匹配到头部检测框的行人检测框，如果置信度超过第一阈值，则对应的行人检测框加入新的行人检测框集合；

S2.2.3：对于未匹配到行人检测框的头部检测框，如果置信度超过第二阈值，则根据行人检测框与头部检测框之间的关系构造出与之对应的行人检测框，然后将构造后的行人检测框加入新的行人检测框集合。

在一种实施方式中，步骤S3中，行人检测框与头部检测框之间的关系为：

其中

为第j个行人检测框的位置信息，

为第i个头部检测框的位置信息，其中

为行人检测框的坐标信息，

为行人检测框的宽和高信息，

为头部检测框的坐标信息，

为头部检测框的宽度和高度，C1和C2为参数，分别表示行人检测框与头部检测框的宽的比例和高的比例，Z和β为线性回归模型的参数，其中Z表示行人检测框坐标与头部检测框坐标的比例关系，β为偏置。

在一种实施方式中，S4包括：

S4.1：根据当前帧的头部检测框与目标轨迹在上一帧的头部检测框的覆盖率、当前帧的头部检测框与目标轨迹在上一帧的头部检测框之间的尺寸关系，得到两个头部检测框之间的匹配代价；

S4.2：基于匹配代价，采用匈牙利匹配算法对当前帧的头部检测框与目标轨迹在上一帧的头部检测框进行匹配，得到匹配结果，并根据匹配结果得到头部轨迹集合。

在一种实施方式中，步骤S4.1中匹配代价的计算方式为：

Cost＝δ*Cost_s+(1-δ)*Cost′_IOU,

其中，Cost为当前帧的头部检测框与头部轨迹之间的匹配代价，头部轨迹为目标轨迹在上一帧的头部检测框，Cost_s为当前帧的头部检测框与目标轨迹在上一帧的头部检测框之间的宽高尺寸关系，δ为权衡因子，Cost′_IOU为当前帧的头部检测框与目标轨迹在上一帧的头部检测框之间的覆盖率。

在一种实施方式中，步骤S4.2包括：

S4.2.1：根据匈牙利匹配算法的最优解得到前帧的头部检测框与头部轨迹之间的目标对，对于匹配到头部检测框的头部轨迹，根据当前帧的头部检测框进行更新；

S4.2.2：对于未匹配成功的头部轨迹，将状态设置为中止，并将其ID加入到消失头部集合；

S4.2.3：对于未匹配成功的头部检测框，对其初始化，并赋予新的轨迹ID，将其加入头部轨迹集合中。

基于同样的发明构思，本发明第二方面公开了一种基于行人和头部检测的多行人跟踪装置，包括：

检测模块，用于分别利用行人检测器和头部跟踪器对场景目标进行定位，得到行人检测结果和头部检测结果；

融合模块，用于采用关联融合模式将同一行人的头部检测框和行人检测框进行融合得到新的行人检测框集合；

第一转化模块，用于根据行人检测框与头部检测框之间的关系，将新的行人检测框集合中行人检测框转化为头部检测框，转化后得到的头部检测框构成新的头部检测框集合；

关联模块，用于采用头部跟踪方法，对新的头部检测框集合中相邻帧的头部检测框的数据进行关联，得到头部轨迹集合；

第二转化模块，用于根据行人检测框与头部检测框之间的关系，将头部轨迹集合中每条头部轨迹上的头部检测框转化为行人检测框，得到最终的行人轨迹。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于行人和头部检测的多行人跟踪方法，先利用行人检测器和头部定位算法分别对场景目标进行定位得到行人检测框和头部检测框，然后采用关联融合模式将同一行人的头部检测框和行人检测框进行融合得到最终新的检测框集合，其次将新的检测框集合转化为头部检测框集合，并采用头部跟踪方法，得到头部轨迹。最后将头部轨迹中的头部检测框转化成行人检测框，得到最终的行人轨迹。与现有方法大多使用行人检测定位相比，本发明能够有效地对遮挡目标进行定位，改善了多行人跟踪中目标检测能力和提高了多行人跟踪准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体框架图；

图2为本发明实施例中行人检测框和头部检测框的融合过程示意图。

具体实施方式

针对现有技术中的方法中存在跟踪准确率不高问题，本发明提供了一种基于行人和头部检测的多行人跟踪方法及装置。

本发明的主要发明构思如下：

分别利用行人检测器和头部检测算法对视频图像帧进行检测，定位出场景中的行人和头部。然后学习一种行人检测和头部定位关联学习机制，将头部检测结果和行人检测结果进行融合。接着将融合后的检测结果以头部检测框形式进行表达(即，将采用关联融合模式将同一行人的头部检测框和行人检测框进行融合得到新的行人检测框集合，并将新的行人检测框集合中行人检测框转化为头部检测框)，并送入到跟踪器中，通过采用匈牙利匹配算法，计算头部检测框之间的IOU 值(覆盖率)为关联代价，得到最终匹配的结果。最后根据头部和行人检测框之间转化关系，将头部轨迹转化为行人轨迹。

本发明提出的方法解决了拥挤场景中因为遮挡导致行人漏检误检等问题，可以有效因局部遮挡导致行人检测框漏检，有效地改善了拥挤场景中多行人检测质量，提升了跟踪的准确度。在对实际监控数据集的定量和定性测试中，都佐证了本发明所提方法的有效性。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于行人和头部检测的多行人跟踪方法，包括：

具体来说，本发明先利用行人检测器和头部定位算法分别对场景目标进行定位得到行人检测框和头部检测框，然后采用关联融合模式将同一行人的头部检测框和行人检测框进行融合得到最终新的检测框集合，其次将新的检测框集合转化为头部检测框集合，并采用头部跟踪方法，得到头部轨迹。最后将头部轨迹中的头部检测框转化成行人检测框，得到最终的行人轨迹。

请参见图1，图1为本发明的整体框架图。

步骤S1：行人检测和头部检测。其中行人检测，可以利用主流的目标检测算法对视频图像进行逐帧检测，得到行人检测结果，即行人检测框集合B,B＝ {B₁,B_2,…,B_t,…}；其中B_t为t帧上的行人检测框集合。

头部检测可以利用目标检测算法对视频图像进行逐帧检测，得到头部检测结果，即头部检测框集合D，D＝{D₁,D_2,…,D_t,…}；其中D_t为t帧上的行人检测框集合。

步骤S2：融合头部检测和行人检测。通过对每一帧上的行人检测框集合B_t与头部检测框集合D_t，采用匈牙利算法进行关联。

步骤S3：将每一帧上的行人检测框转化为头部检测框。

步骤S4：相邻帧的头部检测框数据关联。

步骤S5：将每条头部轨迹上的检测框转化为行人检测框。

在一种实施方式中，步骤S1包括：

具体实施过程中，行人检测器为用主流的目标检测算法。训练好后的行人检测器即为利用目标检测算法在CrowdHuman数据集上进行训练得到的模型， CrowdHuman数据集是旷世发布的用于行人检测的数据集，图片数据大多来自于 google搜索。

在一种实施方式中，步骤S2包括：

本实施方式中，将这两个检测的运动信息(即行人检测框和头部检测框的信息)作为关联线索来计算每一个行人检测框和头部检测框之间的代价Cost，即计算每一个行人检测框和头部检测框的空间位置距离和他们之间的覆盖率。匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法。

在一种实施方式中，步骤S2.1中匹配代价的计算方式为：

Cost_f＝γ*Cost_d+(1-γ)*Cost_IOU,

与

在一种实施方式中，步骤S2.2包括：

请参见图2，为本发明实施例中行人检测框和头部检测框的融合过程示意图关联成功即匹配成功。

具体实施过程中，第一阈值和第二阈值可以根据实际情况进行设置。对于t 帧上未匹配到头部检测框的行人检测框，如果其置信度超过0.6，则认为其是正确的行人检测框，可能头部不可见，则将其加入到新的行人检测框集合

中，再进一步通过步骤S3的转化关系构造出其头部检测框。对于t帧上未匹配到行人检测框的头部检测框，如果其置信度超过0.7，则认为其是有效的头部检测框，可能身体被遮挡不可见，再进一步通过步骤S3转化关系来构造出其行人检测框，再将转化得到行人检测框加入到新的行人检测框集合

中。

其中

为第j个行人检测框的位置信息，

为第i个头部检测框的位置信息，其中

为行人检测框的坐标信息，

为行人检测框的宽和高信息，

为头部检测框的坐标信息，

具体实施过程中，可以采用MOT2020数据集里面的行人检测框和头部检测框之间关系进行训练得到Z和β。

在一种实施方式中，S4包括：

具体来说，步骤S4.1～S4.2是将相邻帧的头部检测框进行数据关联的实现步骤。对S3中转化后得到的头部检测框采用匈牙利算法进行关联得到头部轨迹，匹配代价(关联代价)主要是利用头部检测框的覆盖率和尺寸关系。

在一种实施方式中，步骤S4.1中匹配代价的计算方式为：

Cost＝δ*Cost_s+(1-δ)*Cost′_IOU,

当前帧的头部检测结果i即为当前帧的头部检测框，目标轨迹j在上一帧的头部检测框即为头部轨迹，

在一种实施方式中，步骤S4.2包括：

S4.2.3：对于未匹配成功的头部检测框，对其初始化，并赋予新的轨迹ID，将其加入新的头部轨迹集合中。

具体来说，S4.2是进行跟踪管理。根据匈牙利最优化得到最优解，返回一对、头部检测框与头部轨迹一一匹配成功的目标对。对于匹配成功的头部轨迹，则对其进行更新(即利用t帧的头部检测结果来更新与之成功匹配的头部轨迹)；对于未匹配成功的头部轨迹则暂定更新；对于未匹配成功的头部检测框，则认为其是新的头部轨迹，初始化并加入到新的头部轨迹集合中。

重复执行步骤S2-S5，直至到视频帧结束。

步骤S5中将每条头部轨迹上的检测框转化为行人检测框，采用的转化关系与步骤S3相同，在此不再赘述。

相对于现有技术，本发明的有益效果是：

1)与现有技术相比，本发明解决了多行人跟踪在拥挤场景中无法处理漏检和误检等问题。本发明设计的融合行人和头部检测可以有效检测出被局部遮挡的行人，提升了多行人检测精度，改善了多行人跟踪准确率。

2)本发明采用头部跟踪策略，考虑到拥挤场景中，行人检测框互相重叠遮挡，对关联带来一定的影响，而拥挤中头部检测框之间重叠较少，通过头部跟踪，可以有效地提高关联精度，提升了跟踪准确率。设计的头部跟踪策略，简单有效，使得本发明在实际工程中实现更加容易，提高了工程效率。

实施例二

基于同样的发明构思，本实施例提供了一种基于行人和头部检测的多行人跟踪装置，包括：

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于行人和头部检测的多行人跟踪方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。