CN111627045B

CN111627045B - 单镜头下的多行人在线跟踪方法、装置、设备及存储介质

Info

Publication number: CN111627045B
Application number: CN202010374066.2A
Authority: CN
Inventors: 李昆明; 冯琰一; 李德紘; 张少文
Original assignee: PCI Technology Group Co Ltd
Current assignee: PCI Technology Group Co Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2021-11-02
Anticipated expiration: 2040-05-06
Also published as: WO2021223367A1; CN111627045A

Abstract

本申请实施例公开了一种单镜头下的多行人在线跟踪方法、装置、设备及存储介质。在单路视频流的每帧画面得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；计算目标框对应的行人身份重定位特征向量；根据目标框的位置和行人身份重定位特征向量计算所述目标框与目标跟踪器的位置损失代价和行人重定位损失代价；根据位置损失代价和行人重定位损失代价计算综合损失代价；根据综合损失代价计算轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；根据匹配关系、位置损失代价和身份重定位损失代价，基于行人检测框、卡尔曼跟踪框和单目标跟踪框生成轨迹跟踪框。在同一镜头下，对行人行走时的短时完全遮挡，能够形成有效的跟踪。

Description

单镜头下的多行人在线跟踪方法、装置、设备及存储介质

技术领域

本发明涉及视频图像跟踪领域，尤其涉及一种单镜头下的多行人在线跟踪方法、装置、设备及存储介质。

背景技术

近些年，随着图像技术的不断发展，行人跟踪功能被逐渐应用于监控安防、智慧零售、智慧城市等领域。对于诸如道路卡口、商场、门店等区域，往往通过设置监控摄像头来对来往人群进行监视。可以利用行人跟踪技术对监控图像的所有来往行人进行持续检测，对同一行人持续跟踪。目前，通过行人检测技术逐帧抽取监控图像或抽取部分帧监控图像，并在抽取的监控图像中标识行人框。利用从各行人框提取的特征向量，对所有监控图像中的行人框进行匹配，以获得行人跟踪结果。

发明人在实现行人跟踪过程中发现，在进行行人跟踪时，由于检测模型性能不稳定、行人的非刚性属性以及外观相似容易导致跟踪目标的身份切换。

发明内容

本申请实施例提供一种单镜头下的多行人在线跟踪方法、装置、设备及存储介质，以消除各种异常场景下可能导致的跟踪目标身份切换问题。

第一方面，本申请实施例提供了一种单镜头下的多行人在线跟踪方法，包括：

在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；

计算每帧画面中的目标框对应的行人身份重定位特征向量；

根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器的位置损失代价和行人重定位损失代价；

根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；

根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；

根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。

其中，所述位置损失代价L_location通过以下公式计算：

L_location＝1-f_location(A₁,A₂)

f_location(A₁,A₂)＝f_d(A₁,A₂)+f_iou(A₁,A₂)

其中，A₁表示目标框，A₂表示所述轨迹跟踪器中记录的目标跟踪框，

表示A₁和A₂的中心点欧氏距离，β表示

的权重，T表示根据视频帧率确认的判断阈值；

所述行人重定位损失代价L_appearance通过以下公式计算：

L_appearance＝1-cos(x_box,i,x_trace,j)

x_box,i＝F(IA_i)

其中，x_box,i表示所述目标框对应的行人身份重定位特征向量，x_trace,j表示所述轨迹跟踪器记录的外观特征，F()表示行人身份重定位特征向量提取器，IA_i表示目标框对应的图像。

其中，所述综合损失代价L通过以下公式计算：

L＝αL_location+(1-α)L_appearance

其中，α表示位置损失代价的权重，1-α表示行人重定位损失代价的权重。

其中，所述轨迹跟踪器对应于所述行人检测框、卡尔曼跟踪框和单目标跟踪框的综合损失代价分别通过三个综合损失代价矩阵Q_d、Q_k和Q_s表示，Q_i是一个m x n_i的矩阵，其中，m表示目标跟踪框的数量，n_i表示目标框的数量，d、k和s分别表示行人检测框、卡尔曼跟踪框和单目标跟踪框，i∈{d，k，s}；

对应的，所述根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系，包括：

将所述综合损失代价矩阵中大于设定阈值的第一矩阵元素值修改为预设的第一标准值；

对所述综合损失代价矩阵Q_i求解最小关联成本得到对应的单一匹配关系P_i；

根据所述单一匹配关系计算初次匹配关系P；

对所述初次匹配关系P中没有关联关系的轨迹跟踪器和目标框通过二次匹配代价函数进行二次匹配得到二次匹配关系P'；

将所述初次匹配关系P和二次匹配关系P'的并集作为最终的匹配关系。

其中，所述初次匹配关系P通过以下公式计算：

P＝f_r(x_t,A_t,<P_i>,<A_i>,<x_i>),i∈(d,k,s)

其中,<T_i>表示<T_d，T_k，T_s>的输入集合，f_r表示匹配关系计算函数，ξ_t表示所述轨迹跟踪器记录的外观特征，A_t表示所述目标跟踪框，A_i表示所述目标框，ξ_i表示所述目标框对应的行人身份重定位特征向量。

其中，所述二次匹配代价函数L₂表述如下：

L₂＝γ×f_iou(TL₁,AL₁)+(1-γ)×f_motion

其中，TL₁和AL₁分别表示P中没有匹配的目标跟踪框和没有匹配的目标框，

分别表示目标跟踪框的运动矢量和目标跟踪框与目标框之间的运动矢量，函数f_v()表示

之间的相似度，γ表示f_iou(TL₁,AL₁)的权重，1-γ表示f_motion的权重；

对应的，所述对所述初次匹配关系P中没有关联关系的轨迹跟踪器和目标框通过二次匹配代价函数进行二次匹配，具体为：

将所述二次匹配代价函数计算得到的二次损失代价矩阵中大于设定阈值的第二矩阵元素值修改为预设的第二标准值；

对所述二次损失代价矩阵求解最小关联成本得到对应的二次匹配关系P'。

其中，所述根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的目标跟踪框，具体为：

通过TA＝f_box(<Q_i>,Q₂,TP,<A_i>,A_t,<x_i>,x_t),i∈(d,k,s)计算当前帧的轨迹跟踪框；

其中TA表示当前帧的轨迹跟踪框，TP表示匹配关系，f_box()表示轨迹跟踪框的计算函数,Q₂表示所述二次损失代价矩阵。

其中，所述方法还包括：

通过

更新所述轨迹跟踪器中的外观特征；

通过

更新所述卡尔曼跟踪器；

通过

更新所述单目标跟踪器；

其中，

表示更新后的外观特征，

表示更新前的外观特征，

表示TA对应的图像块的外观特征，λ表示更新系数，f_kalmanUpdate表示卡尔曼跟踪器更新函数，f_singleUpdate表示单目标跟踪器更新函数。

其中，所述方法还包括：

通过

更新

其中，f_updateMotion表示目标跟踪框的运动矢量的更新函数，TBstaleness表示更新前的轨迹跟踪器的目标跟踪框，TA表示当前帧的轨迹跟踪框。

其中，所述方法还包括：

通过TB_update＝f_{traceBoxUpdate}(TA，TB_staleness)对所述目标跟踪框进行更新；

其中，f_{traceBoxUpdate}表示目标跟踪框更新函数，TA表示当前帧的轨迹跟踪框，TBstaleness表示更新前的轨迹跟踪器的目标跟踪框。

其中，所述方法还包括：

如果当前帧的行人检测框没有匹配到轨迹跟踪器，则用当前帧的行人检测框以及对应的行人身份重定位特征向量新建候选轨迹跟踪器；

当所述候选轨迹跟踪器在设定帧区间中跟所述目标框的匹配数量大于第一阈值，且连续匹配数量大于第二阈值，则将所述候选轨迹跟踪器确认为轨迹跟踪器。

其中，所述方法还包括：

对匹配结果为空的轨迹跟踪器，根据关联关系函数与候选轨迹跟踪器进行关联匹配；

对匹配结果为空的候选轨迹跟踪器，根据关联关系函数与轨迹跟踪器进行关联匹配；

当关联匹配的结果大于设定的合并阈值，则将对应的候选轨迹跟踪器和轨迹跟踪器合并。

其中，每个所述轨迹跟踪器记录有对应的目标标识；

所述方法还包括：

实时或连续显示所述目标跟踪框以及对应的目标标识。

第二方面，本申请实施例提供了一种单镜头下的多行人在线跟踪装置，包括：

检测单元，用于在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；

特征计算单元，用于计算每帧画面中的目标框对应的行人身份重定位特征向量；

代价计算单元，用于根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器的位置损失代价和行人重定位损失代价；

代价综合单元，用于根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；

关系匹配单元，用于根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；

轨迹生成单元，用于根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。

其中，所述位置损失代价L_location通过以下公式计算：

L_location＝1-f_location(A₁,A₂)

f_location(A₁,A₂)＝f_d(A₁,A₂)+f_iou(A₁,A₂)

表示A₁和A₂的中心点欧氏距离，β表示

的权重，T表示根据视频帧率确认的判断阈值；

所述行人重定位损失代价L_appearance通过以下公式计算：

L_appearance＝1-cos(x_box,i,x_trace,j)

x_box,i＝F(IA_i)

其中，所述综合损失代价L通过以下公式计算：

L＝αL_location+(1-α)L_appearance

根据所述单一匹配关系计算初次匹配关系P；

其中，所述初次匹配关系P通过以下公式计算：

P＝f_r(x_t,A_t,<P_i>,<A_i>,<x_i>),i∈(d,k,s)

其中，所述二次匹配代价函数L₂表述如下：

L₂＝γ×f_iou(TL₁,AL₁)+(1-γ)×f_motion

其中TL₁和AL₁分别表示P中没有匹配的目标跟踪框和没有匹配的目标框，

其中，所述根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框，具体为：

其中，所述装置还包括：

特征更新单元，用于通过

更新所述轨迹跟踪器中的外观特征；

卡尔曼更新单元，用于通过

更新所述卡尔曼跟踪器；

单目标更新单元，用于通过

更新所述单目标跟踪器；

其中，

表示更新后的外观特征，

表示更新前的外观特征，

其中，所述装置还包括：

运动矢量更新单元，用于通过

更新

其中，所述装置还包括：

目标跟踪框更新单元，用于通过TB_update＝f_{traceBoxUpdate}(TA，TB_staleness)对所述目标跟踪框进行更新；

其中，所述装置还包括：

候选新建单元，用于如果当前帧的行人检测框没有匹配到轨迹跟踪器，则用当前帧的行人检测框以及对应的行人身份重定位特征向量新建候选轨迹跟踪器；

候选确认单元，用于当所述候选轨迹跟踪器在设定帧区间中跟所述目标框的匹配数量大于第一阈值，且连续匹配数量大于第二阈值，则将所述候选轨迹跟踪器确认为轨迹跟踪器。

其中，所述装置还包括：

第一匹配单单元，用于对匹配结果为空的轨迹跟踪器，根据关联关系函数与候选轨迹跟踪器进行关联匹配；

第二匹配单元，用于对匹配结果为空的候选轨迹跟踪器，根据关联关系函数与轨迹跟踪器进行关联匹配；

合并单元，用于当关联匹配的结果大于设定的合并阈值，则将对应的候选轨迹跟踪器和轨迹跟踪器合并。

其中，每个所述轨迹跟踪器记录有对应的目标标识；

所述装置还包括：

轨迹显示单元，用于实时或连续显示所述目标跟踪框以及对应的目标标识。

第三方面，本申请实施例提供了一种计算机设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的单镜头下的多行人在线跟踪方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的单镜头下的多行人在线跟踪方法。

本申请实施例通过在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；计算每帧画面中的目标框对应的行人身份重定位特征向量；根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与目标跟踪框的位置损失代价和行人重定位损失代价；根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。在同一镜头下，对行人行走时的短时完全遮挡，能够形成有效的跟踪。

附图说明

图1是本申请实施例提供的一种单镜头下的多行人在线跟踪方法的流程图；

图2是本申请实施例提供的多行人在线跟踪方法的数据处理过程示意图；

图3是本申请实施例提供的一种单镜头下的多行人在线跟踪装置的结构示意图；

图4是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1给出了本申请实施例提供的一种单镜头下的多行人在线跟踪方法的流程图，本申请实施例提供的单镜头下的多行人在线跟踪方法可以由单镜头下的多行人在线跟踪装置来执行，该单镜头下的多行人在线跟踪装置可通过硬件和/或软件的方式实现，并集成在计算机设备中。

下述以单镜头下的多行人在线跟踪装置执行单镜头下的多行人在线跟踪方法为例进行描述。参考图1，该单镜头下的多行人在线跟踪方法包括：

S110：在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框。

在目标跟踪过程中，如果输入图像是第一帧具有目标的图像，那么，使用行人检测器对当前帧进行行人检测，利用检测得到的行人信息初始化轨迹跟踪器、卡尔曼跟踪器和单目标跟踪器。其中轨迹跟踪器是由行人检测器、卡尔曼跟踪器和单目标跟踪器通过设定的规则组合构成。

行人检测器通过行人检测算法，比如传统的Hog，LBP等特征结合SVM分类器构成的行人检测器，或者是通过训练一个深度神经网络得到一个行人检测器，比如Faster-RCNN，YOLO，SSD，retinanet等，对当前输入视频帧进行行人检测，得到当前帧的行人位置信息Rect(x,y,w,h)，置信度score以及Rect(x,y,w,h)对应的图像块，即行人检测框。

卡尔曼跟踪器跟踪的是行人检测框的中心坐标，假设运动关系为f(x，y)，其中，x，y表示目标框的中心坐标，在卡尔曼跟踪过程中，获得目标框的中心坐标，以及目标的运动关系

其中

是运动矢量。

单目标跟踪器，可以是由核相关滤波，staple，或者基于深度神经网络的跟踪器等等构成。

如果输入的不是第一帧含有目标的图像，那么，使用行人检测器对当前帧进行检测，并且由卡尔曼跟踪器，单目标跟踪器分别进行跟踪，获得对应的目标信息。

S120：计算每帧画面中的目标框对应的行人身份重定位特征向量。

行人身份重定位特征向量具有如下特点：行人身份重定位特征向量用于表述行人的特征，其获取方式很多，比如HOG特征，颜色特征，几何特征，基于深度学习网络学习得到的特征等等。本发明优先采用的是基于深度学习网络学习得到的特征。

S130：根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器的位置损失代价和行人重定位损失代价。

在具体实施过程中，所述位置损失代价L_location通过以下公式计算：

L_location＝1-f_location(A₁,A₂)

f_location(A₁,A₂)＝f_d(A₁,A₂)+f_iou(A₁,A₂)

表示A₁和A₂的中心点欧氏距离，β表示

的权重，T表示根据视频帧率确认的判断阈值；

所述行人重定位损失代价L_appearance通过以下公式计算：

L_appearance＝1-cos(x_box,i,x_trace,j)

x_box,i＝F(IA_i)

S140：根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价。

在以上位置损失代价和行人重定位损失代价的基础上，所述综合损失代价L通过以下公式计算：

L＝αL_location+(1-α)L_appearance

S150：根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系。

在具体的数据处理过程中，所述轨迹跟踪器对应于所述行人检测框、卡尔曼跟踪框和单目标跟踪框的综合损失代价分别通过三个综合损失代价矩阵Q_d、Q_k和Q_s表示，Q_i是一个m x n_i的矩阵，其中，m表示目标跟踪框的数量(也就是轨迹跟踪器的数量)，n_i表示目标框的数量，d、k和s分别表示行人检测框、卡尔曼跟踪框和单目标跟踪框，i∈{d，k，s}。

具体匹配关系可以进一步细化通过步骤S151-步骤S154实现：

步骤S151：将所述综合损失代价矩阵中大于设定阈值的第一矩阵元素值修改为预设的第一标准值。

步骤S152：对所述综合损失代价矩阵Q_i求解最小关联成本得到对应的单一匹配关系P_i。

步骤S153：根据所述单一匹配关系计算初次匹配关系P。

所述初次匹配关系P通过以下公式计算：

P＝f_r(x_t,A_t,<P_i>,<A_i>,<x_i>),i∈(d,k,s)

步骤S154：对所述初次匹配关系P中没有关联关系的轨迹跟踪器和目标框通过二次匹配代价函数进行二次匹配得到二次匹配关系P'。

所述二次匹配代价函数L₂表述如下：

L₂＝γ×f_iou(TL₁,AL₁)+(1-γ)×f_motion

在具体二次匹配过程中，将所述二次匹配代价函数计算得到的二次损失代价矩阵中大于设定阈值的第二矩阵元素值修改为预设的第二标准值；对所述二次损失代价矩阵求解最小关联成本得到对应的二次匹配关系P'。

步骤S155：将所述初次匹配关系P和二次匹配关系P'的并集作为最终的匹配关系。

S160：根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。

具体来说，通过TA＝f_box(<Q_i>,Q₂,TP,<A_i>,A_t,<x_i>,x_t),i∈(d,k,s)计算当前帧的轨迹跟踪框；

在上述实施例的基础上，所述方法还包括：

通过

更新所述轨迹跟踪器中的外观特征；

通过

更新所述卡尔曼跟踪器；

通过

更新所述单目标跟踪器；

其中，

表示更新后的外观特征，

表示更新前的外观特征，

外观特征和行人身份重定位特征向量都用于进行目标的特征描述，轨迹跟踪器中的外观特征相当于轨迹跟踪器根据历史跟踪处理中得到的行人身份重定位特征向量综合的结果，用于进行跟踪目标的特征的数据表达，二者具有高度的关联性。外观特征一种具体的计算方式是，通过深度网络计算融合历史跟踪结果的行人身份重定位特征向量得到。对于单个图形框中的外观特征，实际就是对应的行人身份重定位特征向量，例如

表示TA对应的图像块的外观特征，实际就是TA对应的图块的行人身份重定位特征向量。

在上述实施例的基础上，所述方法还包括：

通过

更新

在上述实施例的基础上，所述方法还包括：

如果当前帧的行人检测框没有匹配到轨迹跟踪器，则用当前帧的行人检测框对应的行人身份重定位特征向量新建候选轨迹跟踪器；

如果当前的行人检测框没有与轨迹跟踪器匹配，那么，用当前的行人检测框和行人检测框对应的行人身份重定位特征向量建立一个候选轨迹跟踪器PT_i，并添加到候选轨迹跟踪器集合PT中，当且仅当候选轨迹跟踪器PT_i与目标的关联匹配视频帧数在视频区间[h_t,h_t+q]中大于设定的阈值H，且连续关联匹配视频帧数大于CH，才将候选轨迹跟踪器PT_i加入到轨迹跟踪器集合NT中，并将候选轨迹跟踪器PT_i从候选轨迹跟踪器集PT中删除，否则，如果，在视频区间[h_t,h_t+q]中，更新PT_i，如果，视频帧超出了h_t+q，则直接将PT_i从候选轨迹跟踪器集合PT中删除。候选轨迹跟踪器的关联和更新方式与轨迹跟踪器的处理过程完全相同，区别仅在于确认是否为轨迹跟踪器。

在上述实施例的基础上，所述方法还包括：

轨迹跟踪器的合并主要是在正常的跟踪轨迹器集合NT和候选轨迹跟踪器集合PT之间进行，如果轨迹跟踪器NT_j没有匹配目标，那么将NT_j与PT进行关联匹配；如果PT_i没有匹配目标，那么，将PT_i与NT进行关联匹配。其匹配关联方式为：

其中，f_tt表示两个轨迹的关联关系函数。一旦Ma大于设定的阈值MAH，就判定轨迹跟踪器匹配，举例说，匹配的跟踪器为PT_i和NT_j，那么，将PT_i和NT_j合并，并更新NT_j。

在具体的数据处理过程中，每个所述轨迹跟踪器记录有对应的目标标识(即ID)，跟踪器的合并和更新方式为：将PTi的ID修改为NTj的ID，并且从PT中删除PTi，并且采用以NT下方式更新：

NT_j＝f_{updateMergeTrack}(PT_i，NT_j)

其中，PTi，NTj表示匹配的跟踪器，f_{updateMergeTrack}表示合并跟踪器的更新函数。

最终，可以呈现出的跟踪信息为目标跟踪框以及对应的ID。目标跟踪框可以实时显示，即只维持当前帧的目标跟踪框在显示状态；也可以连续显示，即维持一定时间或帧数对应的目标跟踪框的显示，形成一定时间内的运动轨迹的显示。

本方案的整体设计可以参考图2，现有的跟踪一般采用单一维度的跟踪方式，有可能出现跟踪丢失或跳跃的情况。在本方案中，采用多个维度的跟踪以及融合，在一个目标刚出现时能够明确检测到的是行人检测器的行人检测结果，行人检测结果也作为卡尔曼跟踪器和单目标跟踪器的初始化状态。请参考图2，最左侧所示的目标行人10在刚出现时，只有行人检测器能明确检测到行人检测框101，在初始状态下目标跟踪的结果实际就是行人检测的结果，即初始得到的行人检测框101设置为卡尔曼跟踪器对应的卡尔曼跟踪框102和单目标跟踪器对应的单目标跟踪框103，同时，也设置为轨迹跟踪器对应的目标跟踪框100，也就是说，目标行人10在出现的初始帧，行人检测框101、卡尔曼跟踪框102、单目标跟踪框103和目标跟踪框100是四个相同的区域框。但是行人检测器、卡尔曼跟踪器和单目标跟踪器对图像数据处理细节的不同，会导致后续的目标检测出现各自不同的结果，例如图2中箭头最右端指示的检测状态，三种跟踪对于同一目标行人10的检测结果(即行人检测框101、卡尔曼跟踪框102和单目标跟踪框103)并不能完全重合，也可能是下方两种状态中的一种(以上仅为举例，可以有不限于这三种示意的复杂细节变化，主要是重叠位置的变化)，在本方案中，将三种跟踪的检测结果进行融合，得到综合的跟踪结果，从而解决现有技术中跟踪丢失或跳跃的不足。

上述，通过在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；计算每帧画面中的目标框对应的行人身份重定位特征向量；根据所述目标框的位置和所述行人身份重定位特征向量计算前一帧中对应目标跟踪框的位置损失代价和行人重定位损失代价；根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；根据所述综合损失代价计算所述目标跟踪框与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的目标跟踪框。在同一镜头下，对行人行走时的短时完全遮挡，能够形成有效的跟踪。

在上述实施例的基础上，图3为本申请实施例提供的一种单镜头下的多行人在线跟踪装置的结构示意图。参考图3，本实施例提供的单镜头下的多行人在线跟踪装置包括检测单元310、特征计算单元320、代价计算单元330、代价综合单元340、关系匹配单元350和轨迹生成单元360，其中：

检测单元310，用于在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；

特征计算单元320，用于计算每帧画面中的目标框对应的行人身份重定位特征向量；

代价计算单元330，用于根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器的位置损失代价和行人重定位损失代价；

代价综合单元340，用于根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；

关系匹配单元350，用于根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；

轨迹生成单元360，用于根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。

其中，所述位置损失代价L_location通过以下公式计算：

L_location＝1-f_location(A₁,A₂)

f_location(A₁,A₂)＝f_d(A₁,A₂)+f_iou(A₁,A₂)

表示A₁和A₂的中心点欧氏距离，β表示

的权重，T表示根据视频帧率确认的判断阈值；

所述行人重定位损失代价L_appearance通过以下公式计算：

L_appearance＝1-cos(x_box,i,x_trace,j)

x_box,i＝F(IA_i)

其中，所述综合损失代价L通过以下公式计算：

L＝αL_location+(1-α)L_appearance

其中，所述轨迹跟踪器对应于所述行人检测框、卡尔曼跟踪框和单目标跟踪框的综合损失代价分别通过三个综合损失代价矩阵Q_d、Q_k和Q_s表示，Q_i是一个m x n_i的矩阵，其中，m表示目标跟踪框的数量(也就是轨迹跟踪器的数量)，n_i表示目标框的数量，d、k和s分别表示行人检测框、卡尔曼跟踪框和单目标跟踪框，i∈{d，k，s}；

根据所述单一匹配关系计算初次匹配关系P；

其中，所述初次匹配关系P通过以下公式计算：

P＝f_r(x_t,A_t,<P_i>,<A_i>,<x_i>),i∈(d,k,s)

其中，所述二次匹配代价函数L₂表述如下：

L₂＝γ×f_iou(TL₁,AL₁)+(1-γ)×f_motion

其中TA表示当前帧的目标跟踪框，TP表示匹配关系，f_box()表示轨迹跟踪框的计算函数,Q₂表示所述二次损失代价矩阵。

其中，所述装置还包括：

特征更新单元，用于通过

更新所述轨迹跟踪器中的外观特征；

卡尔曼更新单元，用于通过

更新所述卡尔曼跟踪器；

单目标更新单元，用于通过

更新所述单目标跟踪器；

其中，

表示更新后的外观特征，

表示更新前的外观特征，

其中，所述装置还包括：

运动矢量更新单元，用于通过

更新

其中，所述装置还包括：

第一匹配单元，用于对匹配结果为空的轨迹跟踪器，根据关联关系函数与候选轨迹跟踪器进行关联匹配；

其中，每个所述轨迹跟踪器记录有对应的目标标识；

所述装置还包括：

本申请实施例还本申请实施例还提供了一种计算机设备，且该计算机设备可集成本申请实施例提供的单镜头下的多行人在线跟踪装置。图4是本申请实施例提供的计算机设备的结构示意图。参考图4，该计算机设备包括：输入装置430、输出装置440、存储器420以及一个或多个处理器410；所述存储器420，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器410执行，使得所述一个或多个处理器410实现如上述实施例提供的单镜头下的多行人在线跟踪方法。其中输入装置430、输出装置440、存储器420和处理器410可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算设备可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的单镜头下的多行人在线跟踪方法对应的程序指令/模块(例如，单镜头下的多行人在线跟踪装置中的检测单元310、特征计算单元320、代价计算单元330、代价综合单元340、关系匹配单元350和轨迹生成单元360)。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的单镜头下的多行人在线跟踪方法。

通信装置450用于接入远程接入的摄像头或其他终端，以获得必要的处理数据。

上述提供的单镜头下的多行人在线跟踪装置和计算机设备可用于执行上述实施例提供的单镜头下的多行人在线跟踪方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的单镜头下的多行人在线跟踪方法，该单镜头下的多行人在线跟踪方法包括：在单路视频流的每帧画面进行行人检测、卡尔曼跟踪和单目标跟踪，分别得到行人检测框、卡尔曼跟踪框和单目标跟踪框作为目标框；计算每帧画面中的目标框对应的行人身份重定位特征向量；根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器的位置损失代价和行人重定位损失代价；根据所述位置损失代价和行人重定位损失代价计算对应的综合损失代价；根据所述综合损失代价计算所述轨迹跟踪器与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的单镜头下的多行人在线跟踪方法，还可以执行本申请任意实施例所提供的单镜头下的多行人在线跟踪方法中的相关操作。

上述实施例中提供的单镜头下的多行人在线跟踪装置、设备及存储介质可执行本申请任意实施例所提供的单镜头下的多行人在线跟踪方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的单镜头下的多行人在线跟踪方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种单镜头下的多行人在线跟踪方法，其特征在于，包括：

计算每帧画面中的目标框对应的行人身份重定位特征向量；

根据所述目标框的位置和所述行人身份重定位特征向量计算所述目标框与轨迹跟踪器中记录的目标跟踪框的位置损失代价和行人重定位损失代价；

根据所述综合损失代价计算所述轨迹跟踪器中记录的目标跟踪框与行人检测框、卡尔曼跟踪框和单目标跟踪框的匹配关系；

根据匹配关系、位置损失代价和身份重定位损失代价，基于所述行人检测框、卡尔曼跟踪框和单目标跟踪框生成当前帧的轨迹跟踪框；

其中，所述轨迹跟踪器中记录的目标跟踪框对应于所述行人检测框、卡尔曼跟踪框和单目标跟踪框的综合损失代价分别通过三个综合损失代价矩阵Q_d、Q_k和Q_s表示，Q_i是一个mx n_i的矩阵，其中，m表示目标跟踪框的数量，n_i表示目标框的数量，d、k和s分别表示行人检测框、卡尔曼跟踪框和单目标跟踪框，i∈{d，k，s}；

根据所述单一匹配关系计算初次匹配关系P；

2.根据权利要求1所述的方法，其特征在于，所述位置损失代价L_location通过以下公式计算：

L_location＝1-f_location(A₁,A₂)

f_location(A₁,A₂)＝f_d(A₁,A₂)+f_iou(A₁,A₂)