CN112070003A

CN112070003A - 基于深度学习的人员追踪方法和系统

Info

Publication number: CN112070003A
Application number: CN202010929381.7A
Authority: CN
Inventors: 陈海波; 罗志鹏; 张治广
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-11

Abstract

本发明提供了一种基于深度学习的人员追踪方法和系统，其中，所述方法包括以下步骤：获取待追踪人员的参考图像；对参考图像进行预处理以得到参考图像中关于待追踪人员的图像块；利用特征提取网络对图像块进行处理以得到待追踪人员的特征；获取与待追踪人员相关的查询视频，其中，查询视频来自不同场景；对查询视频进行处理以得到查询视频的每一帧图像中每个待查询人员的特征；计算待追踪人员特征与每个待查询人员特征之间的距离度量；根据距离度量得到待追踪人员特征与每个待查询人员特征之间相似度，并输出待查询视频中与待追踪人员特征相似度最高的待查询人员。本发明能够对跨摄像头跨场景的人员进行追踪，并且追踪精度较高，适应性较强。

Description

基于深度学习的人员追踪方法和系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的人员追踪方法和一种基于深度学习的人员追踪系统。

背景技术

行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，指通过穿着、体态、发型等在不确定的场景中能够再次识别是同一个人，并以此描绘出个体行进轨迹的AI视觉技术，简而言之，就是通过计算机视觉技术检索可能来源于非重叠摄像机视域的视频序列中的同一个目标人物，即给定一个监控行人图像，检索跨设备下的该行人图像，旨在弥补固定的摄像头的视觉局限。

然而，目前对于行人重识别的研究还不算成熟，对于跨摄像头跨场景下行人的识别与检索依然具有难度，其适应范围较小。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于深度学习的人员追踪方法，能够对跨摄像头跨场景的视频中的人员进行追踪，并且追踪精度较高，适应性较强。

本发明的第二个目的在于提出一种基于深度学习的人员追踪系统。

为达到上述目的，本发明第一方面实施例提出了一种基于深度学习的人员追踪方法，包括以下步骤：获取待追踪人员的参考图像，所述参考图像中包括一个或多个所述待追踪人员；对所述参考图像进行预处理以得到所述参考图像中关于所述待追踪人员的图像块；利用特征提取网络对所述图像块进行处理以得到所述待追踪人员的特征；获取与所述待追踪人员相关的查询视频，其中，所述查询视频来自不同场景；对所述查询视频进行处理以得到所述查询视频的每一帧图像中每个待查询人员的特征；计算所述待追踪人员特征与每个所述待查询人员特征之间的距离度量；根据所述距离度量得到所述待追踪人员特征与每个所述待查询人员特征之间相似度，并输出所述待查询视频中与所述待追踪人员特征相似度最高的所述待查询人员。

根据本发明实施例提出的基于深度学习的人员追踪方法，通过检测参考图像得到参考图像中关于待追踪人员的图像块，并利用特征提取网络根据图像块提取出待追踪人员的特征，并对需要查询的视频进行处理得到视频中每一帧图像中每个待查询人员的特征，然后计算待追踪人员特征与每个待查询人员特征之间的距离度量，以根据距离度量判断待追踪人员特征与每个待查询人员特征之间相似度，最后输出待查询视频中与待追踪人员特征相似度最高的待查询人员，由此，能够对跨摄像头跨场景的视频中的人员进行追踪，并且追踪精度较高，适应性较强。

另外，根据本发明上述实施例提出的基于深度学习的人员追踪方法还可以具有如下附加的技术特征：

根据本发明的一个实施例，对所述参考图像进行预处理以得到所述参考图像中关于所述待追踪人员的图像块，包括以下步骤：通过检测算法对所述参考图像进行预处理以得到所述待追踪人员的位置信息和大小信息；根据所述位置信息和所述大小信息对所述参考图像中包含所述待追踪人员的图像进行裁剪，以得到所述参考图像中关于所述待追踪人员的图像块。

根据本发明的一个实施例，所述特征提取网络的网络架构为Backbone+BN层+FC层的结构，所述特征提取网络的标准化层为IBN(Intent-based Network，基于意图的网络)，其中，所述标准层对一半通道数量的输入进行BN(Batch Normalization，批标准化)操作，对另一半通道数量的输入进行IN(Instance Normalization，实例正则化)操作。

根据本发明的一个实施例，BN操作的计算过程如下：

假设输入为X∈R⁴，是一个四维的向量，x_i表示通道i，则

其中，μ为BN操作计算过程的均差，σ²为BN操作计算过程的方差，

标准化后的输入值，y_i为经过尺度变换和平移后的输入值；

IN操作计算过程如下：

其中，μ_ti为IN操作计算过程的均差，

为IN操作计算过程的方差。

根据本发明的一个实施例，所述特征提取网络的损失函数为RLL损失函数，所述RLL损失函数表达式为：

其中，

为属于类别c的所有样本，N_c为相应类别的样本数量，L_p为正样本损失函数，L_N为负样本加权函数。

根据本发明的一个实施例，所述特征提取网络的神经网络为ResNet50(ResidualNetwork50，残差网络50)，并且所述ResNet50包含50个二维卷积层。

根据本发明的一个实施例，所述特征提取网络的训练，包括以下步骤：构建初始特征提取网络；获取训练用数据集；通过数据增强对所述数据集进行扩展，并对扩展后的所述数据集进行融合；根据融合后的所述数据集对所述初始特征提取网络进行训练。

根据本发明的一个实施例，所述特征提取网络的训练过程采用Warm up和LabelSmoothing。

根据本发明的一个实施例，所述距离度量为欧式距离

为达到上述目的，本发明第二方面实施例提出了一种基于深度学习的人员追踪系统，包括：第一获取模块，所述第一获取模块用于获取待追踪人员的参考图像，所述参考图像中包括一个或多个所述待追踪人员；预处理模块，所述预处理模块用于对所述参考图像进行预处理以得到所述参考图像中关于所述待追踪人员的图像块；特征提取模块，所述特征提取模块用于利用特征提取网络对所述图像块进行处理以得到所述待追踪人员的特征；第二获取模块，所述第二获取模块用于获取与所述待追踪人员相关的查询视频；检测提取模块，所述检测提取模块用于对所述查询视频进行处理以得到所述查询视频的每一帧图像中每个待查询人员的特征；距离度量模块，所述距离度量模块用于计算所述待追踪人员特征与每个所述待查询人员特征之间的距离度量；比较输出模块，所述比较输出模块用于根据所述距离度量得到所述待追踪人员特征与每个所述待查询人员特征之间相似度，并输出所述待查询视频中与所述待追踪人员特征相似度最高的所述待查询人员。

根据本发明实施例提出的基于深度学习的人员追踪系统，通过设置预处理模块检测参考图像得到参考图像中关于待追踪人员的图像块，并设置特征提取模块利用特征提取网络根据图像块提取出待追踪人员的特征，并设置检测提取模块对需要查询的视频进行处理得到视频中每一帧图像中每个待查询人员的特征，以及设置距离度量模块计算待追踪人员特征与每个待查询人员特征之间的距离度量，并设置比较输出模块根据距离度量判断待追踪人员特征与每个待查询人员特征之间相似度，最后输出待查询视频中与待追踪人员特征相似度最高的待查询人员，由此，能够对跨摄像头跨场景的视频中的人员进行追踪，并且追踪精度较高，适应性较强。

附图说明

图1为本发明实施例的基于深度学习的人员追踪方法的流程图；

图2(a)为本发明一个实施例的最困难负样本分布图；

图2(b)为本发明一个实施例的最困难正样本分布图；

图3为本发明一个实施例的特征提取网络训练过程的学习率变化图；

图4为本发明一个实施例的特征提取网络中标准化层IBN的结构示意图；

图5为本发明一个实施例的特征提取网络中ResNet50的结构示意图；

图6为本发明实施例的基于深度学习的人员追踪系统的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的基于深度学习的人员追踪方法的流程图。

如图1所示，本发明实施例的基于深度学习的人员追踪方法，包括以下步骤：

S1，获取待追踪人员的参考图像，参考图像中包括一个或多个待追踪人员。

在本发明的一个实施例中，可获取待追踪人员，例如待追踪行人的参考图像，即包含待追踪行人的静态图像，并且该参考图像中可包括一个或多个待追踪行人。

S2，对参考图像进行预处理以得到参考图像中关于待追踪人员的图像块。

具体地，可先通过检测算法对参考图像进行预处理以得到待追踪人员的位置信息和大小信息，然后可根据位置信息和大小信息对参考图像中包含待追踪人员的图像进行裁剪，以得到参考图像中关于待追踪人员的图像块。

S3，利用特征提取网络对图像块进行处理以得到待追踪人员的特征。

在本发明的一个实施例中，可基于深度学习对特征提取网络进行训练，具体地，可先构建初始特征提取网络，并可获取训练用数据集，然后可通过数据增强对数据集进行扩展，并对扩展后的数据集进行融合，最后可根据融合后的数据集对初始特征提取网络进行训练。

其中，训练用的数据集可通过数据库，行人重识别数据库获取，并可对获取的数据集进行随机擦除、随机翻转和随机裁剪来实现数据容量的扩展，并可对扩展后的数据集进行融合，进而可根据融合数据集对构建的特征提取网络进行训练。进一步还需要说明的是，在选择融合数据集对构建的特征提取网络进行训练时，可在每个批次的融合数据集的选择中，随机选择P个行人身份，并对应每个行人身份选择K张训练图像，例如可随机选择16个行人身份，并对应每个行人身份选择4张训练图像。通过融合数据集，不仅能够增加数据量，提高特征提取网络的泛化性能，还能够提高特征提取网络的鲁棒性。

具体地，如表1所示，选用的融合数据集可为MSMT17+CHUK03+Market1501+DukeMTMC-ReID，并可其分为训练集和测试集，其中，选用的融合数据集的身份ID数量可为7512，训练集的身份ID数量可占融合数据集的身份ID数量的70％，测试集的身份ID数量可占融合数据集的身份ID数量的30％。

表1

其中，在对特征提取网络进行测试过程中，可将测试集分为正负样本，其中，最困难负样本的分布如图2(a)所示，最困难正样本的分布如图2(b)所示，并统计每个批次内最困难正样本与最困难负样本的距离值，然后可根据统计结果选择T＝1.0作为距离阈值来划分两个样本是否属于同一个人。

在本发明的一个实施例中，在对特征提取网络进行训练的过程中可采用Warm up和Label Smoothing。具体地，如图3所示，可采用Warm up对特征提取网络训练过程中的学习率进行控制，例如可在特征提取网络训练初期采用较小的学习率，并可在特征提取网络见到整个融合数据集后在增大学习率以加快训练。通过在特征提取网络训练初期采用较小的学习率，能够使得特征提取网络减少对初期训练数据的拟合，此外通过采用Warm up和Label Smoothing还能够提高特征提取网络的泛化性能和精度。

具体地，Label Smoothing的表达式可为：

其中，ε为常量，并且该常量的取值极小，可减少真实样本标签的类别在计算损失函数时的权重，从而能够避免特征提取网络因为过于相信训练集标签而发生过拟合现象。

在本发明的一个实施例中，特征提取网络的网络架构可为Backbone+BN层+FC层的结构，可采用BN层之后的输出作为待追踪人员的特征，并且特征提取网络标准化层可为IBN，进一步需要说明的是，在标准层中，对于输入，一半通道数量的输入可进行BN操作，对另一半通道数量的输入可进行IN操作。通过采用IN操作能够使得特征提取网络更好的捕捉目标人员不随颜色、风格、虚拟或真实等外观变化而改变的特征，通过采用BN操作能够使得特征提取网络保留目标人员与内容相关的特征，从而能够提高特征提取网络的泛化能力。

具体地，如图4所示，在标准层中，对于输入，可先通过1×1conv，即1×1卷积层进行处理，然后一半通道数量的输入可进行BN操作，另一半通道数量的输入可进行IN操作，然后通过ReLU，即激活函数输出，并输入3×3conv，即3×3卷积层后续操作，具体过程可参照上述过程，这里不再进行赘述。

其中，BN操作的计算过程如下：

假设输入为X∈R⁴，是一个四维的向量，x_i表示通道i，则

标准化后的输入值，y_i为经过尺度变换和平移后的输入值；

IN操作计算过程如下：

其中，μ_ti为IN操作计算过程的均差，

为IN操作计算过程的方差。

其中，需要进一步说明的是，BN操作使用的mean，即平均值和variance，即方差是从一个批次的所有图像数据中统计的，IN操作使用的mean，即平均值和variance，即方差是从单张图像数据中统计的，是对W和H做归一化。

在本发明的一个实施例中，特征提取网络的神经网络可为ResNet50，可包括四个残差块，具体地，ResNet50可对输入进行卷积操作，例如可进行conv2d，即二维卷积操作，并可将经过二维卷积操作后的输入图片输入到四个残差块中进行处理，然后可对经过残差块处理过的输入图片进行全连接操作以便于进行分类。其中，ResNet50可包含50个二维卷积层。

更具体地，如图5所示，ResNet50可先通过7×7conv，即7×7卷积层对输入图片进行处理，然后将其输入3×3maxpool，即3×3最大池化层，在将其输入1×1conv，即1×1卷积层进行后续操作，具体过程可参照上述过程，这里不再进行赘述。

在本发明的一个实施例中，特征提取网络的损失函数可为RLL损失函数，具体地，可假设

为训练集，其中每一组元素{x_i,y_i}为成对的样本与其标签，共有c个类别，即y_i∈[1,2,…,C]，

为属于类别c的所有样本，N_c表示相应类别的样本数量。

进一步地，可设置负样本之间的距离大于某个阈值α，并且正样本之间的距离小于α-m，即正负样本之间至少有m的间隔，由此，可将正反样本进行区分。基于此，提出了pairwise margin loss：

L_m(X_i,X_j；f)＝(1-y_ij)[α-d_ij]₊+[d_ij-(α-m)]₊

其中，当y_i＝y_j时，y_ij＝1，否则y_ij＝0。

进一步地，可设置统一类别的正样本位于一个半径为α-m大小的超球体内，由此，对于每个

可使得它与正样本集P的距离较近，并且与负样本集N_c,i之间存在着m的间隔，同时，还能够保证负样本之间的距离大于边界α。基于此，使用的正样本损失函数为：

进一步地，可对负样本进行加权，以避免因负样本的数量较大，以及损失值幅度范围较大造成的影响。基于此，使用的负样本加权函数为：

综上，可得到RLL损失函数，具体RLL损失函数表达式可为：

S4，获取与待追踪人员相关的查询视频，其中，查询视频来自不同场景。

S5，对查询视频进行处理以得到查询视频的每一帧图像中每个待查询人员的特征。

具体地，可采用上述步骤S2和S3中的检测算法和特征提取网络对查询视频进行处理以得到查询视频的每一帧图像中每个待查询人员，例如查询视频的每一帧图像中每个行人的特征。

具体地，可先通过检测算法对查询视频进行预处理以得到查询视频的每一帧图像中每个待查询人员的位置信息和大小信息，然后可根据位置信息和大小信息对包含待查询人员的图像进行裁剪，以得到查询视频中关于待追踪人员的图像块，进一步可通过特征提取网络对查询视频中关于待追踪人员的图像块进行处理以得到查询视频的每一帧图像中每个待查询人员的特征。

S6，计算待追踪人员特征与每个待查询人员特征之间的距离度量。

在本发明的一个实施例中，可采用欧式距离作为追踪人员特征与每个待查询人员特征之间的距离度量。

S7，根据距离度量得到待追踪人员特征与每个待查询人员特征之间相似度，并输出待查询视频中与待追踪人员特征相似度最高的待查询人员。

在本发明的一个实施例中，可根据欧式距离计算待追踪人员特征与每个待查询人员特征之间相似度，并输出待查询视频中与待追踪人员特征相似度最高的待查询人员。

对应上述实施例提出的基于深度学习的人员追踪方法，本发明第二方面实施例提出了一种基于深度学习的人员追踪系统。

如图6所示，本发明实施例的基于深度学习的人员追踪系统，包括第一获取模块10、预处理模块20、特征提取模块30、第二获取模块40、检测提取模块50、距离度量模块60和比较输出模块70。

其中，第一获取模块10用于获取待追踪人员的参考图像，参考图像中包括一个或多个待追踪人员；预处理模块20用于对参考图像进行预处理以得到参考图像中关于待追踪人员的图像块；特征提取模块30用于利用特征提取网络对图像块进行处理以得到待追踪人员的特征；第二获取模块40用于获取与待追踪人员相关的查询视频；检测提取模块50用于对查询视频进行处理以得到查询视频的每一帧图像中每个待查询人员的特征；距离度量模块60用于计算待追踪人员特征与每个待查询人员特征之间的距离度量；比较输出模块70用于根据距离度量得到待追踪人员特征与每个待查询人员特征之间相似度，并输出待查询视频中与待追踪人员特征相似度最高的待查询人员。

本发明实施例提出的基于深度学习的人员追踪系统，可实现上述实施例提出的基于深度学习的人员追踪方法，其具体实施方式可参照上述实施例。

需要说明的是，本发明实施例的基于深度学习的人员追踪方法和系统可与人脸识别技术相结合，当摄像装置能够拍摄到人脸时，可采用人脸识别技术识别目标，即待追踪人员，当摄像装置无法拍摄到人脸时，可采用本发明的基于深度学习的人员追踪方法和系统识别追踪目标，即待追踪人员，以延长追踪的时空延续性。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。