CN112258559A

CN112258559A - 一种基于多目标跟踪的智能跑步计时评分系统和方法

Info

Publication number: CN112258559A
Application number: CN202011152872.1A
Authority: CN
Inventors: 易锐; 邰海军; 蒋伟; 柯钦瑜; 黄勇; 曾凡
Original assignee: Shanghai Xuanwei Medical Technology Co ltd
Current assignee: Shanghai Xuanwei Medical Technology Co ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-22
Anticipated expiration: 2040-10-26
Also published as: CN112258559B

Abstract

一种基于多目标跟踪的智能跑步计时评分系统及方法，所述方法具体如下：当跑步者位于起跑线时，启动处理第一线程，该第一线程利用第一摄像机采集视频，调用正则化人脸识别模型RegularFace计算处理，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用FairMOT多目标跟踪模型追踪跑步者；当跑步者越过第一摄像机的视野线时，启动第二线程并同时将跑步者的ID发送给该第二线程；当跑步者越过第二摄像机的视野线时，若第一线程处于挂起状态，则唤醒第一线程；否则直接把跑步者的ID发送给第一线程；当跑步者越过终点线时，系统自动记录跑步者的时间，并将跑步时间存储进数据库的个人信息档案中。

Description

一种基于多目标跟踪的智能跑步计时评分系统和方法

技术领域

本发明涉及人工智能自动识别技术领域，尤其涉及一种基于多目标跟踪的智能跑步计时评分系统。

背景技术

目前的体育项目比如在操场上的长跑，由于跑完全程，需要围绕操场跑道绕多圈，并且跑步者有多名，这样，如果为了准确统计，需要每一个跑步者都有一个专门的监督员进行跟踪计圈和计时，这是非常低效率的，并且人工计圈计时也会产生作弊或者计圈计时错误的情况，如果可以利用摄像技术和计算机技术实现每一个跑步者的实时跟踪，将大大提高效率和准确性。

发明内容

为解决上述技术问题，本发明提供了一种基于多目标跟踪的智能跑步计时评分系统和一种基于多目标跟踪的智能跑步计时评分方法。

一种基于多目标跟踪的智能跑步计时评分系统，其中：包括两个超分辨率全景无线摄像头：第一超分别率全景无线摄像头、第二超分别率全景无线摄像头；下面简称第一摄像头、第二摄像头；第一摄像头与第二摄像头相对设置于操场跑道两弯道外侧对角位置，两摄像头各自距相应操场弯道边缘切线的垂直距离为10米，两摄像头高度均为1.85米；

第一摄像头的视野一侧边缘覆盖区域涵盖操场跑道第一直道外围，第一摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部；第二摄像头的视野一侧边缘覆盖区域涵盖操场跑道第二直道外围，第二摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部；第一摄像头的视野与第二摄像头的视野在操场跑道包围范围的中部有重叠区域；

第一摄像头、第二摄像头分别通过无线通信网络将图像信息发送给无线路由器，无线路由器则通过有线通讯线路连接计算机，同时视频图像信息及分析处理结果通过计算机显示；第一摄像头和第二摄像头持续采集跑步者的视频信息，实时发送至无线路由器，无线路由器接收后发送至计算机进行处理；实时视频信息中跑步者通过目标跟踪识别，实现边界框bbox的跟踪。

一种基于多目标跟踪的智能跑步计时评分系统，其中：具体工作流程如下：

1)、当跑步者位于起跑线时，系统启动处理第一摄像机的线程，以下简称第一线程，该第一线程利用第一摄像机采集视频，调用正则化人脸识别模型 RegularFace计算处理，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用FairMOT多目标跟踪模型追踪跑步者；

2)、规定第一摄像机的视野线为操场跑道靠近第一摄像机的弯道起始点，跑步者是沿跑道逆时针跑步，当跑步者越过第一摄像机的视野线时，系统将启动第二线程并同时将跑步者的ID发送给该第二线程，所述第二线程利用第二摄像机采集视频，调用正则化人脸识别模型RegularFace计算处理，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用FairMOT 多目标跟踪模型追踪跑步者；此后，只要有跑步者越过第一摄像机的视野线，系统就会把该跑步者的ID信息发送第二线程；同时，第一线程依然运行，直至最后一名跑步者越过第一摄像机的视野线，则第一线程挂起；

3)、同理，当跑步者越过第二摄像机的视野线时，规定第二摄像机的视野线为赛场靠近第二摄像机的弯道起始点：若第一线程处于挂起状态，则唤醒第一线程；否则直接把跑步者的ID发送给第一线程，第一线程负责对该目标的继续跟踪；

4)、当跑步者越过终点线时，系统自动记录跑步者的时间，并将跑步时间存储进数据库的个人信息档案中；

所述正则化人脸识别模型RegularFace网络结构,其主干网络采用残差网络resnet20，其中的conv3*3@X表示3*3的卷积层，其中输出的为X个特征图； 112×96×3的特征图输入卷积层conv3*3@64计算，卷积层conv3*3@64采用3*3 的卷积核，64个通道，输出的特征图有64个；卷积层conv3*3@64输出的特征图送入卷积层conv3*3@128计算，卷积层conv3*3@128采用3*3的卷积核，128 个通道，输出的特征图有128个；卷积层conv3*3@64输出的特征图与卷积层 conv3*3@128输出的特征图逐个元素相加后送入卷积层conv3*3@256计算，卷积层conv3*3@256采用3*3的卷积核，256个通道，输出的特征图有256个；卷积层conv3*3@128输出的特征图与卷积层conv3*3@256输出的特征图逐个元素相加后送入卷积层conv3*3@512计算，卷积层conv3*3@512采用3*3的卷积核，512个通道，输出的特征图有512个；卷积层conv3*3@256输出的特征图与卷积层conv3*3@512输出的特征图逐个元素相加后送入FCI层即卷积层 linear@512计算，FC1为第一个全连接层fully connectedlayers，在整个卷积神经网络中起到“分类器”的作用；全连接层FC2则起到将前述网络学习到的“分布式特征表示”映射到样本标记空间的作用；全连接层FC2的核心操作就是矩阵向量乘积y＝Wx：

FC1层的输出为512维的特征图，FC1层的输出特征图送入FC2层计算，W 是一个实现从提取的面部特征转换到输出类别概率的矩阵，FC2层实现从512 维的特征图到模型所需输出类别的转换，也即W矩阵；

所述W矩阵的计算方法如下：

其中Lr(W)表示类间正则化损失函数Exclusive Regularization，其中C 为类别总数，即要识别的类别数，即参加3000米跑的跑步人员总数；i,j表示不同的类别，主要的目的是最小化每个类别W_i与其最近的类别W_j之间的余弦距离，W_i表示标签为第i个类别的所有输入图像经过主干网络提取特征，输出特征向量的聚类中心；

最近的类别W_j是计算所有其他类别与i类别聚类中心的欧式距离，选取最小的为W_j；

L_s(θ，W)是分类特征空间角度损失函数Angular softmax loss，L_s(θ,W)表示该损失函数与网络参数θ及该类的聚类中心W相关；其中N表示每个类的总样本数，x_i表示第i个样本的特征向量，

表示x_i与该类的聚类中心W之间的角度；φ_i,j表示第i个样本的特征向量和第j个样本的特征向量之间的角度；

设输入的图片为I_i,则经过不包含最后FC2的网络，得到特性向量x_i,利用公式可表示为x_i＝G_θ(I_i),其中G_θ表示网络模型，θ为网络模型的具体参数；

则，总的损失函数为：L(θ,W)＝L_s(θ,W)+λL_r(W) (3)

λ为调节分类特征空间角度损失函数和类间正则化损失函数之间比列的超参数；λ设置为0.5；

在计算反向传播，采用投影梯度优化：

其中L为公式(3)的总损失函数L(θ，W)，α为网络模型的学习率，t表示对模型的第t次训练；W是一个实现从提取的面部特征转换到输出类别概率的矩阵，即FC2层；

所述优化的FairMOT计算方法具体如下：

初始图像经编码器-解码器网络输出两个任务，分别是：目标检测和ReID 特征提取；

目标检测：输出候选目标中心点热图heatmap、目标包围框大小box size、目标中心相对原图实际位置的偏移量center offset；

ReID特征提取，是生成可以区分不同对象的特征；理想情况下，不同对象之间的距离应大于同一对象之间的距离；ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征。

ReID模块的结构：该模块的输入为图片，经过其中的主干网络即编码-解码网络后输出272*152*256的特征图,将输出的特征图按通道划分为4部分，每个部分为272*152*64，对应P_{1_0},P_{2_0},P_{3_0},P_{4_0},然后经过自注意力机制模块即 SA模块self-attention，相应输出为尺寸不变的特征图P_{1_1}、P_{2_1}、P_{3_1}、P_{4_1}，再经过一个1x1x32的卷积和最大池化操作，提取特征信息，输出为P_{1_2}、P_{2_2}、 P_{3_2}、P_{4_2}，最后经过特征拼接操作ConCatenation，输出为1x1x128的特征向量 P_out；

改造后的FairMOT主干网络：输入的原始图片大小为1088*608*3，其主干网络首先进行4倍下采样，即采用最大池化操作，得到L₁层272*152*3的特征图，再经过一次下采样，得到L₂层8倍下采样对应136*76*3的特征图，该特征图经过一次上采样，得到272*152*32的特征图；L₁层4倍下采样272*152*3 的特征图经过一个保持分辨率的卷积操作，得到272*152*32的特征图；两图经过一个特征拼接操作ConCatenation，得到L₂层4倍下采样272*152*64的特征图，以此类推，L₃层对应的4倍下采样272*152*128的特征图，L₄层对应4倍下采样272*152*256的特征图，L₅层对应的4倍下采样272*152*512的特征图； L₂层8倍下采样的特征图再经过一次下采样，得到16倍下采样68*38*3的特征图，同理，得到32倍下采样的39*19*3的特征图，得到64倍下采样的19*9*3 特征图；64倍下采样的图片经过反卷积计算Deconvolution，采用3*3*32的卷积核，得到39*19*32的特征图，32倍下采样的图片经过反卷积计算 Deconvolution，采用3*3*32的卷积核，得到39*19*3的图片，这两个39*19*32 的特征图通过ConCatenation操作，得到39*19*64的特征图；依次类推；其中上图的keepresolution操作为采用3*3的卷积核，保持特征图的尺寸，进行卷积操作；

所述网络L₅层特征图分别为：4倍下采样对应272*152*512的特征图,8倍下采样对应136*76*256的特征图,16倍下采样对应68*38*128的特征图,32倍下采样对应39*19*64的特征图，然后将这些所得到的特征图进行融合，融合的方法为：4倍下采样对应272*152*512的特征图与1*1*256的卷积核卷积，得到272*152*256的特征图，8倍特征图经过上采样upsampling操作得到 272*152*256的特征图，这2个272*152*256的特征图通过ConCatenation操作得到新的272*152*512的特征图，然后该新的272*152*512的特征图再与 1*1*128的卷积核卷积，得到272*152*128的特征图；同理，16倍特征图进行上采样，得到272*152*128的特征图，同样进行ConCatenation操作，再得到 272*152*256的特征图；依次类推，当最后与64倍的特征图进行ConCatenation 操作后，得到的特征图为272*152*64，最后将该得到的272*152*64特征图与一个3*3的卷积核卷积，保持尺寸不变，输出为272*152*64的特征图；

经过主干网络的处理，实现：图片输入为1088*608*3，经过主干网络即编码-解码网络，输出图片为272*152*256；将输出的特征图按通道划分为4部分，每个部分为272*152*64；

然后将按通道划分的4个部分，通过自注意力机制提高每个部分的特征分辨率，从而使模型能从跑步者的头部，肩部，身体躯干及4肢的相对特征，更精确的分辨出每一个跑步者；

所述SA模块的输入为272*152*64的特征图，分两路：一路经过一个3*3*64 的卷积核，卷积步长为1，经过padding运算,变换为特征图U，另一路经过一个5*5*64的卷积核，卷积步长为1，经过padding运算,变换为特征图V；特征图U和V的尺寸与输入的尺寸一致；特征图U和特征图V进行元素相加，组成特征图F，特征图F经过最大池化层，得到1*1*64的特征向量，与平均池化层所得到的1*1*64维向量相加，最终得到一个1*1*64的特征向量，该1*1*64的特征向量与一个1*1*32的卷积核进行卷积，实现压缩squeeze操作；压缩后的特征向量分别与两个1*1*32的卷积核卷积，得到2个1*1*64的特征向量；这2个1*1*64的特征向量分别与特征图U、V进行卷积，相应得到特征图U’、 V’，特征图U’与特征图V’进行元素相加操作，得到最终输出的特征图，输出的特征图的尺寸与输入一致，为272*152*64。

本发明提供的一种基于多目标跟踪的智能跑步计时评分系统和一种基于多目标跟踪的智能跑步计时评分方法，利用两个摄像头，将操场跑道完全纳入摄像范围内，用两个摄像头无缝衔接实时摄像，利用计算机技术将两个摄像头输入的图片进行计算处理：调用正则化人脸识别模型RegularFace，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用 FairMOT多目标跟踪模型追踪跑步者，从而实现每一个跑步者的实时跟踪、计时。

附图说明

图1为本发明一种基于多目标跟踪的智能跑步计时评分系统中两摄像头在操场上的安装位置图以及两摄像头与计算机的通讯线路图；

图2为本发明一种基于多目标跟踪的智能跑步计时评分方法的流程图；

图3为所述正则化人脸识别模型网络的结构图；

图4为行人重识别技术ReID模型的结构图；

图5为本发明中所采用的优化后的FairMOT模型的主干网络示意图

图6为本发明中所采用的SA模块结构图。

具体实施方式

本发明提供了一种基于多目标跟踪的跑步智能计时评分系统，其特征在于：包括两个超分辨率全景无线摄像头：第一超分别率全景无线摄像头(以下简称“第一摄像头”)、第二超分别率全景无线摄像头(以下简称“第二摄像头”)；其中第一摄像头与第二摄像头对角设置于操场跑道外侧位置，具体的摄像头距离操场弯道边缘切线的垂直距离为10米，摄像头高度为1.85米，如图1所示。

第一摄像头的视野一侧边缘覆盖区域涵盖操场跑道第一直道外围，第一摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部；第二摄像头的视野一侧边缘覆盖区域涵盖操场跑道第二直道外围，第二摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部；第一摄像头的视野与第二摄像头的视野在操场跑道包围范围的中部有重叠区域；通过这种位置设置，第一摄像头和第二摄像头能够实现操场跑道的视野全覆盖，如图1所示，实线为摄像头的视野覆盖面积，这样第一、第二摄像头的视野共同覆盖了全部跑道并有重叠的视野区。

图1中虚线表示无线信号传输，且箭头指明了信号传输的方向；第一一头和第二摄像头分别通过无线通信网络(本实施例为WiFi)将图像信息发送给无线路由器，无线路由器则通过有线通讯线路连接计算机，同时视频图像信息及分析处理结果通过计算机显示；第一摄像头和第二摄像头持续采集跑步者的视频信息，通过无线路由器接收，发送至计算机通过核心程序进行处理；实时视频信息中跑步者通过目标跟踪识别，实现边界框bbox的跟踪。

具体流程见图2，本发明还提供了一种基于多目标跟踪的跑步智能计时评分方法的具体工作流程如下：

1)当跑步者位于起跑线时，系统启动处理第一摄像机的线程(以下简称第一线程)，该线程利用第一摄像机采集视频，调用正则化人脸识别模型RegularFace，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的 ID信息，同时调用FairMOT多目标跟踪模型追踪跑步者；

2)当跑步者越过第一摄像机的视野线(规定第一摄像机的视野线为赛场靠近第一摄像机赛道的弯道起始点)时，跑步者是沿跑道逆时针跑步，系统将启动第二线程并同时将跑步者的ID发送给该第二线程，，第二线程是利用第二摄像机的视频，调用FairMOT多目标跟踪模型，通过系统发送的跑步者的ID,实现跑步者的目标跟踪；此后，只要有跑步者越过第一摄像机的视野线，系统就会把该跑步者的ID信息发送第二线程；同时，第一线程依然运行，直至最后一名跑步者越过第一摄像机的视野线，则第一线程挂起；

3)同样的，当跑步者越过第二摄像机的视野线时，规定第二摄像机的视野线为赛场靠近第二摄像机赛道的弯道起始点，若第一线程处于挂起状态，则唤醒第一线程；否则直接把跑步者的ID发送给第一线程，第一线程负责对该目标的继续跟踪；

4)当跑步者越过终点线时，系统自动记录跑步者的时间，并将跑步时间存储进数据库的个人信息档案中；

所述的正则化人脸识别模型RegularFace网络结构,见图3所示，其中正则化人脸识别模型RegularFace的主干网络采用残差网络resnet20，其中“conv3*3@X”表示3*3的卷积层，其中输出的为X个特征图(例如，conv3*3@64，表示卷积层采用3*3的卷积核，64个通道，输出的特征图有64个)；各卷积层之间的⊕表示逐个元素的相加和；W是一个实现从提取的面部特征转换到输出类别概率的矩阵；FC1为第一个全连接层fully connected layers，在整个卷积神经网络中起到“分类器”的作用，输出为512维的特征；全连接层FC2 则起到将学到的“分布式特征表示”映射到样本标记空间的作用；全连接层FC2 的核心操作就是矩阵向量乘积y＝Wx，FC2层实现从512维到模型所需输出类别的转换，也即W矩阵；

所述W矩阵的计算方法如下：

类间正则化损失函数Exclusive Regularization的公式如下：

其中Lr(W)表示类间正则化损失函数，其中C为类别总数，即要识别的类别数，在本实施例中，指参加3000米跑的跑步者人员总数；i,j表示不同的类别，主要的目的是最小化每个类别W与其最近的类别W_j之间的余弦距离；

为计算所有其他类别与i类别聚类中心的欧式距离，选取最小的为W_j；

分类特征空间角度损失函数Angular softmax loss：

其中N表示每个类的总样本数，x_i表示第i个样本的特征向量，

表示 x_i与该类的聚类中心W之间的角度；φ_i,j表示第i个样本的特征向量和第j个样本的特征向量之间的角度；

分类特征空间角度损失函数L_s(θ,W)表示该损失函数和网络参数θ及该类的聚类中心W相关；设输入的图片为I_i,则经过不包含最后FC2层的网络，得到特性向量x_i,利用公式可表示为x_i＝G_θ(I_i),其中G_θ表示网络模型，θ为网络模型的具体参数；

总的损失函数为：L(θ,W)＝L_s(θ,W)+λL_r(W) (3)

λ为调节分类特征空间角度损失函数和类间正则化损失函数之间比列的超参数：当λ比较大时，模型更注重类与类之间的特征距离，表现为模型区分不同人脸的精度高；当λ比较小时，模型更注重类内的特征聚类，模型对同一类识别的鲁棒性强，在本实施例中，在操场室外环境下，视频信息易受光照影响，为了增加模型的鲁棒性，将λ设置为0.5；

再计算反向传播，采用投影梯度优化：

其中L为公式(3)的总损失函数L(θ，W)，α为网络模型的学习率，t表示对模型的第t次训练；W是一个实现从提取的面部特征转换到输出类别概率的矩阵，即为图3中的FC2层；

传统FairMOT模型：

图像经编码器-解码器网络输出两个任务，分别是：目标检测和行人重识别技术ReID特征提取；编码器-解码器结构是在深度学习中公知的一项技术；

目标检测：输出候选目标中心点热图heatmap、目标包围框大小boxsize、目标中心相对原图实际位置的偏移量center offset；

ReID目标：是生成可以区分不同对象的特征；理想情况下，不同对象之间的距离应大于同一对象之间的距离；ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征，所以检测部分结果出来，其对应的ReID特征就有了；图4为ReID的结构图；

图片输入为1088*608*3，经过主干网络(编码-解码网络)，输出为 272*152*256,将输出的特征图按通道划分为4部分，如上图所示，每个部分为 272*152*64；

本发明对FairMOT的主干网络进行了改造，新改造的模型如图5所示，在网络层之间加入了更多的下采样层，实现不同层级之间更多的特征融合，提高主干网络的分辨能力：

输入的原始图片大小为1088*608*3，其主干网络首先进行4倍下采样，即采用最大池化操作，得到272*152*3的图片，重复上述下采样操作，得到一系列下采样图片，如8倍下采样对应136*76*3的图片，16倍下采样得到68*38*3 的图片，32倍下采样得到39*19*3的图片，64倍下采样得到19*9*3的图片； 64倍下采样的图片经过反卷积Deconvolution操作，采用3*3*32的卷积核，得到39*19*32的特征图；32倍下采样得到39*19*3的图片同样与3*3*32的卷积核进行卷积，得到39*19*32的特征图，这两个特征图通过ConCatenation 操作，得到39*19*64的特征图；依次类推；其中上图的keep resolution操作为采用3*3的卷积核，保持特征图的尺寸，进行卷积操作；

我们可以得到图6所示网络左侧三角形的网络部分最长列的特征图分别为：4倍下采样对应272*152*512的特征图,8倍对应136*76*256,16倍下采样对应68*38*128,32倍下采样对应39*19*64的特征图；然后这些所得到的特征图进行融合；融合的方法为4倍下采样对应272*152*512的特征图与1*1*256 的卷积核卷积，得到272*152*256的特征图，8倍特征图经过上采样upsampling 操作得到272*152*256的特征图，这2个特征图通过ConCatenation操作得到 272*152*512的特征图，然后次特征图再与1*1*128的卷积核卷积，得到 272*152*128的特征图，16倍特征图同样进行上采样，得到272*152*128的特征图，同样进行ConCatenation操作，再得到272*152*256的特征图，依次类推，当最后与64倍的特征图进行ConCatenation后，特征图为272*152*64，最后与一个3*3的卷积核卷积，保持尺寸不变，输出为272*152*64的特征图；

经过主干网络的处理，够实现图片输入为1088*608*3，经过主干网络(编码-解码网络)，输出为272*152*256,将输出的特征图按通道划分为4部分，如图4所示，每个部分为272*152*64；

然后将划分的4个部分，通过自注意力机制提高每个部分的特征分辨率，从而使模型能从跑步者的头部，肩部，身体躯干及4肢的相对特征，更精确的分辨出每一个跑步者；

如图6所示SA(self-attention)模块的结构：该SA模块的输入为 272*152*64的特征图，分两路,分别经过一个3*3*64的卷积核、一个5*5*64的卷积核，卷积步长为1，经过padding运算,变换为特征图U、特征图V，特征图 U、特征图V的尺寸与输入的尺寸一致；特征图U与特征图V进行元素相加，组成特征图F，特征图F经过最大池化层，得到1*1*64的特征向量，1*1*64的特征向量和平均池化层所得到的1*1*64维向量相加，最终得到一个1*1*64的特征向量，该1*1*64的特征向量与一个1*1*32的卷积核进行卷积，实现压缩 squeeze操作；压缩后的特征向量，分两路，每一路与一个1*1*32的卷积核卷积，得到2个1*1*64的特征向量；这2个1*1*64的特征向量分成两路，一组与特征图U进行卷积，另一组与与特征图V进行卷积，得到特征图U’、V’，特征图U’与特征图V’进行元素相加操作，得到最终的输出的特征图，输出的特征图的尺寸与输入的特征图一致，为272*152*64；

本技术通过利用正则化人脸识别模型RegularFace和FairMOT模型技术，并进行优化和改进，实现对人体特征识别并进行跟踪，从而实现高准确性的多目标跟踪和计时处理。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内；因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于多目标跟踪的智能跑步计时评分系统，其特征在于：包括两个超分辨率全景无线摄像头：第一超分别率全景无线摄像头、第二超分别率全景无线摄像头；下面简称第一摄像头、第二摄像头；第一摄像头与第二摄像头相对设置于操场跑道两弯道外侧对角位置，两摄像头各自距相应操场弯道边缘切线的垂直距离为10米，两摄像头高度均为1.85米；

2.一种基于多目标跟踪的智能跑步计时评分方法，其特征在于：具体工作流程如下：

1)、当跑步者位于起跑线时，启动处理第一摄像机的线程，以下简称第一线程，该第一线程利用第一摄像机采集视频，调用正则化人脸识别模型RegularFace计算处理，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用FairMOT多目标跟踪模型追踪跑步者；

2)、规定第一摄像机的视野线为操场跑道靠近第一摄像机的弯道起始点，跑步者是沿跑道逆时针跑步，当跑步者越过第一摄像机的视野线时，启动第二线程并同时将跑步者的ID发送给该第二线程，所述第二线程利用第二摄像机采集视频，调用正则化人脸识别模型RegularFace计算处理，通过与数据库存储的跑步者的个人信息进行对比，确定跑步者的ID信息，同时调用FairMOT多目标跟踪模型追踪跑步者；此后，只要有跑步者越过第一摄像机的视野线，系统就会把该跑步者的ID信息发送第二线程；同时，第一线程依然运行，直至最后一名跑步者越过第一摄像机的视野线，则第一线程挂起；

所述正则化人脸识别模型RegularFace网络结构,其主干网络采用残差网络resnet20，其中的conv3*3@X表示3*3的卷积层，其中输出的为X个特征图；112×96×3的特征图输入卷积层conv3*3@64计算，卷积层conv3*3@64采用3*3的卷积核，64个通道，输出的特征图有64个；卷积层conv3*3@64输出的特征图送入卷积层conv3*3@128计算，卷积层conv3*3@128采用3*3的卷积核，128个通道，输出的特征图有128个；卷积层conv3*3@64输出的特征图与卷积层conv3*3@128输出的特征图逐个元素相加后送入卷积层conv3*3@256计算，卷积层conv3*3@256采用3*3的卷积核，256个通道，输出的特征图有256个；卷积层conv3*3@128输出的特征图与卷积层conv3*3@256输出的特征图逐个元素相加后送入卷积层conv3*3@512计算，卷积层conv3*3@512采用3*3的卷积核，512个通道，输出的特征图有512个；卷积层conv3*3@256输出的特征图与卷积层conv3*3@512输出的特征图逐个元素相加后送入FCI层即卷积层linear@512计算，FC1为第一个全连接层fully connected layers，在整个卷积神经网络中起到“分类器”的作用；全连接层FC2则起到将前述网络学习到的“分布式特征表示”映射到样本标记空间的作用；全连接层FC2的核心操作就是矩阵向量乘积y＝Wx：

FC1层的输出为512维的特征图，FC1层的输出特征图送入FC2层计算，W是一个实现从提取的面部特征转换到输出类别概率的矩阵，FC2层实现从512维的特征图到模型所需输出类别的转换，也即W矩阵；

所述W矩阵的计算方法如下：

其中Lr(W)表示类间正则化损失函数Exclusive Regularization，其中C为类别总数，即要识别的类别数，即参加3000米跑的跑步人员总数；i,j表示不同的类别，主要的目的是最小化每个类别W_i与其最近的类别W_j之间的余弦距离，W_i表示标签为第i个类别的所有输入图像经过主干网络提取特征，输出特征向量的聚类中心；

则，总的损失函数为：L(θ,W)＝L_s(θ,W)+λL_r(W) (3)

在计算反向传播，采用投影梯度优化：

所述优化的FairMOT计算方法具体如下：

初始图像经编码器-解码器网络输出两个任务，分别是：目标检测和ReID特征提取；

ReID模块的结构：该模块的输入为图片，经过其中的主干网络即编码-解码网络后输出272*152*256的特征图,将输出的特征图按通道划分为4部分，每个部分为272*152*64，对应P_{1_0},P_{2_0},P_{3_0},P_{4_0},然后经过自注意力机制模块即SA模块self-attention，相应输出为尺寸不变的特征图P_{1_1}、P_{2_1}、P_{3_1}、P_{4_1}，再经过一个1x1x32的卷积和最大池化操作，提取特征信息，输出为P_{1_2}、P_{2_2}、P_{3_2}、P_{4_2}，最后经过特征拼接操作ConCatenation，输出为1x1x128的特征向量P_out；

改造后的FairMOT主干网络：输入的原始图片大小为1088*608*3，其主干网络首先进行4倍下采样，即采用最大池化操作，得到L₁层272*152*3的特征图，再经过一次下采样，得到L₂层8倍下采样对应136*76*3的特征图，该特征图经过一次上采样，得到272*152*32的特征图；L₁层4倍下采样272*152*3的特征图经过一个保持分辨率的卷积操作，得到272*152*32的特征图；两图经过一个特征拼接操作ConCatenation，得到L₂层4倍下采样272*152*64的特征图，以此类推，L₃层对应的4倍下采样272*152*128的特征图，L₄层对应4倍下采样272*152*256的特征图，L₅层对应的4倍下采样272*152*512的特征图；L₂层8倍下采样的特征图再经过一次下采样，得到16倍下采样68*38*3的特征图，同理，得到32倍下采样的39*19*3的特征图，得到64倍下采样的19*9*3特征图；64倍下采样的图片经过反卷积计算Deconvolution，采用3*3*32的卷积核，得到39*19*32的特征图，32倍下采样的图片经过反卷积计算Deconvolution，采用3*3*32的卷积核，得到39*19*3的图片，这两个39*19*32的特征图通过ConCatenation操作，得到39*19*64的特征图；依次类推；其中上图的keepresolution操作为采用3*3的卷积核，保持特征图的尺寸，进行卷积操作；

所述网络L₅层特征图分别为：4倍下采样对应272*152*512的特征图,8倍下采样对应136*76*256的特征图,16倍下采样对应68*38*128的特征图,32倍下采样对应39*19*64的特征图，然后将这些所得到的特征图进行融合，融合的方法为：4倍下采样对应272*152*512的特征图与1*1*256的卷积核卷积，得到272*152*256的特征图，8倍特征图经过上采样upsampling操作得到272*152*256的特征图，这2个272*152*256的特征图通过ConCatenation操作得到新的272*152*512的特征图，然后该新的272*152*512的特征图再与1*1*128的卷积核卷积，得到272*152*128的特征图；同理，16倍特征图进行上采样，得到272*152*128的特征图，同样进行ConCatenation操作，再得到272*152*256的特征图；依次类推，当最后与64倍的特征图进行ConCatenation操作后，得到的特征图为272*152*64，最后将该得到的272*152*64特征图与一个3*3的卷积核卷积，保持尺寸不变，输出为272*152*64的特征图；

所述SA模块的输入为272*152*64的特征图，分两路：一路经过一个3*3*64的卷积核，卷积步长为1，经过padding运算,变换为特征图U，另一路经过一个5*5*64的卷积核，卷积步长为1，经过padding运算,变换为特征图V；特征图U和V的尺寸与输入的尺寸一致；特征图U和特征图V进行元素相加，组成特征图F，特征图F经过最大池化层，得到1*1*64的特征向量，与平均池化层所得到的1*1*64维向量相加，最终得到一个1*1*64的特征向量，该1*1*64的特征向量与一个1*1*32的卷积核进行卷积，实现压缩squeeze操作；压缩后的特征向量分别与两个1*1*32的卷积核卷积，得到2个1*1*64的特征向量；这2个1*1*64的特征向量分别与特征图U、V进行卷积，相应得到特征图U’、V’，特征图U’与特征图V’进行元素相加操作，得到最终输出的特征图，输出的特征图的尺寸与输入一致，为272*152*64。