CN112258559A - 一种基于多目标跟踪的智能跑步计时评分系统和方法 - Google Patents

一种基于多目标跟踪的智能跑步计时评分系统和方法 Download PDF

Info

Publication number
CN112258559A
CN112258559A CN202011152872.1A CN202011152872A CN112258559A CN 112258559 A CN112258559 A CN 112258559A CN 202011152872 A CN202011152872 A CN 202011152872A CN 112258559 A CN112258559 A CN 112258559A
Authority
CN
China
Prior art keywords
feature
camera
runner
convolution
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011152872.1A
Other languages
English (en)
Other versions
CN112258559B (zh
Inventor
易锐
邰海军
蒋伟
柯钦瑜
黄勇
曾凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xuanwei Medical Technology Co ltd
Original Assignee
Shanghai Xuanwei Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xuanwei Medical Technology Co ltd filed Critical Shanghai Xuanwei Medical Technology Co ltd
Priority to CN202011152872.1A priority Critical patent/CN112258559B/zh
Publication of CN112258559A publication Critical patent/CN112258559A/zh
Application granted granted Critical
Publication of CN112258559B publication Critical patent/CN112258559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

一种基于多目标跟踪的智能跑步计时评分系统及方法,所述方法具体如下:当跑步者位于起跑线时,启动处理第一线程,该第一线程利用第一摄像机采集视频,调用正则化人脸识别模型RegularFace计算处理,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用FairMOT多目标跟踪模型追踪跑步者;当跑步者越过第一摄像机的视野线时,启动第二线程并同时将跑步者的ID发送给该第二线程;当跑步者越过第二摄像机的视野线时,若第一线程处于挂起状态,则唤醒第一线程;否则直接把跑步者的ID发送给第一线程;当跑步者越过终点线时,系统自动记录跑步者的时间,并将跑步时间存储进数据库的个人信息档案中。

Description

一种基于多目标跟踪的智能跑步计时评分系统和方法
技术领域
本发明涉及人工智能自动识别技术领域,尤其涉及一种基于多目标跟踪的智能跑步计时评分系统。
背景技术
目前的体育项目比如在操场上的长跑,由于跑完全程,需要围绕操场跑道绕多圈,并且跑步者有多名,这样,如果为了准确统计,需要每一个跑步者都有一个专门的监督员进行跟踪计圈和计时,这是非常低效率的,并且人工计圈计时也会产生作弊或者计圈计时错误的情况,如果可以利用摄像技术和计算机技术实现每一个跑步者的实时跟踪,将大大提高效率和准确性。
发明内容
为解决上述技术问题,本发明提供了一种基于多目标跟踪的智能跑步计时评分系统和一种基于多目标跟踪的智能跑步计时评分方法。
一种基于多目标跟踪的智能跑步计时评分系统,其中:包括两个超分辨率全景无线摄像头:第一超分别率全景无线摄像头、第二超分别率全景无线摄像头;下面简称第一摄像头、第二摄像头;第一摄像头与第二摄像头相对设置于操场跑道两弯道外侧对角位置,两摄像头各自距相应操场弯道边缘切线的垂直距离为10米,两摄像头高度均为1.85米;
第一摄像头的视野一侧边缘覆盖区域涵盖操场跑道第一直道外围,第一摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第二摄像头的视野一侧边缘覆盖区域涵盖操场跑道第二直道外围,第二摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第一摄像头的视野与第二摄像头的视野在操场跑道包围范围的中部有重叠区域;
第一摄像头、第二摄像头分别通过无线通信网络将图像信息发送给无线路由器,无线路由器则通过有线通讯线路连接计算机,同时视频图像信息及分析处理结果通过计算机显示;第一摄像头和第二摄像头持续采集跑步者的视频信息,实时发送至无线路由器,无线路由器接收后发送至计算机进行处理;实时视频信息中跑步者通过目标跟踪识别,实现边界框bbox的跟踪。
一种基于多目标跟踪的智能跑步计时评分系统,其中:具体工作流程如下:
1)、当跑步者位于起跑线时,系统启动处理第一摄像机的线程,以下简称第一线程,该第一线程利用第一摄像机采集视频,调用正则化人脸识别模型 RegularFace计算处理,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用FairMOT多目标跟踪模型追踪跑步者;
2)、规定第一摄像机的视野线为操场跑道靠近第一摄像机的弯道起始点,跑步者是沿跑道逆时针跑步,当跑步者越过第一摄像机的视野线时,系统将启动第二线程并同时将跑步者的ID发送给该第二线程,所述第二线程利用第二摄像机采集视频,调用正则化人脸识别模型RegularFace计算处理,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用FairMOT 多目标跟踪模型追踪跑步者;此后,只要有跑步者越过第一摄像机的视野线,系统就会把该跑步者的ID信息发送第二线程;同时,第一线程依然运行,直至最后一名跑步者越过第一摄像机的视野线,则第一线程挂起;
3)、同理,当跑步者越过第二摄像机的视野线时,规定第二摄像机的视野线为赛场靠近第二摄像机的弯道起始点:若第一线程处于挂起状态,则唤醒第一线程;否则直接把跑步者的ID发送给第一线程,第一线程负责对该目标的继续跟踪;
4)、当跑步者越过终点线时,系统自动记录跑步者的时间,并将跑步时间存储进数据库的个人信息档案中;
所述正则化人脸识别模型RegularFace网络结构,其主干网络采用残差网络resnet20,其中的conv3*3@X表示3*3的卷积层,其中输出的为X个特征图; 112×96×3的特征图输入卷积层conv3*3@64计算,卷积层conv3*3@64采用3*3 的卷积核,64个通道,输出的特征图有64个;卷积层conv3*3@64输出的特征图送入卷积层conv3*3@128计算,卷积层conv3*3@128采用3*3的卷积核,128 个通道,输出的特征图有128个;卷积层conv3*3@64输出的特征图与卷积层 conv3*3@128输出的特征图逐个元素相加后送入卷积层conv3*3@256计算,卷积层conv3*3@256采用3*3的卷积核,256个通道,输出的特征图有256个;卷积层conv3*3@128输出的特征图与卷积层conv3*3@256输出的特征图逐个元素相加后送入卷积层conv3*3@512计算,卷积层conv3*3@512采用3*3的卷积核,512个通道,输出的特征图有512个;卷积层conv3*3@256输出的特征图与卷积层conv3*3@512输出的特征图逐个元素相加后送入FCI层即卷积层 linear@512计算,FC1为第一个全连接层fully connectedlayers,在整个卷积神经网络中起到“分类器”的作用;全连接层FC2则起到将前述网络学习到的“分布式特征表示”映射到样本标记空间的作用;全连接层FC2的核心操作就是矩阵向量乘积y=Wx:
FC1层的输出为512维的特征图,FC1层的输出特征图送入FC2层计算,W 是一个实现从提取的面部特征转换到输出类别概率的矩阵,FC2层实现从512 维的特征图到模型所需输出类别的转换,也即W矩阵;
所述W矩阵的计算方法如下:
Figure BDA0002741718020000041
其中Lr(W)表示类间正则化损失函数Exclusive Regularization,其中C 为类别总数,即要识别的类别数,即参加3000米跑的跑步人员总数;i,j表示不同的类别,主要的目的是最小化每个类别Wi与其最近的类别Wj之间的余弦距离,Wi表示标签为第i个类别的所有输入图像经过主干网络提取特征,输出特征向量的聚类中心;
Figure BDA0002741718020000042
最近的类别Wj是计算所有其他类别与i类别聚类中心的欧式距离,选取最小的为Wj
Figure BDA0002741718020000051
Ls(θ,W)是分类特征空间角度损失函数Angular softmax loss,Ls(θ,W)表示该损失函数与网络参数θ及该类的聚类中心W相关;其中N表示每个类的总样本数,xi表示第i个样本的特征向量,
Figure BDA0002741718020000053
表示xi与该类的聚类中心W之间的角度;φi,j表示第i个样本的特征向量和第j个样本的特征向量之间的角度;
设输入的图片为Ii,则经过不包含最后FC2的网络,得到特性向量xi,利用公式可表示为xi=Gθ(Ii),其中Gθ表示网络模型,θ为网络模型的具体参数;
则,总的损失函数为:L(θ,W)=Ls(θ,W)+λLr(W) (3)
λ为调节分类特征空间角度损失函数和类间正则化损失函数之间比列的超参数;λ设置为0.5;
在计算反向传播,采用投影梯度优化:
Figure BDA0002741718020000052
其中L为公式(3)的总损失函数L(θ,W),α为网络模型的学习率,t表示对模型的第t次训练;W是一个实现从提取的面部特征转换到输出类别概率的矩阵,即FC2层;
所述优化的FairMOT计算方法具体如下:
初始图像经编码器-解码器网络输出两个任务,分别是:目标检测和ReID 特征提取;
目标检测:输出候选目标中心点热图heatmap、目标包围框大小box size、目标中心相对原图实际位置的偏移量center offset;
ReID特征提取,是生成可以区分不同对象的特征;理想情况下,不同对象之间的距离应大于同一对象之间的距离;ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征。
ReID模块的结构:该模块的输入为图片,经过其中的主干网络即编码-解码网络后输出272*152*256的特征图,将输出的特征图按通道划分为4部分,每个部分为272*152*64,对应P1_0,P2_0,P3_0,P4_0,然后经过自注意力机制模块即 SA模块self-attention,相应输出为尺寸不变的特征图P1_1、P2_1、P3_1、P4_1,再经过一个1x1x32的卷积和最大池化操作,提取特征信息,输出为P1_2、P2_2、 P3_2、P4_2,最后经过特征拼接操作ConCatenation,输出为1x1x128的特征向量 Pout
改造后的FairMOT主干网络:输入的原始图片大小为1088*608*3,其主干网络首先进行4倍下采样,即采用最大池化操作,得到L1层272*152*3的特征图,再经过一次下采样,得到L2层8倍下采样对应136*76*3的特征图,该特征图经过一次上采样,得到272*152*32的特征图;L1层4倍下采样272*152*3 的特征图经过一个保持分辨率的卷积操作,得到272*152*32的特征图;两图经过一个特征拼接操作ConCatenation,得到L2层4倍下采样272*152*64的特征图,以此类推,L3层对应的4倍下采样272*152*128的特征图,L4层对应4倍下采样272*152*256的特征图,L5层对应的4倍下采样272*152*512的特征图; L2层8倍下采样的特征图再经过一次下采样,得到16倍下采样68*38*3的特征图,同理,得到32倍下采样的39*19*3的特征图,得到64倍下采样的19*9*3 特征图;64倍下采样的图片经过反卷积计算Deconvolution,采用3*3*32的卷积核,得到39*19*32的特征图,32倍下采样的图片经过反卷积计算 Deconvolution,采用3*3*32的卷积核,得到39*19*3的图片,这两个39*19*32 的特征图通过ConCatenation操作,得到39*19*64的特征图;依次类推;其中上图的keepresolution操作为采用3*3的卷积核,保持特征图的尺寸,进行卷积操作;
所述网络L5层特征图分别为:4倍下采样对应272*152*512的特征图,8倍下采样对应136*76*256的特征图,16倍下采样对应68*38*128的特征图,32倍下采样对应39*19*64的特征图,然后将这些所得到的特征图进行融合,融合的方法为:4倍下采样对应272*152*512的特征图与1*1*256的卷积核卷积,得到272*152*256的特征图,8倍特征图经过上采样upsampling操作得到 272*152*256的特征图,这2个272*152*256的特征图通过ConCatenation操作得到新的272*152*512的特征图,然后该新的272*152*512的特征图再与 1*1*128的卷积核卷积,得到272*152*128的特征图;同理,16倍特征图进行上采样,得到272*152*128的特征图,同样进行ConCatenation操作,再得到 272*152*256的特征图;依次类推,当最后与64倍的特征图进行ConCatenation 操作后,得到的特征图为272*152*64,最后将该得到的272*152*64特征图与一个3*3的卷积核卷积,保持尺寸不变,输出为272*152*64的特征图;
经过主干网络的处理,实现:图片输入为1088*608*3,经过主干网络即编码-解码网络,输出图片为272*152*256;将输出的特征图按通道划分为4部分,每个部分为272*152*64;
然后将按通道划分的4个部分,通过自注意力机制提高每个部分的特征分辨率,从而使模型能从跑步者的头部,肩部,身体躯干及4肢的相对特征,更精确的分辨出每一个跑步者;
所述SA模块的输入为272*152*64的特征图,分两路:一路经过一个3*3*64 的卷积核,卷积步长为1,经过padding运算,变换为特征图U,另一路经过一个5*5*64的卷积核,卷积步长为1,经过padding运算,变换为特征图V;特征图U和V的尺寸与输入的尺寸一致;特征图U和特征图V进行元素相加,组成特征图F,特征图F经过最大池化层,得到1*1*64的特征向量,与平均池化层所得到的1*1*64维向量相加,最终得到一个1*1*64的特征向量,该1*1*64的特征向量与一个1*1*32的卷积核进行卷积,实现压缩squeeze操作;压缩后的特征向量分别与两个1*1*32的卷积核卷积,得到2个1*1*64的特征向量;这2个1*1*64的特征向量分别与特征图U、V进行卷积,相应得到特征图U’、 V’,特征图U’与特征图V’进行元素相加操作,得到最终输出的特征图,输出的特征图的尺寸与输入一致,为272*152*64。
本发明提供的一种基于多目标跟踪的智能跑步计时评分系统和一种基于多目标跟踪的智能跑步计时评分方法,利用两个摄像头,将操场跑道完全纳入摄像范围内,用两个摄像头无缝衔接实时摄像,利用计算机技术将两个摄像头输入的图片进行计算处理:调用正则化人脸识别模型RegularFace,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用 FairMOT多目标跟踪模型追踪跑步者,从而实现每一个跑步者的实时跟踪、计时。
附图说明
图1为本发明一种基于多目标跟踪的智能跑步计时评分系统中两摄像头在操场上的安装位置图以及两摄像头与计算机的通讯线路图;
图2为本发明一种基于多目标跟踪的智能跑步计时评分方法的流程图;
图3为所述正则化人脸识别模型网络的结构图;
图4为行人重识别技术ReID模型的结构图;
图5为本发明中所采用的优化后的FairMOT模型的主干网络示意图
图6为本发明中所采用的SA模块结构图。
具体实施方式
本发明提供了一种基于多目标跟踪的跑步智能计时评分系统,其特征在于:包括两个超分辨率全景无线摄像头:第一超分别率全景无线摄像头(以下简称“第一摄像头”)、第二超分别率全景无线摄像头(以下简称“第二摄像头”);其中第一摄像头与第二摄像头对角设置于操场跑道外侧位置,具体的摄像头距离操场弯道边缘切线的垂直距离为10米,摄像头高度为1.85米,如图1所示。
第一摄像头的视野一侧边缘覆盖区域涵盖操场跑道第一直道外围,第一摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第二摄像头的视野一侧边缘覆盖区域涵盖操场跑道第二直道外围,第二摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第一摄像头的视野与第二摄像头的视野在操场跑道包围范围的中部有重叠区域;通过这种位置设置,第一摄像头和第二摄像头能够实现操场跑道的视野全覆盖,如图1所示,实线为摄像头的视野覆盖面积,这样第一、第二摄像头的视野共同覆盖了全部跑道并有重叠的视野区。
图1中虚线表示无线信号传输,且箭头指明了信号传输的方向;第一一头和第二摄像头分别通过无线通信网络(本实施例为WiFi)将图像信息发送给无线路由器,无线路由器则通过有线通讯线路连接计算机,同时视频图像信息及分析处理结果通过计算机显示;第一摄像头和第二摄像头持续采集跑步者的视频信息,通过无线路由器接收,发送至计算机通过核心程序进行处理;实时视频信息中跑步者通过目标跟踪识别,实现边界框bbox的跟踪。
具体流程见图2,本发明还提供了一种基于多目标跟踪的跑步智能计时评分方法的具体工作流程如下:
1)当跑步者位于起跑线时,系统启动处理第一摄像机的线程(以下简称第一线程),该线程利用第一摄像机采集视频,调用正则化人脸识别模型RegularFace,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的 ID信息,同时调用FairMOT多目标跟踪模型追踪跑步者;
2)当跑步者越过第一摄像机的视野线(规定第一摄像机的视野线为赛场靠近第一摄像机赛道的弯道起始点)时,跑步者是沿跑道逆时针跑步,系统将启动第二线程并同时将跑步者的ID发送给该第二线程,,第二线程是利用第二摄像机的视频,调用FairMOT多目标跟踪模型,通过系统发送的跑步者的ID,实现跑步者的目标跟踪;此后,只要有跑步者越过第一摄像机的视野线,系统就会把该跑步者的ID信息发送第二线程;同时,第一线程依然运行,直至最后一名跑步者越过第一摄像机的视野线,则第一线程挂起;
3)同样的,当跑步者越过第二摄像机的视野线时,规定第二摄像机的视野线为赛场靠近第二摄像机赛道的弯道起始点,若第一线程处于挂起状态,则唤醒第一线程;否则直接把跑步者的ID发送给第一线程,第一线程负责对该目标的继续跟踪;
4)当跑步者越过终点线时,系统自动记录跑步者的时间,并将跑步时间存储进数据库的个人信息档案中;
所述的正则化人脸识别模型RegularFace网络结构,见图3所示,其中正则化人脸识别模型RegularFace的主干网络采用残差网络resnet20,其中“conv3*3@X”表示3*3的卷积层,其中输出的为X个特征图(例如,conv3*3@64,表示卷积层采用3*3的卷积核,64个通道,输出的特征图有64个);各卷积层之间的⊕表示逐个元素的相加和;W是一个实现从提取的面部特征转换到输出类别概率的矩阵;FC1为第一个全连接层fully connected layers,在整个卷积神经网络中起到“分类器”的作用,输出为512维的特征;全连接层FC2 则起到将学到的“分布式特征表示”映射到样本标记空间的作用;全连接层FC2 的核心操作就是矩阵向量乘积y=Wx,FC2层实现从512维到模型所需输出类别的转换,也即W矩阵;
所述W矩阵的计算方法如下:
类间正则化损失函数Exclusive Regularization的公式如下:
Figure BDA0002741718020000121
其中Lr(W)表示类间正则化损失函数,其中C为类别总数,即要识别的类别数,在本实施例中,指参加3000米跑的跑步者人员总数;i,j表示不同的类别,主要的目的是最小化每个类别W与其最近的类别Wj之间的余弦距离;
Figure BDA0002741718020000122
为计算所有其他类别与i类别聚类中心的欧式距离,选取最小的为Wj
分类特征空间角度损失函数Angular softmax loss:
Figure BDA0002741718020000131
其中N表示每个类的总样本数,xi表示第i个样本的特征向量,
Figure BDA0002741718020000132
表示 xi与该类的聚类中心W之间的角度;φi,j表示第i个样本的特征向量和第j个样本的特征向量之间的角度;
分类特征空间角度损失函数Ls(θ,W)表示该损失函数和网络参数θ及该类的聚类中心W相关;设输入的图片为Ii,则经过不包含最后FC2层的网络,得到特性向量xi,利用公式可表示为xi=Gθ(Ii),其中Gθ表示网络模型,θ为网络模型的具体参数;
总的损失函数为:L(θ,W)=Ls(θ,W)+λLr(W) (3)
λ为调节分类特征空间角度损失函数和类间正则化损失函数之间比列的超参数:当λ比较大时,模型更注重类与类之间的特征距离,表现为模型区分不同人脸的精度高;当λ比较小时,模型更注重类内的特征聚类,模型对同一类识别的鲁棒性强,在本实施例中,在操场室外环境下,视频信息易受光照影响,为了增加模型的鲁棒性,将λ设置为0.5;
再计算反向传播,采用投影梯度优化:
Figure BDA0002741718020000141
其中L为公式(3)的总损失函数L(θ,W),α为网络模型的学习率,t表示对模型的第t次训练;W是一个实现从提取的面部特征转换到输出类别概率的矩阵,即为图3中的FC2层;
传统FairMOT模型:
图像经编码器-解码器网络输出两个任务,分别是:目标检测和行人重识别技术ReID特征提取;编码器-解码器结构是在深度学习中公知的一项技术;
目标检测:输出候选目标中心点热图heatmap、目标包围框大小boxsize、目标中心相对原图实际位置的偏移量center offset;
ReID目标:是生成可以区分不同对象的特征;理想情况下,不同对象之间的距离应大于同一对象之间的距离;ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征,所以检测部分结果出来,其对应的ReID特征就有了;图4为ReID的结构图;
图片输入为1088*608*3,经过主干网络(编码-解码网络),输出为 272*152*256,将输出的特征图按通道划分为4部分,如上图所示,每个部分为 272*152*64;
本发明对FairMOT的主干网络进行了改造,新改造的模型如图5所示,在 网络层之间加入了更多的下采样层,实现不同层级之间更多的特征融合,提高 主干网络的分辨能力:
输入的原始图片大小为1088*608*3,其主干网络首先进行4倍下采样,即采用最大池化操作,得到272*152*3的图片,重复上述下采样操作,得到一系列下采样图片,如8倍下采样对应136*76*3的图片,16倍下采样得到68*38*3 的图片,32倍下采样得到39*19*3的图片,64倍下采样得到19*9*3的图片; 64倍下采样的图片经过反卷积Deconvolution操作,采用3*3*32的卷积核,得到39*19*32的特征图;32倍下采样得到39*19*3的图片同样与3*3*32的卷积核进行卷积,得到39*19*32的特征图,这两个特征图通过ConCatenation 操作,得到39*19*64的特征图;依次类推;其中上图的keep resolution操作为采用3*3的卷积核,保持特征图的尺寸,进行卷积操作;
我们可以得到图6所示网络左侧三角形的网络部分最长列的特征图分别为:4倍下采样对应272*152*512的特征图,8倍对应136*76*256,16倍下采样对应68*38*128,32倍下采样对应39*19*64的特征图;然后这些所得到的特征图进行融合;融合的方法为4倍下采样对应272*152*512的特征图与1*1*256 的卷积核卷积,得到272*152*256的特征图,8倍特征图经过上采样upsampling 操作得到272*152*256的特征图,这2个特征图通过ConCatenation操作得到 272*152*512的特征图,然后次特征图再与1*1*128的卷积核卷积,得到 272*152*128的特征图,16倍特征图同样进行上采样,得到272*152*128的特征图,同样进行ConCatenation操作,再得到272*152*256的特征图,依次类推,当最后与64倍的特征图进行ConCatenation后,特征图为272*152*64,最后与一个3*3的卷积核卷积,保持尺寸不变,输出为272*152*64的特征图;
经过主干网络的处理,够实现图片输入为1088*608*3,经过主干网络(编码-解码网络),输出为272*152*256,将输出的特征图按通道划分为4部分,如图4所示,每个部分为272*152*64;
然后将划分的4个部分,通过自注意力机制提高每个部分的特征分辨率,从而使模型能从跑步者的头部,肩部,身体躯干及4肢的相对特征,更精确的分辨出每一个跑步者;
如图6所示SA(self-attention)模块的结构:该SA模块的输入为 272*152*64的特征图,分两路,分别经过一个3*3*64的卷积核、一个5*5*64的 卷积核,卷积步长为1,经过padding运算,变换为特征图U、特征图V,特征图 U、特征图V的尺寸与输入的尺寸一致;特征图U与特征图V进行元素相加,组 成特征图F,特征图F经过最大池化层,得到1*1*64的特征向量,1*1*64的特 征向量和平均池化层所得到的1*1*64维向量相加,最终得到一个1*1*64的特 征向量,该1*1*64的特征向量与一个1*1*32的卷积核进行卷积,实现压缩 squeeze操作;压缩后的特征向量,分两路,每一路与一个1*1*32的卷积核卷 积,得到2个1*1*64的特征向量;这2个1*1*64的特征向量分成两路,一组 与特征图U进行卷积,另一组与与特征图V进行卷积,得到特征图U’、V’,特 征图U’与特征图V’进行元素相加操作,得到最终的输出的特征图,输出的特 征图的尺寸与输入的特征图一致,为272*152*64;
本技术通过利用正则化人脸识别模型RegularFace和FairMOT模型技术,并进行优化和改进,实现对人体特征识别并进行跟踪,从而实现高准确性的多目标跟踪和计时处理。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内;因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (2)

1.一种基于多目标跟踪的智能跑步计时评分系统,其特征在于:包括两个超分辨率全景无线摄像头:第一超分别率全景无线摄像头、第二超分别率全景无线摄像头;下面简称第一摄像头、第二摄像头;第一摄像头与第二摄像头相对设置于操场跑道两弯道外侧对角位置,两摄像头各自距相应操场弯道边缘切线的垂直距离为10米,两摄像头高度均为1.85米;
第一摄像头的视野一侧边缘覆盖区域涵盖操场跑道第一直道外围,第一摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第二摄像头的视野一侧边缘覆盖区域涵盖操场跑道第二直道外围,第二摄像头的视野另一侧边缘径向穿入操场跑道包围范围的中部;第一摄像头的视野与第二摄像头的视野在操场跑道包围范围的中部有重叠区域;
第一摄像头、第二摄像头分别通过无线通信网络将图像信息发送给无线路由器,无线路由器则通过有线通讯线路连接计算机,同时视频图像信息及分析处理结果通过计算机显示;第一摄像头和第二摄像头持续采集跑步者的视频信息,实时发送至无线路由器,无线路由器接收后发送至计算机进行处理;实时视频信息中跑步者通过目标跟踪识别,实现边界框bbox的跟踪。
2.一种基于多目标跟踪的智能跑步计时评分方法,其特征在于:具体工作流程如下:
1)、当跑步者位于起跑线时,启动处理第一摄像机的线程,以下简称第一线程,该第一线程利用第一摄像机采集视频,调用正则化人脸识别模型RegularFace计算处理,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用FairMOT多目标跟踪模型追踪跑步者;
2)、规定第一摄像机的视野线为操场跑道靠近第一摄像机的弯道起始点,跑步者是沿跑道逆时针跑步,当跑步者越过第一摄像机的视野线时,启动第二线程并同时将跑步者的ID发送给该第二线程,所述第二线程利用第二摄像机采集视频,调用正则化人脸识别模型RegularFace计算处理,通过与数据库存储的跑步者的个人信息进行对比,确定跑步者的ID信息,同时调用FairMOT多目标跟踪模型追踪跑步者;此后,只要有跑步者越过第一摄像机的视野线,系统就会把该跑步者的ID信息发送第二线程;同时,第一线程依然运行,直至最后一名跑步者越过第一摄像机的视野线,则第一线程挂起;
3)、同理,当跑步者越过第二摄像机的视野线时,规定第二摄像机的视野线为赛场靠近第二摄像机的弯道起始点:若第一线程处于挂起状态,则唤醒第一线程;否则直接把跑步者的ID发送给第一线程,第一线程负责对该目标的继续跟踪;
4)、当跑步者越过终点线时,系统自动记录跑步者的时间,并将跑步时间存储进数据库的个人信息档案中;
所述正则化人脸识别模型RegularFace网络结构,其主干网络采用残差网络resnet20,其中的conv3*3@X表示3*3的卷积层,其中输出的为X个特征图;112×96×3的特征图输入卷积层conv3*3@64计算,卷积层conv3*3@64采用3*3的卷积核,64个通道,输出的特征图有64个;卷积层conv3*3@64输出的特征图送入卷积层conv3*3@128计算,卷积层conv3*3@128采用3*3的卷积核,128个通道,输出的特征图有128个;卷积层conv3*3@64输出的特征图与卷积层conv3*3@128输出的特征图逐个元素相加后送入卷积层conv3*3@256计算,卷积层conv3*3@256采用3*3的卷积核,256个通道,输出的特征图有256个;卷积层conv3*3@128输出的特征图与卷积层conv3*3@256输出的特征图逐个元素相加后送入卷积层conv3*3@512计算,卷积层conv3*3@512采用3*3的卷积核,512个通道,输出的特征图有512个;卷积层conv3*3@256输出的特征图与卷积层conv3*3@512输出的特征图逐个元素相加后送入FCI层即卷积层linear@512计算,FC1为第一个全连接层fully connected layers,在整个卷积神经网络中起到“分类器”的作用;全连接层FC2则起到将前述网络学习到的“分布式特征表示”映射到样本标记空间的作用;全连接层FC2的核心操作就是矩阵向量乘积y=Wx:
FC1层的输出为512维的特征图,FC1层的输出特征图送入FC2层计算,W是一个实现从提取的面部特征转换到输出类别概率的矩阵,FC2层实现从512维的特征图到模型所需输出类别的转换,也即W矩阵;
所述W矩阵的计算方法如下:
Figure FDA0002741718010000041
其中Lr(W)表示类间正则化损失函数Exclusive Regularization,其中C为类别总数,即要识别的类别数,即参加3000米跑的跑步人员总数;i,j表示不同的类别,主要的目的是最小化每个类别Wi与其最近的类别Wj之间的余弦距离,Wi表示标签为第i个类别的所有输入图像经过主干网络提取特征,输出特征向量的聚类中心;
Figure FDA0002741718010000042
最近的类别Wj是计算所有其他类别与i类别聚类中心的欧式距离,选取最小的为Wj
Figure FDA0002741718010000043
Ls(θ,W)是分类特征空间角度损失函数Angular softmax loss,Ls(θ,W)表示该损失函数与网络参数θ及该类的聚类中心W相关;其中N表示每个类的总样本数,xi表示第i个样本的特征向量,
Figure FDA0002741718010000044
表示xi与该类的聚类中心W之间的角度;φi,j表示第i个样本的特征向量和第j个样本的特征向量之间的角度;
设输入的图片为Ii,则经过不包含最后FC2的网络,得到特性向量xi,利用公式可表示为xi=Gθ(Ii),其中Gθ表示网络模型,θ为网络模型的具体参数;
则,总的损失函数为:L(θ,W)=Ls(θ,W)+λLr(W) (3)
λ为调节分类特征空间角度损失函数和类间正则化损失函数之间比列的超参数;λ设置为0.5;
在计算反向传播,采用投影梯度优化:
Figure FDA0002741718010000051
其中L为公式(3)的总损失函数L(θ,W),α为网络模型的学习率,t表示对模型的第t次训练;W是一个实现从提取的面部特征转换到输出类别概率的矩阵,即FC2层;
所述优化的FairMOT计算方法具体如下:
初始图像经编码器-解码器网络输出两个任务,分别是:目标检测和ReID特征提取;
目标检测:输出候选目标中心点热图heatmap、目标包围框大小box size、目标中心相对原图实际位置的偏移量center offset;
ReID特征提取,是生成可以区分不同对象的特征;理想情况下,不同对象之间的距离应大于同一对象之间的距离;ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征。
ReID模块的结构:该模块的输入为图片,经过其中的主干网络即编码-解码网络后输出272*152*256的特征图,将输出的特征图按通道划分为4部分,每个部分为272*152*64,对应P1_0,P2_0,P3_0,P4_0,然后经过自注意力机制模块即SA模块self-attention,相应输出为尺寸不变的特征图P1_1、P2_1、P3_1、P4_1,再经过一个1x1x32的卷积和最大池化操作,提取特征信息,输出为P1_2、P2_2、P3_2、P4_2,最后经过特征拼接操作ConCatenation,输出为1x1x128的特征向量Pout
改造后的FairMOT主干网络:输入的原始图片大小为1088*608*3,其主干网络首先进行4倍下采样,即采用最大池化操作,得到L1层272*152*3的特征图,再经过一次下采样,得到L2层8倍下采样对应136*76*3的特征图,该特征图经过一次上采样,得到272*152*32的特征图;L1层4倍下采样272*152*3的特征图经过一个保持分辨率的卷积操作,得到272*152*32的特征图;两图经过一个特征拼接操作ConCatenation,得到L2层4倍下采样272*152*64的特征图,以此类推,L3层对应的4倍下采样272*152*128的特征图,L4层对应4倍下采样272*152*256的特征图,L5层对应的4倍下采样272*152*512的特征图;L2层8倍下采样的特征图再经过一次下采样,得到16倍下采样68*38*3的特征图,同理,得到32倍下采样的39*19*3的特征图,得到64倍下采样的19*9*3特征图;64倍下采样的图片经过反卷积计算Deconvolution,采用3*3*32的卷积核,得到39*19*32的特征图,32倍下采样的图片经过反卷积计算Deconvolution,采用3*3*32的卷积核,得到39*19*3的图片,这两个39*19*32的特征图通过ConCatenation操作,得到39*19*64的特征图;依次类推;其中上图的keepresolution操作为采用3*3的卷积核,保持特征图的尺寸,进行卷积操作;
所述网络L5层特征图分别为:4倍下采样对应272*152*512的特征图,8倍下采样对应136*76*256的特征图,16倍下采样对应68*38*128的特征图,32倍下采样对应39*19*64的特征图,然后将这些所得到的特征图进行融合,融合的方法为:4倍下采样对应272*152*512的特征图与1*1*256的卷积核卷积,得到272*152*256的特征图,8倍特征图经过上采样upsampling操作得到272*152*256的特征图,这2个272*152*256的特征图通过ConCatenation操作得到新的272*152*512的特征图,然后该新的272*152*512的特征图再与1*1*128的卷积核卷积,得到272*152*128的特征图;同理,16倍特征图进行上采样,得到272*152*128的特征图,同样进行ConCatenation操作,再得到272*152*256的特征图;依次类推,当最后与64倍的特征图进行ConCatenation操作后,得到的特征图为272*152*64,最后将该得到的272*152*64特征图与一个3*3的卷积核卷积,保持尺寸不变,输出为272*152*64的特征图;
经过主干网络的处理,实现:图片输入为1088*608*3,经过主干网络即编码-解码网络,输出图片为272*152*256;将输出的特征图按通道划分为4部分,每个部分为272*152*64;
然后将按通道划分的4个部分,通过自注意力机制提高每个部分的特征分辨率,从而使模型能从跑步者的头部,肩部,身体躯干及4肢的相对特征,更精确的分辨出每一个跑步者;
所述SA模块的输入为272*152*64的特征图,分两路:一路经过一个3*3*64的卷积核,卷积步长为1,经过padding运算,变换为特征图U,另一路经过一个5*5*64的卷积核,卷积步长为1,经过padding运算,变换为特征图V;特征图U和V的尺寸与输入的尺寸一致;特征图U和特征图V进行元素相加,组成特征图F,特征图F经过最大池化层,得到1*1*64的特征向量,与平均池化层所得到的1*1*64维向量相加,最终得到一个1*1*64的特征向量,该1*1*64的特征向量与一个1*1*32的卷积核进行卷积,实现压缩squeeze操作;压缩后的特征向量分别与两个1*1*32的卷积核卷积,得到2个1*1*64的特征向量;这2个1*1*64的特征向量分别与特征图U、V进行卷积,相应得到特征图U’、V’,特征图U’与特征图V’进行元素相加操作,得到最终输出的特征图,输出的特征图的尺寸与输入一致,为272*152*64。
CN202011152872.1A 2020-10-26 2020-10-26 一种基于多目标跟踪的智能跑步计时评分系统和方法 Active CN112258559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011152872.1A CN112258559B (zh) 2020-10-26 2020-10-26 一种基于多目标跟踪的智能跑步计时评分系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011152872.1A CN112258559B (zh) 2020-10-26 2020-10-26 一种基于多目标跟踪的智能跑步计时评分系统和方法

Publications (2)

Publication Number Publication Date
CN112258559A true CN112258559A (zh) 2021-01-22
CN112258559B CN112258559B (zh) 2024-05-07

Family

ID=74262386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011152872.1A Active CN112258559B (zh) 2020-10-26 2020-10-26 一种基于多目标跟踪的智能跑步计时评分系统和方法

Country Status (1)

Country Link
CN (1) CN112258559B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113486757A (zh) * 2021-06-29 2021-10-08 北京科技大学 基于人体骨骼关键点检测的多人直线跑步测试计时方法
CN116453067A (zh) * 2023-06-20 2023-07-18 广州思林杰科技股份有限公司 基于动态视觉识别的短跑计时方法
CN117710827A (zh) * 2024-02-06 2024-03-15 华东交通大学 基于改进RetinaNet的遥感图像目标检测模型

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
CN109784182A (zh) * 2018-12-17 2019-05-21 北京飞搜科技有限公司 行人重识别方法和装置
CN109978077A (zh) * 2019-04-08 2019-07-05 南京旷云科技有限公司 视觉识别方法、装置和系统及存储介质
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
CN110688873A (zh) * 2018-07-04 2020-01-14 上海智臻智能网络科技股份有限公司 多目标追踪方法及人脸识别方法
CN111639535A (zh) * 2020-04-29 2020-09-08 深圳英飞拓智能技术有限公司 基于深度学习的人脸识别方法及装置
CN111767847A (zh) * 2020-06-29 2020-10-13 佛山市南海区广工大数控装备协同创新研究院 一种集成目标检测和关联的行人多目标跟踪方法
CN112070802A (zh) * 2020-09-02 2020-12-11 合肥英睿系统技术有限公司 一种目标跟踪方法、装置、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
CN110688873A (zh) * 2018-07-04 2020-01-14 上海智臻智能网络科技股份有限公司 多目标追踪方法及人脸识别方法
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
CN109784182A (zh) * 2018-12-17 2019-05-21 北京飞搜科技有限公司 行人重识别方法和装置
CN109978077A (zh) * 2019-04-08 2019-07-05 南京旷云科技有限公司 视觉识别方法、装置和系统及存储介质
CN111639535A (zh) * 2020-04-29 2020-09-08 深圳英飞拓智能技术有限公司 基于深度学习的人脸识别方法及装置
CN111767847A (zh) * 2020-06-29 2020-10-13 佛山市南海区广工大数控装备协同创新研究院 一种集成目标检测和关联的行人多目标跟踪方法
CN112070802A (zh) * 2020-09-02 2020-12-11 合肥英睿系统技术有限公司 一种目标跟踪方法、装置、设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AI算法修炼营: ""多目标跟踪|FairMOT:统一检测、重识别的多目标跟踪框架,全新Baseline"", pages 1 - 10, Retrieved from the Internet <URL:《https://cloud.tencent.com/developer/article/1634149》> *
CHAO LIANG: ""Rethinking the Competition Between Detection and ReID in Multiobject Tracking"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 31, pages 3182 - 3196 *
吴庆洪: ""稀疏表示和支持向量机相融合的非理想环境人脸识别"", 《计算机科学》, vol. 47, no. 06, pages 121 - 125 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113435336B (zh) * 2021-06-28 2022-10-04 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113486757A (zh) * 2021-06-29 2021-10-08 北京科技大学 基于人体骨骼关键点检测的多人直线跑步测试计时方法
CN116453067A (zh) * 2023-06-20 2023-07-18 广州思林杰科技股份有限公司 基于动态视觉识别的短跑计时方法
CN116453067B (zh) * 2023-06-20 2023-09-08 广州思林杰科技股份有限公司 基于动态视觉识别的短跑计时方法
CN117710827A (zh) * 2024-02-06 2024-03-15 华东交通大学 基于改进RetinaNet的遥感图像目标检测模型

Also Published As

Publication number Publication date
CN112258559B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN112258559A (zh) 一种基于多目标跟踪的智能跑步计时评分系统和方法
CN110110642B (zh) 一种基于多通道注意力特征的行人重识别方法
CN111079584A (zh) 基于改进YOLOv3的快速车辆检测方法
CN110197152B (zh) 一种用于自动驾驶系统的道路目标识别方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN107622229A (zh) 一种基于融合特征的视频车辆重识别方法与系统
CN110598654A (zh) 多粒度交叉模态特征融合行人再识别方法和再识别系统
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及系统
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
CN112674998B (zh) 基于快速深度神经网络和移动智能设备的盲人交通路口辅助方法
CN105138987B (zh) 一种基于聚合通道特征和运动估计的车辆检测方法
CN111915583B (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN112784756A (zh) 人体识别跟踪方法
Linda et al. Color-mapped contour gait image for cross-view gait recognition using deep convolutional neural network
Zhou et al. YOLO-CIR: The network based on YOLO and ConvNeXt for infrared object detection
CN115147644A (zh) 图像描述模型的训练和描述方法、系统、设备及存储介质
CN116597326A (zh) 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN114332942A (zh) 基于改进YOLOv3的夜间红外行人检测方法及系统
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
Gerhardt et al. Neural network-based traffic sign recognition in 360° images for semi-automatic road maintenance inventory
CN110363101A (zh) 一种基于cnn特征融合框架的花卉识别方法
CN114332601A (zh) 一种基于语义分割的采摘机器人非结构化道路识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant