CN116071710A - 一种基于智慧体育场馆监控视频的客流量统计方法 - Google Patents

一种基于智慧体育场馆监控视频的客流量统计方法 Download PDF

Info

Publication number
CN116071710A
CN116071710A CN202310356877.3A CN202310356877A CN116071710A CN 116071710 A CN116071710 A CN 116071710A CN 202310356877 A CN202310356877 A CN 202310356877A CN 116071710 A CN116071710 A CN 116071710A
Authority
CN
China
Prior art keywords
target
frame
detection
formula
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310356877.3A
Other languages
English (en)
Other versions
CN116071710B (zh
Inventor
刘星
司马军辉
刘长远
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wishare Information Technology Co ltd
Original Assignee
Nanjing Wishare Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wishare Information Technology Co ltd filed Critical Nanjing Wishare Information Technology Co ltd
Priority to CN202310356877.3A priority Critical patent/CN116071710B/zh
Publication of CN116071710A publication Critical patent/CN116071710A/zh
Application granted granted Critical
Publication of CN116071710B publication Critical patent/CN116071710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于智慧体育场馆监控视频的客流量统计方法,首先将智慧体育场馆监控视频输入至目标检测网络并得到目标检测结果,再根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框,随后对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征,随后基于获得的目标深度外观特征;本发明实现了具有在计算量较小的情况下还能够获得很好的目标检测功能,且Soft‑NMS能利用降低而非过滤的特性对遮挡的目标进行检测并提高了目标被遮挡时的准确率,提高了模型的提取特征能力,降低了模型误检、漏检和错误切换ID等问题的发生。

Description

一种基于智慧体育场馆监控视频的客流量统计方法
技术领域
本发明涉及体育场馆监控视频统计技术领域,具体涉及一种基于智慧体育场馆监控视频的客流量统计方法。
背景技术
随着网络和多媒体信息处理技术的不断发展,智能视频监控系统作为安全防范、城市规划和市场决策的一种重要手段越来越受追崇,并广泛应用于银行、医院、车站和商场等公共场所中。
目前,传统的跟踪算法普遍是利用手工方式提取目标表观特征,并进行相似特征的搜索以实现目标追踪,这样容易受到光照和遮挡等因素的影响,且对图像的特征信息不能全面利用;因此,需要设计一种基于智慧体育场馆监控视频的客流量统计方法。
发明内容
本发明的目的是克服现有技术的不足,为更好的解决传统跟踪算法由于普遍是利用手工方式提取目标表观特征,从而导致容易受到光照和遮挡等因素影响的问题,提供了一种基于智慧体育场馆监控视频的客流量统计方法,其实现了具有在计算量较小的情况下还能够获得很好的目标检测功能,且Soft-NMS能利用降低而非过滤的特性对遮挡的目标进行检测并提高了目标被遮挡时的准确率,提高了模型的提取特征能力。
为了达到上述目的,本发明所采用的技术方案是:
一种基于智慧体育场馆监控视频的客流量统计方法,包括以下步骤,
步骤(A),将智慧体育场馆监控视频输入至目标检测网络,得到目标检测结果;
步骤(B),根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框;
步骤(C),对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征;
步骤(D),基于获得的目标深度外观特征,利用卡尔曼算法对目标轨迹进行预测,得到预测好的目标轨迹;
步骤(E),将目标检测结果与预测好的目标轨迹之间进行级联匹配,若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对;
步骤(F),基于级联匹配和IOU匹配的结果,通过数据关联为每个目标分配不同的跟踪ID,完成客流量统计作业。
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(A),将智慧体育场馆监控视频输入至目标检测网络,得到目标检测结果,其中目标检测网络采用1个3×3卷积和11个连续Bneck结构组成,目标检测网络的具体检测步骤如下,
步骤(A1),将监控视频输入3×3卷积,得到初步处理结果,其中3×3卷积采用h-swish为激活函数;
步骤(A2),将初步处理结果输入11个连续Bneck结构,得到第二特征图,其中Bneck结构具体处理步骤如下,
步骤(A21),采用1×1卷积进行升维,再进行3×3深度可分离卷积,得到第一特征图;
步骤(A22),对得到的第一特征图加入SE模块,再经过1×1卷积得到第二特征图;
步骤(A3),将第二特征图送入FPN+PAN结构中进行卷积和采样操作,得到不同尺度特征信息,其中FPN结构采用自顶向下式的上采样,而PAN结构采用自底向上式的下采样。
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(B),根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框,具体步骤如下,
步骤(B1),根据获得的目标检测结果构建YOLOv5损失函数,具体步骤如下,
步骤(B11),选择CioU Loss作为边界框时的损失函数,如公式(1)和公式(2)所示,
Figure SMS_1
Figure SMS_2
其中,
Figure SMS_3
表示预测框和真实框相交的面积与预测框和真实框合并的面积之比,
Figure SMS_4
表示预测框与真实框中心点的欧式距离,
Figure SMS_5
表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,
Figure SMS_6
表示权重参数,
Figure SMS_7
表示衡量长宽比的相似性;
步骤(B12),
Figure SMS_8
Figure SMS_9
的计算公式分别如公式(3)和公式(4)所示,
Figure SMS_10
Figure SMS_11
其中,
Figure SMS_12
Figure SMS_13
Figure SMS_14
Figure SMS_15
分别代表预测框的高宽和真实框的高宽;
步骤(B13),CIoU Loss如公式(5)所示,
Figure SMS_16
步骤(B14),每个视频样本单独计算边界框损失、置信度损失和分类损失,并求取所有样本的平均值,再将三个损失相加就得到了YOLOv5的损失函数,如公式(6)所示,
Figure SMS_17
其中,
Figure SMS_18
为样本的置信度损失,
Figure SMS_19
为样本的分类损失;
步骤(B2),对构建好的YOLOv5损失函数进行优化,其中优化的是重新生成更适合数据集的先验框,采用
Figure SMS_20
代替
Figure SMS_21
计算
Figure SMS_22
算法的距离度量,如公式(7)和公式(8)所示,
Figure SMS_23
Figure SMS_24
其中,
Figure SMS_25
Figure SMS_26
算法的距离度量。
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(C),对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征,具体步骤如下,
步骤(C1),对获得的目标所在位置检测框进行过滤,其中过滤是采用基于
Figure SMS_27
Figure SMS_28
算法,基于
Figure SMS_29
Figure SMS_30
算法的分数重置函数如公式(9) 所示,
Figure SMS_31
其中,
Figure SMS_32
为检测框,
Figure SMS_33
为待检测框,
Figure SMS_34
为待检测框的分数,
Figure SMS_35
为阈值;
步骤(C2),通过行人重识别网络提取检测框中的目标深度外观特征,其中行人重识别网络采用的是基于ReID网络结构的多尺度模块MReID网络,具体提取步骤如下,
步骤(C21),对检测框进行多尺度模块处理,再通过两个卷积层提取图像特征至池化层,其中多尺度模块包括四条支路,具体处理步骤如下,
步骤(C211),每条支路均先经过一个1×1卷积,且除第一条支路外,其余每条支路均分别经过卷积大小为3×3、5×5和7×7的卷积,再将不同尺寸的卷积层信息进行融合;
步骤(C212),将四条支路分别经过rate为1、3、5和7的空洞卷积进行融合特征,再完成对目标特征的提取;
步骤(C213),将rate为1和3的卷积层输出进行融合,并将rate为5和7卷积层输出进行融合,再将不同rate特征融合,接着将融合后的特征经 1×1 卷积的输出与Shortcut的输出相加后进行激活操作,得到最终的结果;
步骤(C22),将池化层输出的图像特征经过六个残差块,输出所提取到的外观特征,并在Dense层输出维度为128的特征向量;
步骤(C23),将特征向量通过归一化层投影到单位超球面上,并计算目标间的相似性,再与余弦度量兼容。
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(D),基于获得的目标深度外观特征,利用卡尔曼算法对目标轨迹进行预测,得到预测好的目标轨迹,其中卡尔曼算法是预测目标出现在下一帧中的位置和大小,具体步骤如下,
步骤(D1),将当前目标框的状态定义为
Figure SMS_36
,其中
Figure SMS_37
为坐标框的中心点位置,
Figure SMS_38
为坐标框的纵横比,
Figure SMS_39
为坐标框的高度,
Figure SMS_40
为当前目标框对应变量的对应速度信息;
步骤(D2),定义当前目标框的观测变量为
Figure SMS_41
,得到状态预测公式和协方差公式如公式(10)和公式(11)所示,
Figure SMS_42
Figure SMS_43
其中,
Figure SMS_45
为最新状态估计值,
Figure SMS_47
为上一时间点的状态估计值,
Figure SMS_49
为状态控制向量,
Figure SMS_46
为控制矩阵,
Figure SMS_48
为外部环境噪音,
Figure SMS_50
为状态转移矩阵,
Figure SMS_51
为当前状态与上一状态之间的协方差矩阵,
Figure SMS_44
为上一状态与上上状态之间的协方差矩阵;
步骤(D3),由公式(10)和公式(11)所求得的状态量能得到最优估计,如公式(12)和公式(13)所示,
Figure SMS_52
Figure SMS_53
其中,
Figure SMS_54
为当前状态的最优估计,
Figure SMS_55
为卡尔曼增益矩阵,
Figure SMS_56
为观测值,
Figure SMS_57
为观测噪声的协方差矩阵,
Figure SMS_58
是观测矩阵;
步骤(D4),重新计算当前的协方差并进行更新,且更新后所得到的协方差矩阵如公式(14)所示,再根据更新后的向量
Figure SMS_59
能得到预测目标的轨迹,
Figure SMS_60
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(E),将目标检测结果与预测好的目标轨迹之间进行级联匹配,若级联匹配失败,使用两个目标框之间的IOU 作为匹配度量,并对剩余的物体进行配对,其中对输入的视频帧进行判断,若为第一帧,则对所有检测目标进行初始化,否则开始匹配流程;
步骤(E1),将目标框检测结果与预测好的目标轨迹之间进行级联匹配,其中级联匹配度量是马氏距离和余弦相似度线性结合,如公式(15)所示,且当
Figure SMS_61
同时小于马氏距离度量和余弦相似度度量所设阈值时,目标框级联匹配成功;
Figure SMS_62
Figure SMS_63
Figure SMS_64
其中,
Figure SMS_67
为级联匹配度量,
Figure SMS_71
为马氏距离度量,
Figure SMS_76
为余弦相似度度量,
Figure SMS_66
为跟踪物体更新后的卡尔曼协方差矩阵,
Figure SMS_72
为第
Figure SMS_75
个跟踪物体更新后得到的卡尔曼状态,
Figure SMS_79
是第
Figure SMS_65
个目标检测物体的状态,
Figure SMS_70
为第
Figure SMS_74
个跟踪物体其第
Figure SMS_78
帧历史特征,
Figure SMS_68
为对于每个跟踪物体保留其100帧的历史特征,
Figure SMS_69
为第
Figure SMS_73
个检测物体的特征,
Figure SMS_77
为调节两种度量方式对关联影响的超参数;
步骤(E2),若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对,其具体是将卡尔曼滤波器算法得到的预测后的位置信息
Figure SMS_80
转换为目标框坐标
Figure SMS_81
,如公式(18)所示,这样通过计算两组目标框坐标的距离作为两个目标框之间的重合度,若两个目标框之间的重合度大于所设定阈值时,则两个物体能进行匹配;
Figure SMS_82
(18)
其中,
Figure SMS_83
Figure SMS_84
为边框左上角坐标,和为边框右下角坐标。
前述的一种基于智慧体育场馆监控视频的客流量统计方法,步骤(F),基于级联匹配和IOU匹配的结果,通过数据关联为每个目标分配不同的跟踪ID,完成客流量统计作业,其中若依次进行级联匹配和IOU匹配后还剩余未匹配物体,则认为该物体为新出现的物体,并分配该物体新的 ID,初始化其跟踪状态。
本发明的有益效果是:本发明的一种基于智慧体育场馆监控视频的客流量统计方法,首先以YOLOv5为基础设计了一个更轻量级的深度神经网络,不仅降低了运算成本,还提高了目标检测精度,同时通过加入的通道注意力机制能增强目标特征,减小了模型权重,接着在DeepSort的重识别网络的基础上设计了多尺度模块,保障了跟踪效果,有效的实现了该方法具有在计算量较小的情况下还能够获得很好的目标检测功能,且Soft-NMS能利用降低而非过滤的特性对遮挡的目标进行检测并提高了目标被遮挡时的准确率,提高了模型的提取特征能力,降低了模型误检、漏检和错误切换ID等问题的发生。
附图说明
图1是本发明的整体流程图;
图2是本发明的Bneck网络结构示意图;
图3是本发明的YOLOv5整体网络结构示意图;
图4是本发明的行人重识别网络结构示意图;
图5是本发明的多尺度模块网络结构示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的一种基于智慧体育场馆监控视频的客流量统计方法,包括以下步骤,
步骤(A),将智慧体育场馆监控视频输入至目标检测网络,得到目标检测结果,其中目标检测网络采用1个3×3卷积和11个连续Bneck结构组成,目标检测网络的具体检测步骤如下,
步骤(A1),将监控视频输入3×3卷积,得到初步处理结果,其中3×3卷积采用h-swish为激活函数;
如图2所示,步骤(A2),将初步处理结果输入11个连续Bneck结构,得到第二特征图,其中Bneck结构具体处理步骤如下,
步骤(A21),采用1×1卷积进行升维,再进行3×3深度可分离卷积,得到第一特征图;
步骤(A22),对得到的第一特征图加入SE模块,再经过1×1卷积得到第二特征图;
其中,由于SE模块会消耗一定的时间,所以在含有SE模块的结构中,将扩张层中的通道变为原来的1/4,这样既提高了精度,同时也没有增加消耗时间。
如图3所示,步骤(A3),将第二特征图送入FPN+PAN结构中进行卷积和采样操作,得到不同尺度特征信息,其中FPN结构采用自顶向下式的上采样,而PAN结构采用自底向上式的下采样。
其中,通过FPN和PAN对图像进行多尺度特征融合,其中上层特征图因为网络层数更深,包含的语义信息也就更强,而下层特征图因为经过的卷积层数较少,位置信息损失就更少,FPN结构通过自顶向下进行上采样,使得底层特征图包含更强的强语义信息;PAN结构自底向上进行下采样,使顶层特征包含强位置信息,两个特征最后进行融合,使不同尺寸的特征图都包含强语义信息和强特征信息,保证了对不同尺寸的目标准确预测。
步骤(B),根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框,具体步骤如下,
步骤(B1),根据获得的目标检测结果构建YOLOv5损失函数,具体步骤如下,
其中,损失函数会影响目标框的选取,优良的损失函数可以使模型更快地达到收敛状态,从而减少模型预测值的误差。
步骤(B11),选择CioU Loss作为边界框时的损失函数,如公式(1)和公式(2)所示,
Figure SMS_85
Figure SMS_86
其中,
Figure SMS_87
表示预测框和真实框相交的面积与预测框和真实框合并的面积之比,
Figure SMS_88
表示预测框与真实框中心点的欧式距离,
Figure SMS_89
表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,
Figure SMS_90
表示权重参数,
Figure SMS_91
表示衡量长宽比的相似性;
步骤(B12),
Figure SMS_92
Figure SMS_93
的计算公式分别如公式(3)和公式(4)所示,
Figure SMS_94
Figure SMS_95
其中,
Figure SMS_96
Figure SMS_97
Figure SMS_98
Figure SMS_99
分别代表预测框的高宽和真实框的高宽;
步骤(B13),CIoU Loss如公式(5)所示,
Figure SMS_100
步骤(B14),每个视频样本单独计算边界框损失、置信度损失和分类损失,并求取所有样本的平均值,再将三个损失相加就得到了YOLOv5的损失函数,如公式(6)所示,
Figure SMS_101
其中,
Figure SMS_102
为样本的置信度损失,
Figure SMS_103
为样本的分类损失;
步骤(B2),对构建好的YOLOv5损失函数进行优化,其中优化的是重新生成更适合数据集的先验框,采用
Figure SMS_104
代替
Figure SMS_105
计算
Figure SMS_106
算法的距离度量,如公式(7)和公式(8)所示,
其中,在
Figure SMS_108
聚类过程中,使用
Figure SMS_111
作为距离度量,但
Figure SMS_113
不能反映两个框的重合度,即
Figure SMS_109
相等但两框之间相交的位置不同,容易对聚类的结果造成影响。而
Figure SMS_112
则是在
Figure SMS_114
的基础上,考虑到了重叠面积和中心点距离,同时覆盖到两个框,使其对框的尺寸更敏感,因此,使用
Figure SMS_115
代替
Figure SMS_107
计算
Figure SMS_110
算法的距离度量;
Figure SMS_116
Figure SMS_117
其中,
Figure SMS_118
Figure SMS_119
算法的距离度量。
步骤(C),对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征,具体步骤如下,
步骤(C1),对获得的目标所在位置检测框进行过滤,其中过滤是采用基于
Figure SMS_120
Figure SMS_121
算法,基于
Figure SMS_122
Figure SMS_123
算法的分数重置函数如公式(9) 所示,
其中,NMS算法作为目标检测的最后一步,将目标检测算法的结果进行过滤,去除冗余的检测框,NMS算法会优先过滤掉相邻的检测框,因为相邻的检测框能被认为是同一个目标,这就导致在遮挡情况下会出现漏检问题;因此,提出基于
Figure SMS_124
Figure SMS_125
算法;算法将遮挡的检测框还会保留一段时间,然后判断这个检测框是否属于一个目标而不是重复的检测框,从而降低模型对被遮掩的目标的漏检;
Figure SMS_126
其中,
Figure SMS_127
为检测框,
Figure SMS_128
为待检测框,
Figure SMS_129
为待检测框的分数,
Figure SMS_130
为阈值;
如图4所示,步骤(C2),通过行人重识别网络提取检测框中的目标深度外观特征,其中行人重识别网络采用的是基于ReID网络结构的多尺度模块MReID网络,具体提取步骤如下,
其中,对于多目标跟踪任务,利用已检测出的目标信息将当前帧的目标与已跟踪的目标做数据关联,并保持目标ID的稳定;Deep Sort通过使用距离信息度量和外观信息度量的线性加权作为最终度量,对目标跟踪过程中出现的因遮挡而短时间消失的目标能够稳定的连接之前的轨迹,并维持目标ID稳定;Deep Sort中表观特征提取采用的是行人重识别领域中的ReID网络结构,该网络对特征的提取其实是不够深入的,并且行人多目标总是表现出不同的尺寸大小,因此在进行状态匹配时易出现匹配错误的现象,从而影响跟踪的准确度;本发明基于ReID网络提出了多尺度模块的MReID网络,该网络通过改变卷积核与特征图的计算方式,在保持参数不变的情况下,使得特征提取的范围变大,提高了特征的辨识度,使模型更具有鲁棒性;
如图5所示,步骤(C21),对检测框进行多尺度模块处理,再通过两个卷积层提取图像特征至池化层,其中多尺度模块包括四条支路,具体处理步骤如下,
步骤(C211),每条支路均先经过一个1×1卷积,且除第一条支路外,其余每条支路均分别经过卷积大小为3×3、5×5和7×7的卷积,再将不同尺寸的卷积层信息进行融合;
步骤(C212),将四条支路分别经过rate为1、3、5和7的空洞卷积进行融合特征,再完成对目标特征的提取;
步骤(C213),将rate为1和3的卷积层输出进行融合,并将rate为5和7卷积层输出进行融合,再将不同rate特征融合,接着将融合后的特征经 1×1 卷积的输出与Shortcut的输出相加后进行激活操作,得到最终的结果;
步骤(C22),将池化层输出的图像特征经过六个残差块,输出所提取到的外观特征,并在Dense层输出维度为128的特征向量;
步骤(C23),将特征向量通过归一化层投影到单位超球面上,并计算目标间的相似性,再与余弦度量兼容。
步骤(D),基于获得的目标深度外观特征,利用卡尔曼算法对目标轨迹进行预测,得到预测好的目标轨迹,其中卡尔曼算法是预测目标出现在下一帧中的位置和大小,具体步骤如下,
步骤(D1),将当前目标框的状态定义为
Figure SMS_131
,其中
Figure SMS_132
为坐标框的中心点位置,
Figure SMS_133
为坐标框的纵横比,
Figure SMS_134
为坐标框的高度,
Figure SMS_135
为当前目标框对应变量的对应速度信息;
步骤(D2),定义当前目标框的观测变量为
Figure SMS_136
,得到状态预测公式和协方差公式如公式(10)和公式(11)所示,
Figure SMS_137
Figure SMS_138
其中,
Figure SMS_141
为最新状态估计值,
Figure SMS_143
为上一时间点的状态估计值,
Figure SMS_145
为状态控制向量,
Figure SMS_140
为控制矩阵,
Figure SMS_142
为外部环境噪音,
Figure SMS_144
为状态转移矩阵,
Figure SMS_146
为当前状态与上一状态之间的协方差矩阵,
Figure SMS_139
为上一状态与上上状态之间的协方差矩阵;
步骤(D3),由公式(10)和公式(11)所求得的状态量能得到最优估计,如公式(12)和公式(13)所示,
Figure SMS_147
Figure SMS_148
其中,
Figure SMS_149
为当前状态的最优估计,
Figure SMS_150
为卡尔曼增益矩阵,
Figure SMS_151
为观测值,
Figure SMS_152
为观测噪声的协方差矩阵,
Figure SMS_153
是观测矩阵;
步骤(D4),重新计算当前的协方差并进行更新,且更新后所得到的协方差矩阵如公式(14)所示,再根据更新后的向量
Figure SMS_154
能得到预测目标的轨迹,
Figure SMS_155
步骤(E),将目标检测结果与预测好的目标轨迹之间进行级联匹配,若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对,其中对输入的视频帧进行判断,若为第一帧,则对所有检测目标进行初始化,否则开始匹配流程;
步骤(E1),将目标框检测结果与预测好的目标轨迹之间进行级联匹配,其中级联匹配度量是马氏距离和余弦相似度线性结合,如公式(15)所示,且当
Figure SMS_156
同时小于马氏距离度量和余弦相似度度量所设阈值时,目标框级联匹配成功;
Figure SMS_157
Figure SMS_158
Figure SMS_159
其中,
Figure SMS_162
为级联匹配度量,
Figure SMS_164
为马氏距离度量,
Figure SMS_168
为余弦相似度度量,
Figure SMS_161
为跟踪物体更新后的卡尔曼协方差矩阵,
Figure SMS_167
为第
Figure SMS_171
个跟踪物体更新后得到的卡尔曼状态,
Figure SMS_174
是第
Figure SMS_160
个目标检测物体的状态,
Figure SMS_165
为第
Figure SMS_169
个跟踪物体其第
Figure SMS_172
帧历史特征,
Figure SMS_163
为对于每个跟踪物体保留其100帧的历史特征,
Figure SMS_166
为第
Figure SMS_170
个检测物体的特征,
Figure SMS_173
为调节两种度量方式对关联影响的超参数;
步骤(E2),若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对,其具体是将卡尔曼滤波器算法得到的预测后的位置信息
Figure SMS_175
转换为目标框坐标
Figure SMS_176
,如公式(18)所示,这样通过计算两组目标框坐标的
Figure SMS_177
距离作为两个目标框之间的重合度,若两个目标框之间的重合度大于所设定阈值时,则两个物体能进行匹配;
Figure SMS_178
(18)
其中,
Figure SMS_179
Figure SMS_180
为边框左上角坐标,
Figure SMS_181
Figure SMS_182
为边框右下角坐标。
步骤(F),基于级联匹配和IOU匹配的结果,通过数据关联为每个目标分配不同的跟踪ID,完成客流量统计作业,其中若依次进行级联匹配和IOU匹配后还剩余未匹配物体,则认为该物体为新出现的物体,并分配该物体新的 ID,初始化其跟踪状态。
本发明的一个具体实施例实验结果表明,本发明构建的 YOLOv5算法在 MOTA 指标上提高了 0.9%,在错误的 ID 身份切换指标上减少了38次,效果一般;本文所进行优化后的算法与现有的跟踪算法相比,MOTA 指标提高了3.8%;本发明通过提高检测精度能够提升跟踪器的跟踪效果,并且对特征提取网络进行的优化后,也提高了一定的跟踪准确度。
综上所述,本发明实现了具有在计算量较小的情况下还能够获得很好的目标检测功能,且Soft-NMS能利用降低而非过滤的特性对遮挡的目标进行检测并提高了目标被遮挡时的准确率,提高了模型的提取特征能力,降低了模型误检、漏检和错误切换ID等问题的发生。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:包括以下步骤,
步骤(A),将智慧体育场馆监控视频输入至目标检测网络,得到目标检测结果;
步骤(B),根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框;
步骤(C),对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征;
步骤(D),基于获得的目标深度外观特征,利用卡尔曼算法对目标轨迹进行预测,得到预测好的目标轨迹;
步骤(E),将目标检测结果与预测好的目标轨迹之间进行级联匹配,若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对;
步骤(F),基于级联匹配和IOU匹配的结果,通过数据关联为每个目标分配不同的跟踪ID,完成客流量统计作业。
2.根据权利要求1所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(A),将智慧体育场馆监控视频输入至目标检测网络,得到目标检测结果,其中目标检测网络采用1个3×3卷积和11个连续Bneck结构组成,目标检测网络的具体检测步骤如下,
步骤(A1),将监控视频输入3×3卷积,得到初步处理结果,其中3×3卷积采用h-swish为激活函数;
步骤(A2),将初步处理结果输入11个连续Bneck结构,得到第二特征图,其中Bneck结构具体处理步骤如下,
步骤(A21),采用1×1卷积进行升维,再进行3×3深度可分离卷积,得到第一特征图;
步骤(A22),对得到的第一特征图加入SE模块,再经过1×1卷积得到第二特征图;
步骤(A3),将第二特征图送入FPN+PAN结构中进行卷积和采样操作,得到不同尺度特征信息,其中FPN结构采用自顶向下式的上采样,而PAN结构采用自底向上式的下采样。
3.根据权利要求1所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(B),根据获得的目标检测结果构建YOLOv5损失函数,并对构建好的YOLOv5损失函数进行优化,获得目标所在位置检测框,具体步骤如下,
步骤(B1),根据获得的目标检测结果构建YOLOv5损失函数,具体步骤如下,
步骤(B11),选择CioU Loss作为边界框时的损失函数,如公式(1)和公式(2)所示,
Figure QLYQS_1
Figure QLYQS_2
其中,
Figure QLYQS_3
表示预测框和真实框相交的面积与预测框和真实框合并的面积之比,
Figure QLYQS_4
表示预测框与真实框中心点的欧式距离,
Figure QLYQS_5
表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,
Figure QLYQS_6
表示权重参数,
Figure QLYQS_7
表示衡量长宽比的相似性;
步骤(B12),
Figure QLYQS_8
Figure QLYQS_9
的计算公式分别如公式(3)和公式(4)所示,
Figure QLYQS_10
Figure QLYQS_11
其中,
Figure QLYQS_12
Figure QLYQS_13
Figure QLYQS_14
Figure QLYQS_15
分别代表预测框的高宽和真实框的高宽;
步骤(B13),CIoU Loss如公式(5)所示,
Figure QLYQS_16
步骤(B14),每个视频样本单独计算边界框损失、置信度损失和分类损失,并求取所有样本的平均值,再将三个损失相加就得到了YOLOv5的损失函数,如公式(6)所示,
Figure QLYQS_17
其中,
Figure QLYQS_18
为样本的置信度损失,
Figure QLYQS_19
为样本的分类损失;
步骤(B2),对构建好的YOLOv5损失函数进行优化,其中优化的是重新生成更适合数据集的先验框,采用
Figure QLYQS_20
代替
Figure QLYQS_21
计算
Figure QLYQS_22
算法的距离度量,如公式(7)和公式(8)所示,
Figure QLYQS_23
Figure QLYQS_24
其中,
Figure QLYQS_25
Figure QLYQS_26
算法的距离度量。
4.根据权利要求3所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(C),对获得的目标所在位置检测框进行过滤,再通过行人重识别网络提取检测框中的目标深度外观特征,具体步骤如下,
步骤(C1),对获得的目标所在位置检测框进行过滤,其中过滤是采用基于
Figure QLYQS_27
Figure QLYQS_28
算法,基于
Figure QLYQS_29
Figure QLYQS_30
算法的分数重置函数如公式(9) 所示,
Figure QLYQS_31
其中,
Figure QLYQS_32
为检测框,
Figure QLYQS_33
为待检测框,
Figure QLYQS_34
为待检测框的分数,
Figure QLYQS_35
为阈值;
步骤(C2),通过行人重识别网络提取检测框中的目标深度外观特征,其中行人重识别网络采用的是基于ReID网络结构的多尺度模块MReID网络,具体提取步骤如下,
步骤(C21),对检测框进行多尺度模块处理,再通过两个卷积层提取图像特征至池化层,其中多尺度模块包括四条支路,具体处理步骤如下,
步骤(C211),每条支路均先经过一个1×1卷积,且除第一条支路外,其余每条支路均分别经过卷积大小为3×3、5×5和7×7的卷积,再将不同尺寸的卷积层信息进行融合;
步骤(C212),将四条支路分别经过rate为1、3、5和7的空洞卷积进行融合特征,再完成对目标特征的提取;
步骤(C213),将rate为1和3的卷积层输出进行融合,并将rate为5和7卷积层输出进行融合,再将不同rate特征融合,接着将融合后的特征经 1×1 卷积的输出与Shortcut的输出相加后进行激活操作,得到最终的结果;
步骤(C22),将池化层输出的图像特征经过六个残差块,输出所提取到的外观特征,并在Dense层输出维度为128的特征向量;
步骤(C23),将特征向量通过归一化层投影到单位超球面上,并计算目标间的相似性,再与余弦度量兼容。
5.根据权利要求4所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(D),基于获得的目标深度外观特征,利用卡尔曼算法对目标轨迹进行预测,得到预测好的目标轨迹,其中卡尔曼算法是预测目标出现在下一帧中的位置和大小,具体步骤如下,
步骤(D1),将当前目标框的状态定义为
Figure QLYQS_36
,其中
Figure QLYQS_37
为坐标框的中心点位置,
Figure QLYQS_38
为坐标框的纵横比,
Figure QLYQS_39
为坐标框的高度,
Figure QLYQS_40
为当前目标框对应变量的对应速度信息;
步骤(D2),定义当前目标框的观测变量为
Figure QLYQS_41
,得到状态预测公式和协方差公式如公式(10)和公式(11)所示,
Figure QLYQS_42
Figure QLYQS_43
其中,
Figure QLYQS_45
为最新状态估计值,
Figure QLYQS_48
为上一时间点的状态估计值,
Figure QLYQS_50
为状态控制向量,
Figure QLYQS_46
为控制矩阵,
Figure QLYQS_47
为外部环境噪音,
Figure QLYQS_49
为状态转移矩阵,
Figure QLYQS_51
为当前状态与上一状态之间的协方差矩阵,
Figure QLYQS_44
为上一状态与上上状态之间的协方差矩阵;
步骤(D3),由公式(10)和公式(11)所求得的状态量能得到最优估计,如公式(12)和公式(13)所示,
Figure QLYQS_52
Figure QLYQS_53
其中,
Figure QLYQS_54
为当前状态的最优估计,
Figure QLYQS_55
为卡尔曼增益矩阵,
Figure QLYQS_56
为观测值,
Figure QLYQS_57
为观测噪声的协方差矩阵,
Figure QLYQS_58
是观测矩阵;
步骤(D4),重新计算当前的协方差并进行更新,且更新后所得到的协方差矩阵如公式(14)所示,再根据更新后的向量
Figure QLYQS_59
能得到预测目标的轨迹,
Figure QLYQS_60
6.根据权利要求5所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(E),将目标检测结果与预测好的目标轨迹之间进行级联匹配,若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对,其中对输入的视频帧进行判断,若为第一帧,则对所有检测目标进行初始化,否则开始匹配流程;
步骤(E1),将目标框检测结果与预测好的目标轨迹之间进行级联匹配,其中级联匹配度量是马氏距离和余弦相似度线性结合,如公式(15)所示,且当
Figure QLYQS_61
同时小于马氏距离度量和余弦相似度度量所设阈值时,目标框级联匹配成功;
Figure QLYQS_62
Figure QLYQS_63
Figure QLYQS_64
其中,
Figure QLYQS_66
为级联匹配度量,
Figure QLYQS_70
为马氏距离度量,
Figure QLYQS_74
为余弦相似度度量,
Figure QLYQS_68
为跟踪物体更新后的卡尔曼协方差矩阵,
Figure QLYQS_71
为第
Figure QLYQS_75
个跟踪物体更新后得到的卡尔曼状态,
Figure QLYQS_78
是第
Figure QLYQS_65
个目标检测物体的状态,
Figure QLYQS_69
为第
Figure QLYQS_73
个跟踪物体其第
Figure QLYQS_77
帧历史特征,
Figure QLYQS_67
为对于每个跟踪物体保留其100帧的历史特征,
Figure QLYQS_72
为第
Figure QLYQS_76
个检测物体的特征,
Figure QLYQS_79
为调节两种度量方式对关联影响的超参数;
步骤(E2),若级联匹配失败,使用两个目标框之间的 IOU 作为匹配度量,并对剩余的物体进行配对,其具体是将卡尔曼滤波器算法得到的预测后的位置信息
Figure QLYQS_80
转换为目标框坐标
Figure QLYQS_81
,如公式(18)所示,这样通过计算两组目标框坐标的距离作为两个目标框之间的重合度,若两个目标框之间的重合度大于所设定阈值时,则两个物体能进行匹配;
Figure QLYQS_82
(18)
其中,
Figure QLYQS_83
Figure QLYQS_84
为边框左上角坐标,
Figure QLYQS_85
Figure QLYQS_86
为边框右下角坐标。
7.根据权利要求6所述的一种基于智慧体育场馆监控视频的客流量统计方法,其特征在于:步骤(F),基于级联匹配和IOU匹配的结果,通过数据关联为每个目标分配不同的跟踪ID,完成客流量统计作业,其中若依次进行级联匹配和IOU匹配后还剩余未匹配物体,则认为该物体为新出现的物体,并分配该物体新的 ID,初始化其跟踪状态。
CN202310356877.3A 2023-04-06 2023-04-06 一种基于智慧体育场馆监控视频的客流量统计方法 Active CN116071710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310356877.3A CN116071710B (zh) 2023-04-06 2023-04-06 一种基于智慧体育场馆监控视频的客流量统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310356877.3A CN116071710B (zh) 2023-04-06 2023-04-06 一种基于智慧体育场馆监控视频的客流量统计方法

Publications (2)

Publication Number Publication Date
CN116071710A true CN116071710A (zh) 2023-05-05
CN116071710B CN116071710B (zh) 2023-06-09

Family

ID=86177168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310356877.3A Active CN116071710B (zh) 2023-04-06 2023-04-06 一种基于智慧体育场馆监控视频的客流量统计方法

Country Status (1)

Country Link
CN (1) CN116071710B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854008A (zh) * 2024-01-16 2024-04-09 浙江威星电子系统软件股份有限公司 基于数字孪生的智慧运动场馆管理系统
CN118397496A (zh) * 2024-03-14 2024-07-26 中交第二航务工程局有限公司 塔机安拆工序智能识别系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633671A (zh) * 2019-09-16 2019-12-31 天津通卡智能网络科技股份有限公司 基于深度图像的公交车客流实时统计方法
CN111881749A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于rgb-d多模态数据的双向人流量统计方法
CN115311617A (zh) * 2022-07-22 2022-11-08 北京交通大学 城轨车站区域客流信息获取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633671A (zh) * 2019-09-16 2019-12-31 天津通卡智能网络科技股份有限公司 基于深度图像的公交车客流实时统计方法
CN111881749A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于rgb-d多模态数据的双向人流量统计方法
CN115311617A (zh) * 2022-07-22 2022-11-08 北京交通大学 城轨车站区域客流信息获取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854008A (zh) * 2024-01-16 2024-04-09 浙江威星电子系统软件股份有限公司 基于数字孪生的智慧运动场馆管理系统
CN118397496A (zh) * 2024-03-14 2024-07-26 中交第二航务工程局有限公司 塔机安拆工序智能识别系统及方法

Also Published As

Publication number Publication date
CN116071710B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN116071710B (zh) 一种基于智慧体育场馆监控视频的客流量统计方法
Shen et al. Fast online tracking with detection refinement
CN111079540B (zh) 一种基于目标特性的分层可重构车载视频目标检测方法
CN115830075A (zh) 一种面向行人多目标跟踪的分级关联匹配方法
CN111951297B (zh) 一种基于结构化逐像素目标注意机制的目标跟踪方法
CN107977660A (zh) 基于背景先验和前景节点的感兴趣区域检测方法
CN111950498A (zh) 一种基于端到端实例分割的车道线检测方法及装置
CN113361370B (zh) 一种基于深度学习的异常行为检测方法
Hassan et al. An adaptive sample count particle filter
Wang et al. Multi-target pedestrian tracking based on yolov5 and deepsort
CN111986225A (zh) 一种基于角点检测和孪生网络的多目标跟踪方法及装置
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
CN111784744A (zh) 一种基于视频监控的目标自动检测与跟踪方法
CN110889347B (zh) 基于时空计数特征的密度交通流计数方法及系统
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN115457082A (zh) 一种基于多特征融合增强的行人多目标跟踪算法
CN114419669A (zh) 一种基于重识别和方位感知的实时跨摄像头行人跟踪方法
CN106447698A (zh) 一种基于距离传感器的多行人跟踪方法和系统
Xiang et al. Multitarget tracking using hough forest random field
CN113012193B (zh) 一种基于深度学习的多行人跟踪方法
Xie et al. A multi-object tracking system for surveillance video analysis
CN115792890A (zh) 基于凝聚量测自适应互联的雷达多目标跟踪方法及系统
CN112907634B (zh) 基于无人机的车辆跟踪方法
CN114862914A (zh) 一种基于检测跟踪一体式的行人跟踪方法
Wu et al. Cervical cell extraction network based on optimized yolo

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant