CN113920392A - 图书馆流动人员目标检测及其多目标跟踪方法和管理系统 - Google Patents

图书馆流动人员目标检测及其多目标跟踪方法和管理系统 Download PDF

Info

Publication number
CN113920392A
CN113920392A CN202111112330.6A CN202111112330A CN113920392A CN 113920392 A CN113920392 A CN 113920392A CN 202111112330 A CN202111112330 A CN 202111112330A CN 113920392 A CN113920392 A CN 113920392A
Authority
CN
China
Prior art keywords
target
training
library
model
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111112330.6A
Other languages
English (en)
Inventor
程久军
许国望
陈嘉捷
熊永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111112330.6A priority Critical patent/CN113920392A/zh
Publication of CN113920392A publication Critical patent/CN113920392A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种图书馆流动人员目标检测及其多目标跟踪方法和管理系统。采用基于Yolov5模型的目标检测方法对视频进行目标检测,通过筛选数据集、调整合适的模型训练参数,对模型进行训练,并进行模型测试和目标检测及相关数据分析;对Deep SORT算法进行改进,对目标检测结果进行多目标跟踪;根据以上目标检测和多目标跟踪结果,构建基于物理空间数据分析的图书馆智能管理系统。本发明克服了传感器网络的成本偏高、无法对人员密集区域精确检测、对目标出现的连续性依赖较强的问题,为学生提供了无法从互联网或者电话服务提供的图书馆使用情况的实时查询服务,也为图书馆管理者通过人员实时流动情况实施图书馆个性化服务和智能管理。

Description

图书馆流动人员目标检测及其多目标跟踪方法和管理系统
技术领域
本发明涉及计算机视觉领域,具体涉及图书馆流动人员目标检测及其多目标跟踪方法。
背景技术
关于图书馆环境的目标检测,需要对图书馆学习区域的人员或物品进行计数统计,因此有必要对学习区域进行目标检测。目前存在采用红外入侵探测器来对室内人员数目进行统计的技术。虽然这种人员计数方法具有低成本、快速响应、计算量小等优势,但是该技术主要针对在单向通行场景的出入口处进行人员计数统计,并且对于并排行走的行人检测准确率较低。
使用雷达对室内人员也是一种不错的方式,其检测精度可达95%以上,且辐射较小,响应速度快,功耗较低。但是该技术仅支持对少数目标进行检测,具有很大局限性,不适用于图书馆大量密集人员数目的统计。
关于座位方面的检测,目前主要分为人工管理和传感器检测。在人工管理层面,目前多数高校对图书馆座位资源的管理仍然停留在人工检测的方式。另外,部分高校在其图书馆管理平台提供了座位预约系统,虽然能一定程度上解决高校图书馆的座位资源管理问题,但是座位预约系统并不能有效避免占座的情况出现。目前已有采用RFID技术识别学生身份以及采用红外探测器对座位使用情况进行检测的技术来规范部分学生的“占座”行为。通过采用RFID设备来读取学生的校园一卡通,来获取学生的姓名、学号等基本信息,并使用红外线感知技术来感知座位上是否有人。这种方法可以准确地判断是否存在占座行为以及获取占座学生的基本信息,起到一定的规范作用。但是该技术所必需的相关硬件需要一定成本,对于图书馆中数以千计的桌椅来说,很难推广实施。通过安装在座位背部或底部的压力传感器或加速度传感器来感知座位上是否有人也是一种检测占座行为的方式。这种方式通过压力检测或加速度检测来判断座位上是否有学生。当学生离开座位时,启动内部计时器开始计时,当超过一定时间内仍然无法检测到学生后,则会判定为占座行为。该技术所存在的问题与RFID和红外感知技术的问题相同,即成本略高,难以在座位数量庞大的高校图书馆中使用。
在多目标跟踪方面,为检测人员行动轨迹,通常需要采用计算机视觉相关算法。在计算机视觉算法方面,可通过单目标跟踪(Single Object Tracking,SOT) 或多目标跟踪(Multiple Object Tracking,MOT)来对人员行动轨迹进行检测。
关于单目标追踪,可采用以SINT和Siamese fc为代表的基于孪生网络的目标跟踪算法。其中,SINT将目标追踪转化为图像中的目标匹配问题,并设计相关网络架构解决这个问题。Siamese fc在此基础上,使用VID数据集进行预处理操作,方便后续的模型训练,提高了目标跟踪的速度。然而,在高校图书馆这个人员数量较多的场景下,通过单目标跟踪算法对拍摄到的人进行跟踪效率很低,不适用于多人行动轨迹的检测。另外,单目标跟踪只有单个目标,目标类别不限定,难以区分相似的类内对象。
关于多目标跟踪,目前比较主流的算法是SORT和Deep SORT。对于图书馆这一环境的目标跟踪均存在一定的问题。在图书馆环境下,学生会经常因为个人原因暂时离开座位,重新回到座位后也可能会识别为另一目标。
所以,现有的图书馆内的人员或物品的目标检测方法存在的问题主要有:传感器网络的成本偏高、无法对人员密集区域精确检测、对目标出现的连续性依赖较强。
发明内容
针对现有的图书馆内的人员或物品的目标检测方法存在的问题,本发明给出了基于Yolov5的目标检测及基于Deep SORT的多目标跟踪方法,并构建了图书馆智能管理系统。具体如下:
(1)针对传感器网络成本较高和无法准确检测人员密集区域的问题,首先对数据集进行筛选以迎合图书馆的实际环境,在设定好模型训练参数和训练环境之后,对模型进行训练并分析训练结果。将训练好的模型应用到图书馆的摄像头数据进行模型测试和目标检测,并对结果进行分析。通过训练目标检测模型,实现图书馆摄像头数据进行目标检测,实现对人员密集程度、人员流动情况、座位使用情况的检测;
(2)针对多目标跟踪算法普遍存在的对目标出现连续性依赖较强的问题,提出多目标跟踪算法,实现对人员行动轨迹的检测;
(3)在目标检测和多目标跟踪的基础上,实现了基于物理空间数据分析的图书馆智能管理。
为此,本发明具体给出以下技术方案实现:
技术方案一:
一种图书馆流动人员目标检测算法,其特征在于,包括如下步骤:
步骤1.1训练数据选取:实时视频检测模型采用的训练数据集是COCO数据集的一个子集,包括COCO2017数据集的5000张训练图片,3000张测试图片,选取原则为多以图书馆场景出现的标签类别为主,有效提高对图书馆场景内的人员和物品检测的准确率;
步骤1.2训练环境准备,包括操作系统、处理器、内存、系统类型、显卡、显存、CUDA版本;
步骤1.3训练参数设置,训练参数包括训练时数据集图片尺寸img、每次训练投喂数据数量batch、迭代次数epochs;
步骤1.4训练方法:首先,获取模型的训练环境、训练参数和训练数据,并对训练数据进行Mosaic增强;其次,通过配置文件获取训练集、测试集的图片路径,以及相关类别的数量和类别名字;然后,进入训练迭代:创建一个新的模型,按照Yolov5的网络结构创建模型的雏形,将数据进行向前传播,数据经过 backbone主干网络、neck部分,传播到最后时,计算相应Loss值,之后将数据反向传播,更新参数并降低学习率,在经过epochs个训练周期之后,模型训练完毕,计算相关的结果参数;模型训练算法如下:
Figure BDA0003274276030000031
Figure BDA0003274276030000041
步骤1.5训练结果获取:在训练模型时,调用wandb模块,可以查看训练过程,采用混淆矩阵分析分类模型预测结果;
步骤1.6模型测试及结果分析:利用图书馆采集到的数据来对模型进行效果测试,测试的硬件及软件环境与训练时的硬件及软件环境相同;
步骤1.7目标检测及结果分析:包括人员密集程度、人员流动程度和座位使用情况;人员密集程度检测,首先需要获知每个摄像头覆盖的区域所能提供的最大人员容量,再通过实际检测到的人数和最大容量求比值来获取该区域的人员密集程度;人员流动程度检测,需要按照一定的频率对检测人数进行采样,并于上一次采样的人数进行作差运算;座位使用情况,根据每个bounding box的中心点坐标和座位区域划分的相对位置关系判定作为是否被使用。
技术方案二:多目标跟踪算法
一种图书馆流动人员多目标跟踪算法,其特征在于,包括如下步骤:
步骤2.1符号说明
步骤2.2轨迹处理,采用Deep SORT处理检测到的目标的运动轨迹,具体算法如下:
Figure BDA0003274276030000042
Figure BDA0003274276030000051
步骤2.3匹配原则:
改进后的Deep SORT算法在SORT算法基础上,结合使用八元向量对目标运动状态的采集和估计,使用了马氏距离来预测目标的状态,如下公式所示,
di,j=(dj-yi)TSi -1(dj-yi)
公式中,di,j是目标j和轨迹i的马氏距离,表示目标j和轨迹i的匹配程度;向量dj表示目标j的状态;Si表示轨迹i的协方差矩阵;yi表示轨迹i的预测向量;使用该马氏距离来对目标进行筛选,有利于契合目标运动的连续性;
计算得到马氏距离之后,根据该马氏距离判断轨迹i和目标j是否可以匹配,具体判断方式如下公式所示,
Figure BDA0003274276030000052
公式中,d_threshold表示事先设定好的马氏距离阈值,bi,j取1表示马氏距离小于等于阈值,轨迹i和目标j有关联成功的可能性;否则bi,j取0,表示马氏距离大于阈值,轨迹i和目标j不能匹配,即使在进行匹配算法中计算得到轨迹 i和目标j满足匹配条件,也不将它们进行匹配;
计算所得到的马氏距离适用于运动不确定性较低的目标,适用于追踪图书馆中静止摄像头拍摄到的人员的行动轨迹;
对已消失但消失时间还未超过一定阈值的轨迹,按照消失时间从小到大排序,并按照此顺序依次遍历这些轨迹;以马氏距离作为参数,根据最小成本算法计算出该轨迹与未匹配对象的最佳匹配;
Figure BDA0003274276030000053
Figure BDA0003274276030000061
技术方案三:图书馆智能管理系统构建
一种图书馆流动人员管理系统,其特征在于,采用如权利要求1所述的目标检测和权利要求书2所述的多目标跟踪方法构建,系统包括客户端、服务器端、 Yolov5实时视频检测模型、改进后的Deep SORT多目标跟踪算法、系统后端、数据库;
所述客户端包括学生客户端和管理员客户端;学生客户端,在主页单击“注册”按钮之后,学生用户可以进行注册,登录之后,学生可以查看任意楼层的人员密集程度、人员流动情况;管理员客户端,用于管理员登录后查看每个学习区域的人员密集程度、人员流动情况、座位利用效率、人员行动轨迹的权限,并可以通过客户端直接查看检测后的视频;
所述服务器端调用Yolov5实时视频检测模型和改进的Deep SORT多目标跟踪算法,并与系统数据库相连,用于记录用户的基本信息,如账号、密码、学号等;
所述系统后端输出包括flask初始化、目标检测结果输出、用户请求访问网页反馈等信息;
所述数据库主要记录用户在注册时输入的基本信息。
本发明给出的图书馆流动人员目标检测及其多目标跟踪方法和管理系统具有如下有益效果:
本发明可以为学生在无法通过互联网或者电话咨询图书馆当前使用情况,以及图书馆管理人员缺乏目标检测和跟踪的实时数据从而不能有效为学生提供个性化服务和智能管理的情况下,为学生提供智能的图书馆物理空间使用情况的实时查询服务,也为图书馆管理者通过人员实时流动情况实施图书馆个性化服务和智能管理。
附表说明
表1数据集在筛选前后的图片数量
表2数据集在筛选前后的标签数量
表3训练软硬件环境
表4训练参数
表5多目标跟踪算法所使用的符号及其意义表6用户信息数据项
附图说明
图1数据集在筛选前后的图片比例
图2数据集在筛选前后的标签比例
图3输入网络的数据格式示例
图4模型训练算法流程图
图5混淆矩阵
图6模型训练结果-1
图7模型训练结果-2
图8模型训练结果-3
图9模型训练结果-4
图10模型训练结果-5
图11轨迹处理算法流程图
图12匹配原则算法流程图
图13图书馆智能管理系统示意图
图14学生客户端系统主页界面
图15学生客户端信息查看界面
图16管理员客户端信息查看界面
图17占座情况统计
图18系统后端命令行输出
图19用户信息表表项
图20本发明方法流程图
具体实施方式
本发明的具体实施过程包括目标检测算法、多目标跟踪算法和图书馆智能管理系统构建三个方面具体实施方式如下:
1.目标检测算法
(1)训练数据
COCO(Common Object in COntext)数据集是微软提供的用于图像识别的数据集。COCO数据集有至少80个类别,包括人、自行车、笔记本、鼠标、书等等。COCO数据集十分庞大。以COCO2017为例,其训练集包含至少11万张图片,测试集包含5000张图片,其总大小经压缩后大约为18GB。
由于模型训练所用计算机的相关硬件限制,本发明的实时视频检测模型采用的训练数据集是COCO数据集的一个子集,包括COCO2017数据集的5000张训练图片,3000张测试图片,选取原则为多以图书馆场景出现的标签类别为主,可以有效提高对图书馆场景内的人员和物品检测的准确率。数据集在筛选前后人物类别的图片数量如表1所示,人物类别图片的占比如图1所示,人物类别的标签数量如表2所示,人物类别标签的占比如图2所示。
(2)训练环境
本发明硬件和软件训练环境如表3所示。
(3)训练参数
训练参数如表4所示。其中,
img决定训练时数据集的图片尺寸,一般默认设定为640。img值的选取对模型训练的速度和精度影响不大,可以直接选取默认值进行模型训练。
batch决定了一次性训练的图片数量。例如,将参数batch设定为8,则一次性训练8张图片,每张图片通过Mosaic数据增强由4张图片经过随机排布、剪裁、缩放组成。
epochs是模型训练的迭代周期次数。一个迭代周期是指输入数据向前传递一次,再向后传递一次。迭代次数越多,模型训练的精准率越高,但是模型训练所花费的时间和空间成本也越高。关于Yolov5模型的训练,将epochs设定在 50~300之间都是比较合适的。
(4)训练方法
在进行正式的模型训练之前,需要设置好波形训练的轮次、批次、权重等参数,并将设定模型训练数据的路径和输出结果的路径。
首先,获取模型的训练环境、训练参数和训练数据,并对训练数据进行Mosaic 增强。Mosaic数据增强,就是在训练时,将四张图片通过随机缩放、裁剪、排布之后拼接到一起。这种方式丰富了被检测物体的背景,并且一次性计算四张图片可以提高训练效率,增强了网络的鲁棒性,减小了训练时GPU的负担。
其次,通过配置文件获取训练集、测试集的图片路径,以及相关类别的数量和类别名字。本文中模型的训练环境和训练参数如表3和表4所示,训练数据将训练数据的图片及标签描述输入到网络中
然后,进入训练迭代。创建一个新的模型,按照Yolov5的网络结构创建模型的雏形。将数据进行向前传播。数据经过backbone主干网络、neck部分。传播到最后时,计算相应Loss值。之后将数据反向传播,更新参数并降低学习率。在经过epochs个训练周期之后,模型训练完毕,计算相关的结果参数。以上训练过程的数据流动图如图3所示,相应伪代码如算法1所示。
Figure BDA0003274276030000091
模型训练算法具体流程图如图4所示。
(5)训练结果
在训练模型时,调用wandb模块,可以查看训练过程。Wandb(Weights& Biases),是一款跟踪机器学习项目的工具,在训练模型的过程中,可以自动记录模型的一些参数和输出指标,可以为用户提供可视化结果。用户在使用wandb 的过程中,可以实时获取损失函数、准确率等参数,交互式可视化调试体验极佳。
混淆矩阵是机器学习中用来分析分类模型预测结果的矩阵,用来表示多个类别之间是否存在混淆,即某一个类别被预测为另一个类别。显然,该矩阵的对角线元素数值越大,则说明混淆存在的可能性越小。
本发明训练的模型的混淆矩阵如图5所示。在图中,使用灰色的正方形来表示混淆矩阵中的元素数值。颜色越深,表示值越接近1,横坐标对应类别更有可能被识别为相应纵坐标对应类别。
模型训练结果-1如图6所示。
Box:即GIoU Loss,是GIoU损失函数的均值。随迭代次数增加而减小,目标检测边框越准;经过50次迭代之后,降至0.04077。val Box:测试集的Loss,也随迭代次数增加而减小;经过50次迭代之后,降至0.05035。
模型训练结果-2如图7所示。
Objectness:目标检测Loss均值;经过50次迭代之后,降至0.05646。
val Objectness:测试集目标检测Loss均值;经过50次迭代之后,达到0.06043。
模型训练结果-3如图8所示。
Classification:目标分类Loss均值;经过50次迭代之后,降至0.01347
val Classification:测试集目标分类Loss均值;经过50次迭代之后,降至0.02752。
模型训练结果-4如图9所示。
Precision:目标检测精确率,其基本趋势为随着迭代次数的增加而增加,迭代50次后,达到0.5408。
Recall:目标检测的召回率,其基本趋势为随着迭代次数的增加而增加,迭代50次后,达到0.4091。
模型训练结果-5如图10所示。
mAP@0.5:0.95:IoU阈值取0.5时的AP,随迭代次数增加而增加。迭代50 次后,达到0.4108。
mAP@0.5:0.95:IoU阈值取0.5、0.55、0.6、...、0.95时的mAP取均值,随迭代次数增加而增加。迭代50次后,达到0.2452。
(6)模型测试及结果分析
利用图书馆采集到的数据来对模型进行效果测试,测试的硬件及软件环境与训练时的硬件及软件环境相同。对于绝大多数目标进行检测的结果来说,结果是准确的。对于近处的人、椅子、书本、笔记本电脑等物品均有较高的检测准确率对于远处的人或物品,在视频图像中所占面积较小,使得模型很难实现正确检测。但对于粗略的人员密度、人员流动、座位资源使用情况进行分析已经绰绰有余。另外,可以根据对图书馆摄像头的检测结果来确定最大可能检测到的椅子数量,为计算座位利用效率做准备。
在对图片检测进行测试之后,对视频图像进行检测。每一帧的检测时间平均大约为0.03秒,说明视频检测的FPS大约为33,视觉效果较为流畅。
(7)目标检测及结果分析
1)人员密集程度
关于人员密集程度的检测,首先需要获知每个摄像头覆盖的区域所能提供的最大人员容量。但由于目标检测模型对于远处的人员或物体检测效果较低,因此根据目标检测模型对每个区域所能检测到的最大人数来决定每个区域的容量,即只选取摄像头能够清晰拍摄到的近处人员和物体作为人员密集程度计算的参数。再通过实际检测到的人数和最大容量求比值来获取该区域的人员密集程度。学生可根据人员密集程度来决定自己选择的学习区域。
2)人员流动情况
为了对人员流动情况进行检测,需要按照一定的频率对检测人数进行采样,并于上一次采样的人数进行作差运算。本图书馆管理系统将采样时间间隔设定为 5分钟。
3)座位使用情况
对座位资源的使用情况进行检测,可以为图书馆管理员规范学生占座行为提供帮助。通过对图书馆摄像头拍摄到的画面进行检测,需要检测座位上是否有人,以及对应书桌上是否有物品存在。若没有在座位处检测到人,却在书桌的对应位置检测到物品,则可判定为占座行为。因此在进行图像检测之前,需要对待检测视频按照座位的位置进行区域划分。
在经过目标检测之后,无论是人物还是物品,都有相应的bounding box来表示目标的大小和位置。根据每个bounding box的中心点坐标和座位区域划分的相对位置关系,可以分为以下两种情况:
(a)在同一座位区域中检测到人物,则判定为该座位正在被使用;
(b)在同一座位区域中没有检测到人物,但检测到除了人物类别以外的物品,则判定为存在占座行为。
2.多目标跟踪算法
(1)符号说明
本部分所使用的符号及其意义如表5所示。
(2)轨迹处理算法
Deep SORT对于检测到的目标的运动轨迹有一套独特的处理方案。每个被追踪的目标都有预先分配好的卡尔曼滤波追踪器用来记录和预测其状态。根据从上一次成功匹配到当前时刻所用的时间t–t_lost和预先设定好的阈值t_threshold,可以将所有目标的运动轨迹可以分为以下三种情况:
1)t–t_lost≤t_threshold,即当前轨迹从上次成功匹配到当前时刻所用时间没有超过阈值,则说明还可以跟踪到该目标,可以继续对该目标进行跟踪;
2)t–t_lost>t_threshold,即当前轨迹从上次成功匹配到当前时刻所用时间超过了阈值,则说明长时间没有对该轨迹进行匹配,令该轨迹终止,删除其对应的卡尔曼滤波追踪器;
3)在对t–t_lost进行计算时,发现没有上次匹配成功的时间,则说明该轨迹可能是一条全新的轨迹,但也可能是干扰项。Deep SORT算法中设定,若连续 3帧可以对该轨迹进行成功匹配,则将其认定为一条新的轨迹,为其分配一个卡尔曼滤波追踪器进行追踪,否则将该轨迹删除。
对于第2)种情况,在轨迹终止的同时,使用一个十元向量来记录消失轨迹的信息,如公式(1)所示。
x=[u,v,γ,h,x*,y*,0,0,tlost,id]T# (1)
其中,前6个元素表示目标重新出现时以相同的bounding box和相同的速度大小出现在视频拍摄区域。第7个和第8个元素表示目标bounding box的宽高比变化率和高度变化率为0,。第9个元素t_lost表示当前目标消失的时刻,第10 个元素id表示当前目标的编号。每消失一个目标,便产生一个十元向量,用一个FIFO队列进行存放。
对于第3)中情况,需要考虑暂时离开的目标重新出现的可能性,由于在2) 中已经记录了消失轨迹的信息,因此需要将新的轨迹与对于消失时间在一定阈值之内的轨迹进行比对。即遍历满足t–x.t_lost≤t_lost_threshold条件的轨迹,若结果可以匹配,则将其卡尔曼滤波追踪器的目标编号改为上述十元向量记录的id。最后需要将FIFO队列中的该向量删除。
在对每一帧进行目标跟踪之前,将FIFO队列中满足t–x.t_lost> t_lost_threshold的向量弹出,即对于离开时间过长的目标,判定为彻底消失。即使该目标在未来重新出现,也将其识别为新的目标,因为本图书馆管理系统对人员行动轨迹进行追踪旨在统计目标被访问的人次,而不是人数。
以上过程如算法2所示。
Figure BDA0003274276030000131
具体流程图如图11所示。
(3)匹配原则算法
SORT算法通过卡尔曼滤波来预测被跟踪目标的状态,并且使用匈牙利算法来分析前后两帧目标的关联度,进而进行匹配。改进后的Deep SORT算法在此基础上,结合使用八元向量对目标运动状态的采集和估计,使用了马氏距离来预测目标的状态,如公式(2)所示。
di,j=(dj-yi)TSi -1(dj-yi)# (2)
公式中,di,j是目标j和轨迹i的马氏距离,表示目标j和轨迹i的匹配程度;向量dj表示目标j的状态;Si表示轨迹i的协方差矩阵;yi表示轨迹i的预测向量。使用该马氏距离来对目标进行筛选,有利于契合目标运动的连续性。
原Deep SORT算法在此基础上,增加对移动摄像头的考虑,对马氏距离进行额外加权计算,使计算方法变得复杂。在图书馆场景下,摄像头的运动状态均为静止,因此省去额外的加权计算。
计算得到马氏距离之后,根据该马氏距离判断轨迹i和目标j是否可以匹配,具体判断方式如公式(3)所示。
Figure BDA0003274276030000141
公式中,d_threshold表示事先设定好的马氏距离阈值,bi,j取1表示马氏距离小于等于阈值,轨迹i和目标j有关联成功的可能性;否则bi,j取0,表示马氏距离大于阈值,轨迹i和目标j不能匹配,即使在进行匹配算法中计算得到轨迹 i和目标j满足匹配条件,也不将它们进行匹配。
通过公式(2)和公式(3)计算所得到的马氏距离适用于运动不确定性较低的目标,适用于追踪图书馆中静止摄像头拍摄到的人员的行动轨迹。
利用改进后的马氏距离,将对象和轨迹进行匹配。匹配的核心思想,是对已消失但消失时间还未超过一定阈值的轨迹,按照消失时间从小到大排序,并按照此顺序依次遍历这些轨迹。以马氏距离作为参数,根据最小成本算法计算出该轨迹与未匹配对象的最佳匹配。
以上过程的伪代码如算法3所示。
Figure BDA0003274276030000142
具体流程图如图12所示。
3.图书馆智能管理系统构建
(1)系统构建
在目标检测和多目标跟踪的基础上,本发明构建如下基于物理空间数据分析图书馆智能管理系统。
首先,数据来源采用图书馆摄像头网络提供的实时数据。采用Yolov5实时视频检测模型对摄像头采集到的实时数据进行人员和物体的检测,并对数据进行处理。将处理后的数据传送到改进的Deep SORT多目标跟踪算法,进行数据关联,识别出每个人的行动轨迹。
其次,构造图书馆智能管理系统的服务器端。服务器端需要调用Yolov5实时视频检测模型和改进的Deep SORT多目标跟踪算法。对Yolov5实时视频检测模型的检测结果进行数据处理,分析出每个学习区域的人员密集程度、人员流动情况、座位利用效率。对改进后的DeepSORT多目标跟踪算法的检测结果进行数据处理,分析出每个学习区域内人员的行动轨迹。服务器端还要与系统数据库相连,用于记录用户的基本信息,如账号、密码、学号等等。
最后,分别构造供学生跟图书馆管理员使用的客户端。图书馆管理员拥有查看每个学习区域的人员密集程度、人员流动情况、座位利用效率、人员行动轨迹的权限,并可以通过客户端直接查看检测后的视频。学生拥有查看每个学习区域人员密集程度和人员流动情况的权限,但是没有查看摄像头视频的权限。
客户端、服务器端、Yolov5实时视频检测模型、改进后的Deep SORT多目标跟踪算法之间互相协调工作,共同构建起图书馆智能管理系统。系统的示意图如图13所示。
(2)学生客户端
在主页单击“注册”按钮之后,学生用户可以进行注册。注册界面如图14 所示。
登录之后,学生可以查看任意楼层的人员密集程度、人员流动情况,如图 15所示。
(3)管理员客户端
管理员客户端与学生客户端具有以下区别
1)管理员可以查看座位资源的使用情况;
2)管理员可以查看实时视频检测画面。
3)管理员可以查看该区域本日访问人数累计值(通过多目标跟踪算法计算得到,但视频图像不显示对象追踪的编号)。
管理员客户端的信息查看界面如图16所示。
关于座位资源的使用情况,将图16的局部放大,如图17所示。从图中可以看出,当前画面检测到有三个占座情况。管理员在查看到该信息时,可以对占座行为采取相应规范措施。
(4)系统后端
图书馆管理系统的后端终端输出包括flask初始化、目标检测结果输出、用户请求访问网页反馈等信息,如图18所示。
(5)数据库
本图书馆管理系统的数据库主要记录用户在注册时输入的基本信息。所包含的数据项如表6所示。
表5.1用户信息数据项
Figure BDA0003274276030000161
本系统使用MySQL数据库存储用户信息。用户信息表表项的详细信息如图 19所示。
以上是本发明的典型实例,本发明的实施不限于此。
上述描述仅是对本发明较佳实施例的描述,并非是对本发明范围的任何限定。任何熟悉该领域的普通技术人员根据上述揭示的技术内容做出的任何变更或修饰均应当视为等同的有效实施例,均属于本发明技术方案保护的范围。
说明书附表
表1
Figure BDA0003274276030000162
表2
Figure BDA0003274276030000163
表3
Figure BDA0003274276030000171
表4
Figure BDA0003274276030000172
表5
Figure BDA0003274276030000173
Figure BDA0003274276030000181
表6
Figure BDA0003274276030000182

Claims (3)

1.一种图书馆流动人员目标检测算法,其特征在于,包括如下步骤:
步骤1.1训练数据选取:实时视频检测模型采用的训练数据集是COCO数据集的一个子集,包括COCO2017数据集的5000张训练图片,3000张测试图片,选取原则为多以图书馆场景出现的标签类别为主,有效提高对图书馆场景内的人员和物品检测的准确率;
步骤1.2训练环境准备,包括操作系统、处理器、内存、系统类型、显卡、显存、CUDA版本;
步骤1.3训练参数设置,训练参数包括训练时数据集图片尺寸img、每次训练投喂数据数量batch、迭代次数epochs;
步骤1.4训练方法:首先,获取模型的训练环境、训练参数和训练数据,并对训练数据进行Mosaic增强;其次,通过配置文件获取训练集、测试集的图片路径,以及相关类别的数量和类别名字;然后,进入训练迭代:创建一个新的模型,按照Yolov5的网络结构创建模型的雏形,将数据进行向前传播,数据经过backbone主干网络、neck部分,传播到最后时,计算相应Loss值,之后将数据反向传播,更新参数并降低学习率,在经过epochs个训练周期之后,模型训练完毕,计算相关的结果参数;模型训练算法如下:
Figure FDA0003274276020000011
步骤1.5训练结果获取:在训练模型时,调用wandb模块,可以查看训练过程,采用混淆矩阵分析分类模型预测结果;
步骤1.6模型测试及结果分析:利用图书馆采集到的数据来对模型进行效果测试,测试的硬件及软件环境与训练时的硬件及软件环境相同;
步骤1.7目标检测及结果分析:包括人员密集程度、人员流动程度和座位使用情况;人员密集程度检测,首先需要获知每个摄像头覆盖的区域所能提供的最大人员容量,再通过实际检测到的人数和最大容量求比值来获取该区域的人员密集程度;人员流动程度检测,需要按照一定的频率对检测人数进行采样,并于上一次采样的人数进行作差运算;座位使用情况,根据每个bounding box的中心点坐标和座位区域划分的相对位置关系判定作为是否被使用。
2.一种图书馆流动人员多目标跟踪算法,其特征在于,包括如下步骤:
步骤2.1符号说明
步骤2.2轨迹处理,采用Deep SORT处理检测到的目标的运动轨迹,具体算法如下:
Figure FDA0003274276020000021
步骤2.3匹配原则:
改进后的Deep SORT算法在SORT算法基础上,结合使用八元向量对目标运动状态的采集和估计,使用了马氏距离来预测目标的状态,如下公式所示,
di,j=(dj-yi)TSi -1(dj-yi)
公式中,di,j是目标j和轨迹i的马氏距离,表示目标j和轨迹i的匹配程度;向量dj表示目标j的状态;Si表示轨迹i的协方差矩阵;yi表示轨迹i的预测向量;使用该马氏距离来对目标进行筛选,有利于契合目标运动的连续性;
计算得到马氏距离之后,根据该马氏距离判断轨迹i和目标j是否可以匹配,具体判断方式如下公式所示,
Figure FDA0003274276020000031
公式中,d_threshold表示事先设定好的马氏距离阈值,bi,j取1表示马氏距离小于等于阈值,轨迹i和目标j有关联成功的可能性;否则bi,j取0,表示马氏距离大于阈值,轨迹i和目标j不能匹配,即使在进行匹配算法中计算得到轨迹i和目标j满足匹配条件,也不将它们进行匹配;
计算所得到的马氏距离适用于运动不确定性较低的目标,适用于追踪图书馆中静止摄像头拍摄到的人员的行动轨迹;
对已消失但消失时间还未超过一定阈值的轨迹,按照消失时间从小到大排序,并按照此顺序依次遍历这些轨迹;以马氏距离作为参数,根据最小成本算法计算出该轨迹与未匹配对象的最佳匹配;
Figure FDA0003274276020000032
3.一种图书馆流动人员管理系统,其特征在于,采用如权利要求1所述的目标检测算法和权利要求书2所述的多目标跟踪算法构建,系统包括客户端、服务器端、Yolov5实时视频检测模型、改进后的Deep SORT多目标跟踪算法、系统后端、数据库;
所述客户端包括学生客户端和管理员客户端;学生客户端,在主页单击“注册”按钮之后,学生用户可以进行注册,登录之后,学生可以查看任意楼层的人员密集程度、人员流动情况;管理员客户端,用于管理员登录后查看每个学习区域的人员密集程度、人员流动情况、座位利用效率、人员行动轨迹的权限,并可以通过客户端直接查看检测后的视频;
所述服务器端调用Yolov5实时视频检测模型和改进的Deep SORT多目标跟踪算法,并与系统数据库相连,用于记录用户的基本信息,如账号、密码、学号等;
所述系统后端输出包括flask初始化、目标检测结果输出、用户请求访问网页反馈等信息;
所述数据库主要记录用户在注册时输入的基本信息。
CN202111112330.6A 2021-09-23 2021-09-23 图书馆流动人员目标检测及其多目标跟踪方法和管理系统 Pending CN113920392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111112330.6A CN113920392A (zh) 2021-09-23 2021-09-23 图书馆流动人员目标检测及其多目标跟踪方法和管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111112330.6A CN113920392A (zh) 2021-09-23 2021-09-23 图书馆流动人员目标检测及其多目标跟踪方法和管理系统

Publications (1)

Publication Number Publication Date
CN113920392A true CN113920392A (zh) 2022-01-11

Family

ID=79235752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111112330.6A Pending CN113920392A (zh) 2021-09-23 2021-09-23 图书馆流动人员目标检测及其多目标跟踪方法和管理系统

Country Status (1)

Country Link
CN (1) CN113920392A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497056A (zh) * 2022-11-21 2022-12-20 南京华苏科技有限公司 基于深度学习的区域内遗失物品检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497056A (zh) * 2022-11-21 2022-12-20 南京华苏科技有限公司 基于深度学习的区域内遗失物品检测方法

Similar Documents

Publication Publication Date Title
Davis et al. The representation and recognition of human movement using temporal templates
CA2559381C (en) Interactive system for recognition analysis of multiple streams of video
CN108875522A (zh) 人脸聚类方法、装置和系统及存储介质
CN108229335A (zh) 关联人脸识别方法和装置、电子设备、存储介质、程序
JP2000123184A (ja) 動画内のイベントを検出する方法
US9245247B2 (en) Queue analysis
KR20050082252A (ko) 객체 추적 방법 및 그 장치
CN104915944B (zh) 一种用于确定视频的黑边位置信息的方法与设备
CN115715385A (zh) 用于预测体育运动中的队形的系统和方法
CN109902681B (zh) 用户群体关系确定方法、装置、设备及存储介质
CN106445146B (zh) 用于头盔显示器的手势交互方法与装置
CN110322472A (zh) 一种多目标跟踪方法以及终端设备
CN113920392A (zh) 图书馆流动人员目标检测及其多目标跟踪方法和管理系统
Xia et al. Evaluation of saccadic scanpath prediction: Subjective assessment database and recurrent neural network based metric
US20210334758A1 (en) System and Method of Reporting Based on Analysis of Location and Interaction Between Employees and Visitors
Girgensohn et al. Determining activity patterns in retail spaces through video analysis
KR101170676B1 (ko) 얼굴 인식 기반의 얼굴 검색 시스템 및 그 방법
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN109858308B (zh) 视频检索装置、视频检索方法和存储介质
CN106446837B (zh) 一种基于运动历史图像的挥手检测方法
Xiong et al. Mugshot database acquisition in video surveillance networks using incremental auto-clustering quality measures
CN110163032A (zh) 一种人脸检测方法及装置
CN113627384A (zh) 考勤系统、方法和存储介质
KR102242042B1 (ko) 데이터 라벨링 방법, 시스템 및 컴퓨터 프로그램
CN113689613A (zh) 门禁系统、门禁控制方法和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination