CN112926410A - 目标跟踪方法、装置、存储介质及智能视频系统 - Google Patents
目标跟踪方法、装置、存储介质及智能视频系统 Download PDFInfo
- Publication number
- CN112926410A CN112926410A CN202110150356.3A CN202110150356A CN112926410A CN 112926410 A CN112926410 A CN 112926410A CN 202110150356 A CN202110150356 A CN 202110150356A CN 112926410 A CN112926410 A CN 112926410A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- target
- tracking
- detection frame
- human head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 260
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 28
- 238000005520 cutting process Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Social Psychology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标跟踪方法、装置、存储介质及智能视频系统,涉及目标跟踪技术领域,包括获取视频帧图像;利用训练获得的行人‑人头检测模型对视频帧图像进行目标检测,获得目标行人的行人检测框和人头检测框;根据目标行人的行人检测框和人头检测框,判断行人检测框的高度是否小于预设倍数的所述人头检测框的高度;若是,则对目标行人的人头进行跟踪,以获取目标行人的坐标信息;否则,利用训练获得的行人重识别模型提取目标行人的特征信息,对目标行人进行跟踪,以获取目标行人的坐标信息。本发明解决了现有的目标跟踪方法存在准确度较低的问题,有效防止对目标行人进行跟踪时出现目标ID切换的情况发生,保证了跟踪目标的准确度。
Description
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种目标跟踪方法、装置、存 储介质及智能视频系统。
背景技术
随着互联网的高速发展,远程视频业务的迅猛增长,越来越多的智能视 频系统方案在教育、娱乐、直播等领域得到广泛使用。在这种智能视频系统 方案中应用的目标跟踪方法,结合了多重深度学习算法,以对目标人物进行 特写跟踪,比如,教室内教师跟踪、舞台上表演者跟踪、直播间主播跟踪等 等。
由于多用途场景变化、物体遮挡、多目标重叠等因素的影响,以及目标 运动速度和运动轨迹的不确定性,导致现有的目标跟踪方法难以在保证精度 的情况下实现实时跟踪,常规的目标跟踪方法也难以到达良好的跟踪效果。
因此,现有的目标跟踪方法存在准确度较低的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是 现有技术。
发明内容
本发明的主要目的在于:提供一种目标跟踪方法、装置、存储介质及智 能视频系统,旨在解决现有的目标跟踪方法存在准确度较低的技术问题。
为实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供了一种目标跟踪方法,所述方法包括以下步骤:
获取视频帧图像;
利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测,获 得目标行人的行人检测框和人头检测框;
根据所述目标行人的行人检测框和人头检测框,判断所述行人检测框的 高度是否小于预设倍数的所述人头检测框的高度;
若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度, 则根据所述行人检测框,对所述目标行人进行跟踪,以获取所述目标行人的 坐标信息;
若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根 据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述目标行人 的坐标信息。
可选地,上述目标跟踪方法中,在利用训练获得的行人-人头检测模型对 所述视频帧图像进行目标检测,获得目标行人的行人检测框和人头检测框的 步骤之前,所述方法还包括:
以开源网络结构为基础,基于滤波器数目、网络深度和网络层的核大小, 按照预设规则对所述开源网络结构进行裁剪,以获得初始网络结构;
利用训练样本对所述初始网络结构进行训练,获得行人-人头检测模型, 其中,所述训练样本包括数据增强后的图像。
可选地,上述目标跟踪方法中,所述根据所述行人检测框,对所述目标 行人进行跟踪,以获取所述目标行人的坐标信息的步骤,具体包括:
根据所述行人检测框,对所述视频帧图像中的目标行人进行图像抠取, 获得目标行人区域图像;
利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取, 以获得所述目标行人的特征信息;
根据所述特征信息,利用改进的Deep SORT跟踪算法对所述目标行人进 行跟踪,以获取所述目标行人的坐标信息,其中,所述改进的Deep SORT跟 踪算法基于Deep SORT网络框架和Kalman跟踪算法获得。
可选地,上述目标跟踪方法中,在利用训练获得的行人重识别模型对所 述目标行人区域图像进行特征提取,以获得所述目标行人的特征信息的步骤 之前,所述方法还包括:
以ReID-Strong-Baseline为基础网络,用最大值池化替代所述基础网络中 的生成均值池化,并去掉所述基础网络中的IBN结构,获得初始基础网络;
根据所述初始基础网络,利用神经网络模型和圆损失函数建立待训练模 型;
利用训练数据集,对所述待训练模型进行训练,获得行人重识别模型, 其中,所述行人重识别模型的特征维度基于矩阵运算库确定,所述训练数据 集包括行人图像。
可选地,上述目标跟踪方法中,在利用训练数据集,对所述待训练模型 进行训练,获得行人重识别模型的步骤之前,所述方法还包括:
获取DukeMTMC-ReID数据集、Market-1501数据集和MSMT17数据集;
将所述DukeMTMC-ReID数据集、所述Market-1501数据集和所述 MSMT17数据集合并,获得初始数据集;
对所述初始数据集中的行人图像进行裁剪,获得第一数据集,所述第一 数据集中行人图像的行人与所述行人图像的边界的距离小于预设距离;
对所述第一数据集中的行人图像的行人进行部分裁剪或遮挡,获得训练 数据集。
可选地,上述目标跟踪方法中,所述根据所述特征信息,利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪,以获取所述目标行人的坐标信息的 步骤,具体包括:
利用Kalman跟踪算法对所述行人检测框进行跟踪预测,获得行人跟踪框;
将所述行人跟踪框中目标行人的特征信息在特征池内进行级联匹配和 IoU匹配,获得目标行人的ID匹配结果;
根据所述目标行人的ID匹配结果,获取所述目标行人的坐标信息。
可选地,上述目标跟踪方法中,所述若所述行人检测框的高度小于预设 倍数的所述人头检测框的高度,则根据所述人头检测框,对所述目标行人的 人头进行跟踪,以获取所述目标行人的坐标信息的步骤,具体包括:
若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根 据所述人头检测框,利用SORT跟踪算法对所述目标行人的人头进行跟踪, 以关联到所述目标行人的人头ID;
将所述目标行人的人头ID所在的坐标信息作为所述目标行人的坐标信息。
第二方面,本发明提供了一种目标跟踪装置,所述装置包括:
图像获取模块,用于获取视频帧图像;
目标检测模块,用于利用训练获得的行人-人头检测模型对所述视频帧图 像进行目标检测,获得目标行人的行人检测框和人头检测框;
判断模块,用于根据所述目标行人的行人检测框和人头检测框,判断所 述行人检测框的高度是否小于预设倍数的所述人头检测框的高度;
行人跟踪模块,用于当所述行人检测框的高度大于或等于预设倍数的所 述人头检测框的高度时,根据所述行人检测框,对所述目标行人进行跟踪, 以获取所述目标行人的坐标信息;
人头跟踪模块,用于当所述行人检测框的高度小于预设倍数的所述人头 检测框的高度时,根据所述人头检测框,对所述目标行人的人头进行跟踪, 以获取所述目标行人的坐标信息。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述 计算机程序可被一个或多个处理器执行,以实现如上述的目标跟踪方法。
第四方面,本发明提供了一种智能视频系统,所述系统包括:
单目摄像头、处理器、转动云台和变倍摄像头,以及存储器;其中,所 述存储器上存储有计算机程序;
所述单目摄像头,用于拍摄视频,并传送至所述处理器;
所述处理器,用于执行所述存储器上存储的计算机程序,实现如上述的 目标跟踪方法,以获取目标行人的坐标信息,并根据所述坐标信息生成控制 指令发送至所述转动云台和所述变倍摄像头;
所述转动云台,用于根据所述处理器的控制指令转动,以调整所述变倍 摄像头的视角;
所述变倍摄像头,用于根据所述处理器的控制指令进行变倍拍摄,以对 所述目标行人进行特写实时跟踪。
本发明提供的上述一个或多个技术方案,可以具有如下优点或至少实现 了如下技术效果:
本发明提出的一种目标跟踪方法、装置、存储介质及智能视频系统,通 过根据行人-人头检测模型进行目标检测获得的目标行人的行人检测框和人 头检测框,判断所述行人检测框的高度是否小于预设倍数的所述人头检测框 的高度,以此判断目标行人是否存在严重遮挡;再针对遮挡不严重的目标行 人,对该目标行人进行跟踪,针对遮挡严重的目标行人,对该目标行人的人 头进行跟踪;本发明针对不同遮挡情况对不同的跟踪对象进行跟踪,有效针 对完整行人、部分遮挡行人,以及多人交叉导致的遮挡严重行人等不同情况的目标行人进行实时跟踪,防止出现目标行人ID切换的情况,保证了跟踪 目标的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据提供的这些附图获得其他的附图。
图1为本发明实施例一提供的一种目标跟踪方法的流程示意图;
图2为本发明实施例一提供的一种目标跟踪方法中步骤S4.3的Deep SORT行人跟踪流程图;
图3为图2中级联匹配的详细流程图;
图4为图2中IoU匹配的详细流程图;
图5为图2中更新矩阵和特征池的详细流程图;
图6为本发明实施例一提供的一种目标跟踪方法中步骤S5的SORT人头 跟踪流程图;
图7为本发明实施例一提供的一种目标跟踪方法中步骤B1采用的基础网 络的结构示意图;
图8为本发明实施例一提供的一种目标跟踪方法中步骤B2采用的神经网 络模型的模块示意图;
图9为本发明实施例二提供的一种目标跟踪装置的功能模块示意图;
图10为本发明实施例三提供的一种智能视频系统的结构连接示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施 例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、 后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位 置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应 地随之改变。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应 做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一 体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间 媒介间接相连;可以是两个元件内部的连通,也可以是两个元件的相互作用 关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具 体情况理解上述术语在本发明中的具体含义。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第 一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重 要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二” 的特征可以明示或者隐含地包括至少一个该特征。另外,全文中出现的“和/ 或”的含义,包括三个并列的方案,以“A和/或B”为例,包括A方案、或 B方案、或A和B同时满足的方案。另外,各个实施例之间的技术方案可以 相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案 的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在, 也不在本发明要求的保护范围之内。
术语解释:
ReID:Person re-identification,行人重识别,也称行人再识别,是利用计 算机视觉技术判断图像或者视频序列中是否存在特定行人的技术;
NNIE:Neural Network Inference Engine,神经网络推理引擎,是海思媒 体系统级芯片中专门针对神经网络特别是深度学习卷积神经网络进行加速处 理的硬件单元;
NPU:Neural-network Processing Unit,嵌入式神经网络计算单元,也称 NPU协处理器,采用“数据驱动并行计算”的架构,特别擅长处理视频、图 像类的海量多媒体数据;
IN:Instance Normalization,实列正则化,对一个批次中单个图片进行归 一化处理;
BN:Batch Normalization,批归一化,对整个批次的所有图片进行归一化 处理,提取出平均值;
IBN:Intent-based Network,基于意图的网络,是一种智能的拓扑结构, 是IN和BN的结合,能够监控整体网络性能、识别问题并自动解决问题;
ResNet:Residual Network,残差网络,是由一系列残差块构建的网络;
IoU:Intersection over Union,交并比,交集和并集的比值;
ReLU:Rectified Linear Unit,线性整流函数,又称修正线性单元,是一 种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的 非线性函数;
Kalman算法:卡尔曼滤波算法,是一种利用线性系统状态方程,通过系 统输入输出观测数据,对系统状态进行最优估计的算法;
Hungarian算法:匈牙利算法,是一种在多项式时间内求解任务分配问题 的组合优化算法。
对现有技术的分析发现,使用目标特写跟踪技术的智能视频系统,一般 由设置有嵌入式系统级芯片的主机、进行教师特写、表演者特写、主播特写 等的转动云台、多方位高清摄像头及麦克风等设备组成。
目前的目标特写跟踪方法结合了多重深度学习算法,比如,深度学习行 人检测算法、深度学习ReID算法、Kalman跟踪算法、匈牙利匹配算法等, 其中的难点在于,在现有嵌入式设备的基础上保证精度的情况下达到实时跟 踪,并在多目标交叉、物体遮挡、部分目标的情况下保持ID不丢失。由于目 标数量随机,目标极可能相互重叠干扰,以及目标运动速度和轨迹不确定, 使得常规的运动目标跟踪方法难以到达良好的跟踪效果。
传统的跟踪算法,比如背景差、帧差法、光流算法、粒子滤波算法等, 这类算法过于依赖背景,如果背景变动较大,比如教室场景投影的PPT变化、 舞台背景变化等情况,会对检测目标的判定、跟踪效果造成极大的干扰,而 且对多人交叉、物体遮挡等复杂问题毫无办法,从而大大影响跟踪效果;
结合传统的跟踪算法得到的目标检测算法,比如SSD检测算法和KCF跟 踪算法,每检测一帧,跟踪若干帧,这类算法相比传统的跟踪算法的优势在 于,可以准确确定出运动目标是人,从而避免其他非人的运动目标干扰,但 是这类算法仍然无法解决多目标交叉后,当前跟踪目标容易出现目标ID切换 的问题;
目前也有提出一些结合Kalman跟踪算法的目标检测算法或ReID算法, 这类算法相比传统的跟踪算法和目标检测算法的优势在于,可以解决多人交 叉的问题,但是这类算法对于遮挡严重的行人目标仍然无法解决准确性的问 题。
鉴于现有技术中目标跟踪方法存在准确度较低的技术问题,本发明提供 了一种目标跟踪方法,总体思路如下:
获取视频帧图像;利用训练获得的行人-人头检测模型对所述视频帧图像 进行目标检测,获得目标行人的行人检测框和人头检测框;根据所述目标行 人的行人检测框和人头检测框,判断所述行人检测框的高度是否小于预设倍 数的所述人头检测框的高度;若所述行人检测框的高度大于或等于预设倍数 的所述人头检测框的高度,则根据所述行人检测框,对所述目标行人进行跟 踪,以获取所述目标行人的坐标信息;若所述行人检测框的高度小于预设倍 数的所述人头检测框的高度,则根据所述人头检测框,对所述目标行人的人 头进行跟踪,以获取所述目标行人的坐标信息。
通过上述技术方案,根据行人-人头检测模型进行目标检测获得的目标行 人的行人检测框和人头检测框,判断所述行人检测框的高度是否小于预设倍 数的所述人头检测框的高度,以此判断目标行人是否存在严重遮挡;再针对 遮挡不严重的目标行人,对该目标行人进行跟踪,针对遮挡严重的目标行人, 对该目标行人的人头进行跟踪;本发明针对不同遮挡情况对不同的跟踪对象 进行跟踪,有效针对完整行人、部分遮挡行人,以及多人交叉导致的遮挡严 重行人等不同情况的目标行人进行实时跟踪,防止出现目标行人ID切换的情 况,保证了跟踪目标的准确度。
实施例一
参照图1至图8,本发明第一实施例提供了一种目标跟踪方法,应用于智 能视频系统,所述系统包括:单目摄像头、处理器、转动云台和变倍摄像头, 以及存储器;其中,所述存储器上存储有计算机程序;
所述单目摄像头,用于拍摄视频,并传送至所述处理器;
所述处理器,用于执行所述存储器上存储的计算机程序,实现本实施例 提供的目标跟踪方法,以获取目标行人的坐标信息,并根据所述坐标信息生 成控制指令发送至所述转动云台和所述变倍摄像头;
所述转动云台,用于根据所述处理器的控制指令转动,以调整所述变倍 摄像头的视角;
所述变倍摄像头,用于根据所述处理器的控制指令进行变倍拍摄,以对 所述目标行人进行特写实时跟踪。
在具体实施过程中,所述系统可应用到教室内教师跟踪特写、舞台上表 演者跟踪特写、直播间主播跟踪特写等领域。其中,单目摄像头可以为单目 高清摄像头;转动云台可以为自由度转动云台,转动云台的数量可以为1台, 与变倍摄像头连接,根据处理器的控制指令转动,以调整变倍摄像头的视角, 转动云台的数量也可以为2台,还可以根据接收的外部控制指令或处理器的 控制指令转动,以分别调整单目摄像头和变倍摄像头的视角;变倍摄像头可 以为光学变倍摄像头。
下面结合图1的流程示意图,对本实施例提供的目标跟踪方法进行详细 描述。本实施例以海思Hi3519ANNIE作为该目标跟踪方法的运算硬件,结合 瑞芯微芯片中的前向推理框架(RKNN),在相应的NPU上实现前向推理。为 了达到耗时和精度的权衡,本实施例还针对不同厂家对深度学习算子(op) 的支持与否及不同表现,对该方法的模型结构、数据增强及模型训练方法等 多方面进行实验,得出适合该NNIE的目标跟踪方法。所述方法具体包括以下 步骤:
步骤S1:获取视频帧图像。
具体的,所述步骤S1,可以包括:
获取单目摄像头采集的视频流;
从所述视频流中获取视频帧图像;
将所述视频帧图像调整为固定尺寸的视频帧图像,其中,固定尺寸的大 小根据硬件的实际情况预先设定。
步骤S2:利用训练获得的行人-人头检测模型对所述视频帧图像进行目标 检测,获得目标行人的行人检测框和人头检测框。
在具体实施过程中,将调整为固定尺寸的视频帧图像输入到行人-人头检 测模型中,该行人-人头检测模型对视频帧图像中的行人进行检测,获得目标 行人的行人检测框和人头检测框,即在该视频帧图像中,用行人检测框标记 目标行人的躯干,用人头检测框标记目标行人的人头。
步骤S3:根据所述目标行人的行人检测框和人头检测框,判断所述行人 检测框的高度是否小于预设倍数的所述人头检测框的高度。
具体的,通过判断所述行人检测框的高度是否小于预设倍数的所述人头 检测框的高度来判断目标行人是否存在严重遮挡,再针对不同的遮挡情况分 别对应采用不同的跟踪方法对不同的跟踪对象进行目标跟踪。
本实施例中,根据所述目标行人的行人检测框和人头检测框,判断所述 行人检测框的高度是否小于3倍的所述人头检测框的高度;若所述行人检测 框的高度小于3倍的所述人头检测框的高度,则判定所述目标行人存在严重 遮挡;若所述行人检测框的高度大于或等于3倍的所述人头检测框的高度, 则判定所述目标行人不存在严重遮挡。
步骤S4:若所述行人检测框的高度大于或等于预设倍数的所述人头检测 框的高度,则根据所述行人检测框,对所述目标行人进行跟踪,以获取所述 目标行人的坐标信息。
具体的,所述步骤S4可以包括:
步骤S4.1:若所述行人检测框的高度大于或等于预设倍数的所述人头检 测框的高度,则根据所述行人检测框,对所述视频帧图像中的目标行人进行 图像抠取,获得目标行人区域图像。
步骤S4.2:利用训练获得的行人重识别模型对所述目标行人区域图像进 行特征提取,以获得所述目标行人的特征信息。
本实施例中,根据所述行人检测框对所述视频帧图像中的目标行人进行 图像抠取,获得64x128的目标行人区域图像,再将该目标行人区域图像输入 训练获得的行人重识别模型,得到所述目标行人的特征信息。
步骤S4.3:根据所述特征信息,利用改进的Deep SORT跟踪算法对所述 目标行人进行跟踪,以获取所述目标行人的坐标信息,其中,所述改进的Deep SORT跟踪算法基于Deep SORT网络框架和Kalman跟踪算法获得。
具体的,如图2所示为Deep SORT行人跟踪流程图,所述步骤S4.3可以 包括:
步骤S4.3.1:利用Kalman跟踪算法对所述行人检测框进行跟踪预测,获 得行人跟踪框。
具体的,获得行人跟踪框之后,还对各个参数进行初始化。
在具体实施过程中,所述步骤S4.3.1可以包括:
S4.3.1.1:基于Deep SORT网络框架的状态变量表示所述行人检测框的状 态;
具体的,Deep SORT网络框架中对于状态变量x的设定是一个八维向量:
S4.3.1.2:向前推算所述状态变量,获得状态变量预测值:
其中,表示当前时刻的状态变量预测值,x表示状态,t表示当前时刻, t-1表示上一时刻,带-的变量表示预测值,不带-的变量表示更新值,B表示 控制矩阵,Bt表示当前时刻的控制矩阵,u表示系统输入速度值,ut表示当前 时刻的系统输入速度值。
S4.3.1.3:向前推算所述Kalman跟踪算法中的误差协方差矩阵,获得误 差协方差矩阵预测值:
其中,Kalman跟踪算法中系统协方差矩阵、过程协方差矩阵和测量协方 差矩阵的初始状态如下:
其中,diag表示对角矩阵,P表示系统协方差矩阵,Q表示过程协方差矩 阵,R表示测量协方差矩阵,σp表示位置的标准差,σv表示速度的标准差;
状态转移矩阵的初始状态如下:
本实施例中,由于侧身、正身及部分遮挡的情况都会影响行人的纵横比, 且差别很可观,因此添加纵横比调制参数进行改进,根据实际测试结果,对 协方差矩阵、过程协方差矩阵和测量协方差矩阵进行改进后得到:
其中,σd表示纵横比调制参数;
本实施例对σp、σv和σd的参数值进行调节,比如,确定σp、σv和σd的 值为1/5、1/40、1/30。
S4.3.1.4:计算Kalman增益:
Kt=Pt -HT(HPt -HT+R)-1,
其中,K表示滤波增益矩阵,H表示观测变量,Kt表示当前时刻的Kalman 滤波增益矩阵,Pt -表示当前时刻的系统协方差矩阵预测值,R表示测量协方 差矩阵;
S4.3.1.4:根据观测变量更新状态变量和误差协方差矩阵,得到状态变量 更新值和误差协方差矩阵更新值;
具体的,观测变量与状态变量的关系式为:
其中,z表示观测值;
更新状态变量和误差协方差矩阵后,得到状态变量更新值:
以及误差协方差矩阵更新值:
Pt=(I-KtH)Pt -,
其中,Pt表示当前时刻的系统协方差矩阵,I表示目标行人区域图像。
步骤S4.3.2:将所述行人跟踪框中目标行人的特征信息在特征池内进行级 联匹配和IoU匹配,获得目标行人的ID匹配结果;
具体的,在进行级联匹配之前,先进行一次IoU匹配,去掉行人检测框 中置信度小于0.7的行人检测框,并在进行级联匹配和IoU匹配之后,更新矩 阵和特征池。
在具体实施过程中,所述步骤S4.3.2可以包括:
步骤S4.3.2.1:先对所述行人检测框的宽度进行扩充,以使所述行人跟踪 框的高宽比达到预设比值;
本实施例中,考虑到该方法在海思Hi3519A NNIE上不能逐帧检测且跟踪 目标的个人运动速度有慢有快,对行人检测框的宽度进行扩充,比如,使得 行人检测框的高度为2.2倍的行人检测框的宽度,根据该行人检测框得到的行 人跟踪框的高宽比就达到2.2,这样,能保证在级联匹配失效时,使得IoU匹 配尽可能地起作用。
步骤S4.3.2.2:对所述行人检测框和行人跟踪框进行第一次IoU匹配;
步骤S4.3.2.3:当行人检测框和行人跟踪框之间有重叠时,记录该行人跟 踪框的下标,否则,拒绝向所述特征池内送所述目标行人的特征信息;
在具体实施过程中,当前一些级联匹配方法中,是将所有确定状态的行 人跟踪框对应的检测目标的特征全部送到特征池里,这种方式并不合理。比 如,当多人交叉时,行人检测框中包含了多个行人的躯干,导致在行人重识 别模型进行特征提取后得到的特征信息并不纯净,因此,在进行余弦相似度 对比时会影响精度,从而导致目标ID切换现象发生。本实施例中,先进行一 次IoU匹配,当发现行人检测框和行人跟踪框两两之间有重叠时,记录下该 行人跟踪框的下标,如果没有重叠,则后续会拒绝向特征池里送特征信息, 本实施例中去掉行人检测框中置信度小于0.7的行人检测框,可以提高当前目 标人物的ID信息匹配的精度。
步骤S4.3.2.4:将该下标对应的行人跟踪框中目标行人的特征信息送入特 征池内进行级联匹配,得到部分匹配的行人跟踪框;
具体的,如图3所示为图2中级联匹配的详细流程图,先分配跟踪参数 和检测参数,计算代价矩阵和余弦分布;计算Kalman算法跟踪到的每个行人 跟踪框平均轨道的位置和实际检测的行人检测框之间的平方马氏距离;将余 弦代价矩阵中行人跟踪框和行人检测框之间的平方马氏距离大于马氏距离阈 值的对应值置为无穷大,方便后续计算;将余弦代价矩阵中行人跟踪框和行 人检测框之间的余弦距离大于阈值的对应值置为较大,方便后续删除;然后 使用Hungarian算法对行人跟踪框和行人检测框进行匹配,并返回匹配结果; 对匹配结果进行筛选,删除余弦分布过大的结果,得到初步匹配结果、不匹 配的行人跟踪框和不匹配的行人检测框,其中,具体参数设置可根据实际情 况设定。
在具体实施方式中,目前的一些Deep SORT框架中,马氏距离阈值为余 弦分布的95%置信度,该阈值在没有行人交叉时尚且有效,但当多个行人交 叉,且当前跟踪的目标行人被前面的行人遮挡导致无法检测时,容易出现ID 信息匹配失效。对此,本实施例引入行人重识别模型最大的作用就在于,当 目标行人被遮挡后,能够拉回行人检测框到当前跟踪目标,避免目标ID切换。 若直接用现有的马氏距离阈值,行人重识别模型则不能解决遮挡导致的目标 ID切换问题。因此,为了保证行人重识别模型有更好的效果,本实施例通过收集到的包括不同大小、不同距离、不同身高和身形的行人的一组测试数据 集,根据测试得出的卡方阈值,以及行人检测框的中心位置的坐标x、中心位 置的坐标y、纵横比aspect、身高h,得出最佳马氏距离阈值为20.5。
步骤S4.3.2.5:对剩下未匹配的行人跟踪框继续进行第二次IoU匹配,得 到匹配的行人跟踪框;
具体的,如图4所示为图2中IoU匹配的详细流程图,先将只有一帧为 匹配的行人跟踪框看做IoU的候选,超过的视为不匹配的行人跟踪框;计算 行人跟踪框候选和不匹配的行人检测框之间的IoU距离;再将IoU距离大于 阈值0.7的置大,方便后续剔除;再使用Hungarian算法对行人跟踪框和行人 检测框进行匹配,并返回匹配结果;对匹配结果进行筛选,删除IoU较小的 区域,得到再次匹配结果、不匹配的行人跟踪框和不匹配的行人检测框,其 中,具体参数设置可根据实际情况设定。
在特征池里进行级联匹配后得到了部分匹配结果,以及不匹配的行人跟 踪框和不匹配的行人检测框,再对不匹配的行人跟踪框和不匹配的行人检测 框进行IoU匹配,得到剩下的匹配结果,两种匹配结果合并为整个匹配结果, 匹配更准确。
步骤S4.3.2.6:将所述匹配的行人跟踪框对应的行人ID作为所述目标行 人的ID匹配结果;
步骤S4.3.2.7:根据所述目标行人的ID匹配结果更新Kalman跟踪算法中 的矩阵和特征池,以对下一帧视频帧图像进行跟踪时使用。
具体的,如图5所示为图2中更新矩阵和特征池的详细流程图,先更新 行人跟踪框对Kalman跟踪的新的均值和协方差;判断行人跟踪框的状态是否 被确认正常,再判断是否需要删除行人跟踪框,即删除不满足确认条件和未 匹配数目超过了循环检测帧数的行人跟踪框;然后对不匹配的行人检测框重 新分配新ID,使用新的行人跟踪框及对应的ID和特征更新矩阵和特征池,便 于下一帧计算。
步骤S4.3.3:根据所述目标行人的ID匹配结果,获取所述目标行人的坐 标信息。
具体的,将所述行人ID对应所在的行人跟踪框的坐标信息作为获取的所 述目标行人的坐标信息。
步骤S5:若所述行人检测框的高度小于预设倍数的所述人头检测框的高 度,则根据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述 目标行人的坐标信息。
具体的,所述步骤S5可以包括:
步骤S5.1:若所述行人检测框的高度小于预设倍数的所述人头检测框的 高度,则根据所述人头检测框,利用SORT跟踪算法对所述目标行人的人头 进行跟踪,以关联到所述目标行人的人头ID;
步骤S5.2:将所述目标行人的人头ID所在的坐标信息作为所述目标行人 的坐标信息。
具体的,该步骤不需要进行行人重识别,不是用步骤S4的Deep SORT 跟踪算法进行人头跟踪,只是单纯利用SORT人头跟踪算法对所述目标行人 的人头进行跟踪,是因为遮挡严重的行人的特征与完整行人的特征差别较大, 若还用Deep SORT行人跟踪算法,又会引起目标ID切换,导致跟踪目标丢 失。因此,通过判断行人检测框的高度是否小于预设倍数的所述人头检测框 的高度,对应利用不同的跟踪方法和不同的对象对目标进行跟踪,就不会存 在目标ID切换现象。
如图6所示为SORT人头跟踪流程图,利用SORT人头跟踪算法对所述 目标行人的人头进行跟踪,可以包括:
对人头检测框和前一状态跟踪的人头检测框做Kalman跟踪预测,得到当 前跟踪人头的人头跟踪框;
对所述人头跟踪框进行IOU匹配,得到匹配的人头跟踪框,未匹配的人 头检测框和未匹配的人头跟踪框;
针对匹配的人头跟踪框进行Kalman滤波更新,再根据更新的人头跟踪框 进行后续视频帧图像的Kalman滤波预测;
对未匹配的人头检测框继续获取新的人头跟踪框,再根据新的人头跟踪 框进行Kalman滤波预测;
对未匹配的人头跟踪框则直接删除当前的人头跟踪框。
在具体实施方式中,根据所述匹配的人头跟踪框的位置信息关联所述目 标行人的人头ID,将所述目标行人的人头ID所在的坐标信息作为所述目标行 人的坐标信息。
本实施例中,添加人头检测的作用有两点,一是由于进行行人重识别之 前需要抠图,通过人头检测,可以避免扩臂、举手等动作影响目标行人的躯 干的扣取,可防止影响行人重识别的效果;二是通过关联目标行人的人头检 测框和行人检测框对应的ID,并通过人头检测框和行人检测框判断是否存在 严重遮挡,当下半身存在严重遮挡,比如,舞台上的桌子对表演者的遮挡, 教室内的讲台对教师的遮挡,直播间的椅子对主播的遮挡等等,本实施例由 于人头检测框和行人检测框共同关联了ID,所以在行人跟踪和人头跟踪之间 切换就不会导致ID混乱。
在一种实施方式中,在利用训练获得的行人-人头检测模型对所述视频帧 图像进行目标检测,获得目标行人的行人检测框和人头检测框的步骤之前, 所述方法还包括行人-人头检测模型的训练方法。考虑到当前NNIE硬件的算 力限制,以及前向推理框架与模型数量成正比的因素,本实施例采用多分类 单模型的方法获得本实施例的行人-人头检测模型。
所述行人-人头检测模型的训练方法包括以下步骤:
步骤A1:以开源网络结构为基础,基于滤波器数目、网络深度和网络层 的核大小,按照预设规则对所述开源网络结构进行裁剪,以获得初始网络结 构。
具体的,所述开源网络结构包括YOLOv3、YOLOv4、SSD-Inceptionv3、 CenterNet_ResNet中的一种;
本实施例中,由于不同的开源网络结构在不同硬件上的表现差异较大, 需要将开源网络结构结合前向推理试验后的精度和速度进行对比,来选择适 合的开源网络结构。本实施例采用YOLOv4网络。
由于大多开源网络结构都比较大,所需算力较高,一般是适用于高算力 设备的网络模型,比如GPU、高端CPU、算力较强的NPU等等。而实际的 硬件难以支持结构较大的开源网络,因此,需要针对本实施例的低算力硬件 对网络结构进行裁剪,使其能在NNIE上正常运行。
本实施例中,基于滤波器数目对YOLOv4网络进行裁剪,比如,将原本 128*128的网络均匀裁剪为64*64的网络,具体裁剪大小根据硬件实际情况设 定;基于网络深度对YOLOv4网络进行裁剪,裁剪掉重复的层;基于网络层 的核大小对YOLOv4网络进行裁剪,在卷积层和池化层使用小尺度的核,具 体尺度根据实际情况设定。裁剪时,需要对整个结构均匀地进行裁剪,而不 是直接裁剪掉边缘,均匀地进行裁剪可以避免网络出现头重脚轻或头轻脚重 的情况,影响网络收敛。
步骤A2:确定所述初始网络结构的回归损失函数和激活函数。
具体的,所述回归损失函数包括L2损失函数、Focal loss、GIOU Loss、 DIOULoss、CIOU Loss中的一种;
本实施例采用CIOU Loss函数,该CIOU Loss函数的表达式为:
其中,LCIou表示CIOU Loss函数,b,bgt分别表示预测框的中心点和真实 框的中心点,ρ表示预测框的中心点和真实框的中心点之间的欧式距离,c表 示同时包含预测框和真实框的最小闭包区域的对角线距离,IoU表示真实目 标框与实际检测目标框的交集,或真实目标框与实际检测目标框的并集,α表 示权重,ν表示长宽比相似性。
具体的,所述激活函数包括mish ReLU激活函数和/或leaky ReLU激活函 数。
本实施例中,由于NNIE不支持mish ReLU激活函数,因此,本实施例 只在训练初期用mish ReLU激活函数,后期训练时再用leaky ReLU激活函数 对网络模型进行微调。其中,leaky ReLU激活函数的表达式为:
其中,x表示输入值,i表示数值,xi表示第i个输入值,αi表示系数;
mish ReLU激活函数的表达式为:
Mish Re LU=x*tanh(log(1+ex)),
其中,ex表示指数函数。
步骤A3:利用训练样本对所述初始网络结构进行训练,获得行人-人头检 测模型,其中,所述训练样本包括数据增强后的图像。
其中,在利用训练样本对所述初始网络结构进行训练之前,获取训练样 本,对所述训练样本中的图像进行数据增强。
具体的,通过调整所述训练图像的图片角度、色调范围及饱和度与曝光 大小,对所述训练图像进行数据增强,获得不同的训练图像,目的是为了通 过对比试验,得出速度和精度最佳的网络模型。利用训练样本对所述初始网 络结构进行多次蒸馏训练,并对比多次训练得到的多个网络模型,保留其中 精度和速度最高的网络模型,作为获得的行人-人头检测模型。
在另一种实施方式中,在利用训练获得的行人重识别模型对所述目标行 人区域图像进行特征提取,以获得所述目标行人的特征信息的步骤之前,所 述方法还包括行人重识别模型的训练方法。
所述行人重识别模型的训练方法包括以下步骤:
步骤B1:以ReID-Strong-Baseline为基础网络,用最大值池化(Max Pooling) 替代所述基础网络中的生成均值池化(GeM Pooling),并去掉所述基础网络 中的IBN结构,获得初始基础网络。
具体的,所述ReID-Strong-Baseline基础网络中,GeM Pooling的表达式 为:
其中,f(g)表示特征图像经过生成均值池化的结果,k表示标号,K表示 特征图像的面积,pk表示调节参数,χk表示当前卷积核大小位置内的最大输 入值。
如图7所示为ReID-Strong-Baseline基础网络的结构示意图,图7(a)为 原始的Res Net网络结构,图7(b)和图7(c)分别为将IN和BN进行组合 的两种Res Net-IBN网络结构,图7(b)和图7(c)的区别在于插入IN的顺 序不一样,IN可以学习视觉表现变化的相关性,BN可以学习内容相关的信 息,Res Net-IBN网络结构可以加速训练,还可以学习到更加有区分性的特征, 有助于在不增加计算量的情况下,提升模型的准确性。但本实施例中,考虑 到NNIE的特性,以ReID-Strong-Baseline为基础网络,用Max Pooling替代 所述基础网络中的GeM Pooling,并去掉所述基础网络中的IBN结构,获得初 始基础网络,以使该初始基础网络中的op都支持NNIE。
步骤B2:根据所述初始基础网络,利用神经网络模型和圆损失(Circle Loss) 函数建立待训练模型。
具体的,Circle Loss函数的表达式为:
其中,Lcircle表示Circle Loss损失函数,K和L均表示正负样本个数,γ表 示函数调节因子,sn表示类间相似度,sp表示类内相似度,αn表示sn的调节 因子,αp表示sp的调节因子。
本实施例中,测试不同的神经网络模型在Hi3519ANNIE上的耗时和精度 后,决定采用Inception-ResNet50神经网络模型,如图8所示为该神经网络模 型的模块示意图,图中,Conv即Convolution,表示多项式相乘。该神经网络 模型结合了Inception网络结构与ResNet网络结构,Inception结构可以学习到 更加细致的特征,ResNet网络结构可以学习到更加抽象的特征,二者结合的 神经网络模型可以学习到更丰富的特征,有利于分类和回归。
步骤B3:利用训练数据集,对所述待训练模型进行训练,获得行人重识 别模型,其中,所述行人重识别模型的特征维度基于矩阵运算库确定,所述 训练数据集包括行人图像。
具体的,在步骤B3之前,所述方法还包括获取训练数据集的方法,所述 方法具体包括:
步骤B3.1:获取DukeMTMC-ReID数据集、Market-1501数据集和 MSMT17数据集。
步骤B3.2:将DukeMTMC-ReID数据集、Market-1501数据集和MSMT17 数据集合并,获得初始数据集。
为了解决检测行人与ReID训练集的数据平衡问题,将DukeMTMC-ReID 数据集、Market-1501数据集和MSMT17数据集合并为一个数据集,获得初 始训练集。其中,DukeMTMC数据集是一个大规模标记的多目标多摄像机行 人跟踪数据集,Market-1501数据集是一个行人跟踪数据库,MSMT17数据集 是涵盖了多场景多时段的,更接近真实场景的大型数据集。
步骤B3.3:对所述初始数据集中的行人图像进行裁剪,获得第一数据集, 所述第一数据集中行人图像的行人与所述行人图像的边界的距离小于预设距 离。
具体的,通过YOLOv4行人模型对所述初始数据集中的行人图像进行裁 剪,获得第一训练集,该第一数据集中,行人图像的行人与所述行人图像的 边界的距离小于根据实际情况设定的预设距离,即使得行人图像的边界贴近 行人图像的行人,目的是为了使通过该训练集训练得到的模型的精度更高。
步骤B3.3:对所述第一数据集中的行人图像进行部分裁剪或遮挡,获得 训练数据集。
具体的,为了增加对部分行人和遮挡行人的识别率,对所述第一数据集 还进行部分裁剪或遮挡,以模拟真实环境中的多个行人交叉、物体遮挡行人、 部分显露行人等行人遮挡环境,获得训练数据集。
具体的,该步骤B3中,则利用步骤B3.1至步骤3.3获得的进行数据增强 后的训练数据集对所述待训练模型进行训练,从而获得行人重识别模型。由 于开源网络结构与常用的行人检测数据存在偏差,如果直接使用开源网络结 构的数据进行训练,训练出的模型去做推理会存在一定的偏差,为了消除这 种偏差,本实施例直接用该方法所用的行人检测模型去检测训练集的行人, 并对其中的行人进行截取,使得训练和测试的行人场景一致,从而提高了行 人重识别模型的精度。
具体的,所述行人重识别模型的特征维度基于矩阵运算库确定。
在本实施例中,所述矩阵运算库可以包括Eigen3库,为了加速推理,利 用Eigen3库进行矩阵运算,由于Eigen3库初始化矩阵的维度不能超过256维, 考虑到行人重识别模型进行推理的速度和精度的平衡,本实施例确定行人重 识别模型的特征维度为256维。
本实施例提供的一种目标跟踪方法,通过根据行人-人头检测模型进行目 标检测获得的目标行人的行人检测框和人头检测框,判断所述行人检测框的 高度是否小于预设倍数的所述人头检测框的高度,以此判断目标行人是否存 在严重遮挡;再针对遮挡不严重的目标行人,对该目标行人进行跟踪,针对 遮挡严重的目标行人,对该目标行人的人头进行跟踪;本发明针对不同遮挡 情况对不同的跟踪对象进行跟踪,有效针对完整行人、部分遮挡行人,以及 多人交叉导致的遮挡严重行人等不同情况的目标行人进行实时跟踪,防止出 现目标行人ID切换的情况,保证了跟踪目标的准确度。本实施例针对当前 硬件条件中的行人检测模型、人头检测模型和行人重识别模型进行改进,获 得行人-人头检测模型和改进后的行人重识别模型,使精度和速度达到平衡; 采用数据增强技术对行人-人头检测模型和行人重识别模型进行训练,提高了 模型的精度,可进一步提高了目标跟踪的准确度。
实施例二
基于同一发明构思,参照图9,本发明第二实施例提供了一种目标跟踪装 置,结合图9的功能模块示意图,对本实施例提供的目标跟踪装置进行详细 描述,所述装置包括:
图像获取模块,用于获取视频帧图像;
目标检测模块,用于利用训练获得的行人-人头检测模型对所述视频帧图 像进行目标检测,获得目标行人的行人检测框和人头检测框;
判断模块,用于根据所述目标行人的行人检测框和人头检测框,判断所 述行人检测框的高度是否小于预设倍数的所述人头检测框的高度;
行人跟踪模块,用于当所述行人检测框的高度大于或等于预设倍数的所 述人头检测框的高度时,根据所述行人检测框,对所述目标行人进行跟踪, 以获取所述目标行人的坐标信息;
人头跟踪模块,用于当所述行人检测框的高度小于预设倍数的所述人头 检测框的高度时,根据所述人头检测框,对所述目标行人的人头进行跟踪, 以获取所述目标行人的坐标信息。
其中,对应程序模块的功能的具体实施方式参照实施例一中的具体描述, 本实施例在此不再重复赘述。
实施例三
基于同一发明构思,本实施例提供了一种计算机可读存储介质,如闪存、 硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储 器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除 可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、 磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计 算机程序被处理器执行时可以实现如下方法步骤:
获取视频帧图像;
利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测,获 得目标行人的行人检测框和人头检测框;
根据所述目标行人的行人检测框和人头检测框,判断所述行人检测框的 高度是否小于预设倍数的所述人头检测框的高度;
若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度, 则根据所述行人检测框,对所述目标行人进行跟踪,以获取所述目标行人的 坐标信息;
若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根 据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述目标行人 的坐标信息。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重 复赘述。
实施例四
基于同一发明构思,参照图10,本发明第四实施例提供了一种智能视频 系统,结合图10的结构连接示意图,对本实施例提供的智能视频系统进行详 细描述,所述系统包括:
单目摄像头、处理器、转动云台和变倍摄像头,以及存储器;其中,所 述存储器上存储有计算机程序;
所述单目摄像头,用于拍摄视频,并传送至所述处理器;
所述处理器,用于执行所述存储器上存储的计算机程序,实现如实施例 一中所述的目标跟踪方法,以获取目标行人的坐标信息,并根据所述坐标信 息生成控制指令发送至所述转动云台和所述变倍摄像头;
所述转动云台,用于根据所述处理器的控制指令转动,以调整所述变倍 摄像头的视角;
所述变倍摄像头,用于根据所述处理器的控制指令进行变倍拍摄,以对 所述目标行人进行特写实时跟踪。
其中,处理器用于执行如上述实施例一中所述的目标跟踪方法中的全部 或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括电子 设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信 号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件 (ProgrammableLogic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他 电子元件实现,用于执行如上述实施例一中所述的目标跟踪方法中的全部或 部分步骤。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组 合实现,例如静态随机存取存储器(Static Random Access Memory,简称 SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器 (Programmable Read-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本实施例提供的一种智能视频系统,解决了目标行人被遮挡时,系统跟 踪的行人ID容易丢失的问题,避免行人被遮挡时因为目标ID切换导致特写 画面被带走,保证特写跟踪的实时性和准确性。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围, 凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构 或等效流程变换,或直接或间接运用在其他相关的技术领域,均包括在本发 明的专利保护范围内。
Claims (10)
1.一种目标跟踪方法,其特征在于,所述方法包括以下步骤:
获取视频帧图像;
利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测,获得目标行人的行人检测框和人头检测框;
根据所述目标行人的行人检测框和人头检测框,判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度;
若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度,则根据所述行人检测框,对所述目标行人进行跟踪,以获取所述目标行人的坐标信息;
若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述目标行人的坐标信息。
2.如权利要求1所述的目标跟踪方法,其特征在于,在利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测,获得目标行人的行人检测框和人头检测框的步骤之前,所述方法还包括:
以开源网络结构为基础,基于滤波器数目、网络深度和网络层的核大小,按照预设规则对所述开源网络结构进行裁剪,以获得初始网络结构;
利用训练样本对所述初始网络结构进行训练,获得行人-人头检测模型,其中,所述训练样本包括数据增强后的图像。
3.如权利要求1所述的目标跟踪方法,其特征在于,所述根据所述行人检测框,对所述目标行人进行跟踪,以获取所述目标行人的坐标信息的步骤,具体包括:
根据所述行人检测框,对所述视频帧图像中的目标行人进行图像抠取,获得目标行人区域图像;
利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取,以获得所述目标行人的特征信息;
根据所述特征信息,利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪,以获取所述目标行人的坐标信息,其中,所述改进的Deep SORT跟踪算法基于Deep SORT网络框架和Kalman跟踪算法获得。
4.如权利要求3所述的目标跟踪方法,其特征在于,在利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取,以获得所述目标行人的特征信息的步骤之前,所述方法还包括:
以ReID-Strong-Baseline为基础网络,用最大值池化替代所述基础网络中的生成均值池化,并去掉所述基础网络中的IBN结构,获得初始基础网络;
根据所述初始基础网络,利用神经网络模型和圆损失函数建立待训练模型;
利用训练数据集,对所述待训练模型进行训练,获得行人重识别模型,其中,所述行人重识别模型的特征维度基于矩阵运算库确定,所述训练数据集包括行人图像。
5.如权利要求4所述的目标跟踪方法,其特征在于,在利用训练数据集,对所述待训练模型进行训练,获得行人重识别模型的步骤之前,所述方法还包括:
获取DukeMTMC-ReID数据集、Market-1501数据集和MSMT17数据集;
将所述DukeMTMC-ReID数据集、所述Market-1501数据集和所述MSMT17数据集合并,获得初始数据集;
对所述初始数据集中的行人图像进行裁剪,获得第一数据集,所述第一数据集中行人图像的行人与所述行人图像的边界的距离小于预设距离;
对所述第一数据集中的行人图像的行人进行部分裁剪或遮挡,获得训练数据集。
6.如权利要求3所述的目标跟踪方法,其特征在于,所述根据所述特征信息,利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪,以获取所述目标行人的坐标信息的步骤,具体包括:
利用Kalman跟踪算法对所述行人检测框进行跟踪预测,获得行人跟踪框;
将所述行人跟踪框中目标行人的特征信息在特征池内进行级联匹配和IoU匹配,获得目标行人的ID匹配结果;
根据所述目标行人的ID匹配结果,获取所述目标行人的坐标信息。
7.如权利要求1所述的目标跟踪方法,其特征在于,所述若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述目标行人的坐标信息的步骤,具体包括:
若所述行人检测框的高度小于预设倍数的所述人头检测框的高度,则根据所述人头检测框,利用SORT跟踪算法对所述目标行人的人头进行跟踪,以关联到所述目标行人的人头ID;
将所述目标行人的人头ID所在的坐标信息作为所述目标行人的坐标信息。
8.一种目标跟踪装置,其特征在于,所述装置包括:
图像获取模块,用于获取视频帧图像;
目标检测模块,用于利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测,获得目标行人的行人检测框和人头检测框;
判断模块,用于根据所述目标行人的行人检测框和人头检测框,判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度;
行人跟踪模块,用于当所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度时,根据所述行人检测框,对所述目标行人进行跟踪,以获取所述目标行人的坐标信息;
人头跟踪模块,用于当所述行人检测框的高度小于预设倍数的所述人头检测框的高度时,根据所述人头检测框,对所述目标行人的人头进行跟踪,以获取所述目标行人的坐标信息。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序可被一个或多个处理器执行,以实现如权利要求1至7中任意一项所述的目标跟踪方法。
10.一种智能视频系统,其特征在于,所述系统包括:
单目摄像头、处理器、转动云台和变倍摄像头,以及存储器;其中,所述存储器上存储有计算机程序;
所述单目摄像头,用于拍摄视频,并传送至所述处理器;
所述处理器,用于执行所述存储器上存储的计算机程序,实现如权利要求1至7中任意一项所述的目标跟踪方法,以获取目标行人的坐标信息,并根据所述坐标信息生成控制指令发送至所述转动云台和所述变倍摄像头;
所述转动云台,用于根据所述处理器的控制指令转动,以调整所述变倍摄像头的视角;
所述变倍摄像头,用于根据所述处理器的控制指令进行变倍拍摄,以对所述目标行人进行特写实时跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150356.3A CN112926410B (zh) | 2021-02-03 | 2021-02-03 | 目标跟踪方法、装置、存储介质及智能视频系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150356.3A CN112926410B (zh) | 2021-02-03 | 2021-02-03 | 目标跟踪方法、装置、存储介质及智能视频系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926410A true CN112926410A (zh) | 2021-06-08 |
CN112926410B CN112926410B (zh) | 2024-05-14 |
Family
ID=76169802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110150356.3A Active CN112926410B (zh) | 2021-02-03 | 2021-02-03 | 目标跟踪方法、装置、存储介质及智能视频系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926410B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724289A (zh) * | 2021-07-21 | 2021-11-30 | 山东师范大学 | 视频图像多目标跟踪方法、系统、存储介质及设备 |
CN113920164A (zh) * | 2021-10-27 | 2022-01-11 | 浙江工商大学 | 一种剧场环境下基于近红外防伪油墨的演员身份重识别方法 |
CN114022803A (zh) * | 2021-09-30 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种多目标跟踪方法、装置、存储介质及电子设备 |
CN114299428A (zh) * | 2021-12-24 | 2022-04-08 | 空间视创(重庆)科技股份有限公司 | 一种跨媒体视频人物识别方法及系统 |
CN114549584A (zh) * | 2022-01-28 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息处理的方法、装置、电子设备及存储介质 |
CN115049907A (zh) * | 2022-08-17 | 2022-09-13 | 四川迪晟新达类脑智能技术有限公司 | 一种基于fpga的yolov4目标检测网络实现方法 |
CN115063452A (zh) * | 2022-06-13 | 2022-09-16 | 中国船舶重工集团公司第七0七研究所九江分部 | 一种针对海上目标的云台摄像头跟踪方法 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
CN115690545A (zh) * | 2021-12-03 | 2023-02-03 | 北京百度网讯科技有限公司 | 训练目标跟踪模型和目标跟踪的方法和装置 |
WO2023065938A1 (zh) * | 2021-10-22 | 2023-04-27 | 广州视源电子科技股份有限公司 | 目标跟踪方法及装置、目标选择方法、介质及电子设备 |
CN116863728A (zh) * | 2023-07-21 | 2023-10-10 | 重庆交通大学 | 一种基于过街行人步速分类的信号配时方法与系统 |
CN116912882A (zh) * | 2023-07-13 | 2023-10-20 | 广西民族大学 | 一种基于头部和躯干检测的增强DeepSort单镜行人跟踪算法 |
CN116912882B (zh) * | 2023-07-13 | 2024-06-28 | 广西民族大学 | 一种基于头部和躯干检测的增强DeepSort单镜行人跟踪算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093182A (zh) * | 2017-03-23 | 2017-08-25 | 东南大学 | 一种基于特征拐点的人体高度估计方法 |
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN110210302A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机设备及存储介质 |
CN110443190A (zh) * | 2019-07-31 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种对象识别方法和装置 |
WO2020252924A1 (zh) * | 2019-06-19 | 2020-12-24 | 平安科技(深圳)有限公司 | 视频行人检测方法、装置、服务器及存储介质 |
-
2021
- 2021-02-03 CN CN202110150356.3A patent/CN112926410B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093182A (zh) * | 2017-03-23 | 2017-08-25 | 东南大学 | 一种基于特征拐点的人体高度估计方法 |
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN110210302A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机设备及存储介质 |
WO2020252924A1 (zh) * | 2019-06-19 | 2020-12-24 | 平安科技(深圳)有限公司 | 视频行人检测方法、装置、服务器及存储介质 |
CN110443190A (zh) * | 2019-07-31 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种对象识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
YIBING ZHANG ET AL.: "A pedestrian tracking algorithm based on background unrelated head detection", 4TH INTERNATIONAL CONFERENCE ON SMART AND SUSTAINABLE CITY (ICSSC 2017), 15 February 2018 (2018-02-15), pages 1 - 6 * |
马金鹏: "改进的基于人头检测的行人跟踪算法", 电子测量技术, vol. 40, no. 12, 31 December 2017 (2017-12-31), pages 233 - 237 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724289B (zh) * | 2021-07-21 | 2024-04-26 | 山东师范大学 | 视频图像多目标跟踪方法、系统、存储介质及设备 |
CN113724289A (zh) * | 2021-07-21 | 2021-11-30 | 山东师范大学 | 视频图像多目标跟踪方法、系统、存储介质及设备 |
CN114022803A (zh) * | 2021-09-30 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种多目标跟踪方法、装置、存储介质及电子设备 |
CN114022803B (zh) * | 2021-09-30 | 2023-11-14 | 苏州浪潮智能科技有限公司 | 一种多目标跟踪方法、装置、存储介质及电子设备 |
WO2023065938A1 (zh) * | 2021-10-22 | 2023-04-27 | 广州视源电子科技股份有限公司 | 目标跟踪方法及装置、目标选择方法、介质及电子设备 |
CN113920164A (zh) * | 2021-10-27 | 2022-01-11 | 浙江工商大学 | 一种剧场环境下基于近红外防伪油墨的演员身份重识别方法 |
CN113920164B (zh) * | 2021-10-27 | 2024-05-24 | 浙江工商大学 | 一种剧场环境下基于近红外防伪油墨的演员身份重识别方法 |
CN115690545A (zh) * | 2021-12-03 | 2023-02-03 | 北京百度网讯科技有限公司 | 训练目标跟踪模型和目标跟踪的方法和装置 |
CN115690545B (zh) * | 2021-12-03 | 2024-06-11 | 北京百度网讯科技有限公司 | 训练目标跟踪模型和目标跟踪的方法和装置 |
CN114299428A (zh) * | 2021-12-24 | 2022-04-08 | 空间视创(重庆)科技股份有限公司 | 一种跨媒体视频人物识别方法及系统 |
CN114549584A (zh) * | 2022-01-28 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息处理的方法、装置、电子设备及存储介质 |
CN115063452A (zh) * | 2022-06-13 | 2022-09-16 | 中国船舶重工集团公司第七0七研究所九江分部 | 一种针对海上目标的云台摄像头跟踪方法 |
CN115063452B (zh) * | 2022-06-13 | 2024-03-26 | 中国船舶重工集团公司第七0七研究所九江分部 | 一种针对海上目标的云台摄像头跟踪方法 |
CN115049907B (zh) * | 2022-08-17 | 2022-10-28 | 四川迪晟新达类脑智能技术有限公司 | 一种基于fpga的yolov4目标检测网络实现方法 |
CN115049907A (zh) * | 2022-08-17 | 2022-09-13 | 四川迪晟新达类脑智能技术有限公司 | 一种基于fpga的yolov4目标检测网络实现方法 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
CN116912882A (zh) * | 2023-07-13 | 2023-10-20 | 广西民族大学 | 一种基于头部和躯干检测的增强DeepSort单镜行人跟踪算法 |
CN116912882B (zh) * | 2023-07-13 | 2024-06-28 | 广西民族大学 | 一种基于头部和躯干检测的增强DeepSort单镜行人跟踪算法 |
CN116863728A (zh) * | 2023-07-21 | 2023-10-10 | 重庆交通大学 | 一种基于过街行人步速分类的信号配时方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112926410B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926410B (zh) | 目标跟踪方法、装置、存储介质及智能视频系统 | |
Aker et al. | Using deep networks for drone detection | |
CN110059558B (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN108447091B (zh) | 目标定位方法、装置、电子设备及存储介质 | |
CN112668483B (zh) | 一种融合行人重识别和人脸检测的单目标人物跟踪方法 | |
Jeeva et al. | Survey on background modeling and foreground detection for real time video surveillance | |
JP6756406B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN115546705B (zh) | 目标识别方法、终端设备及存储介质 | |
CN111640138A (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
CN110349188A (zh) | 基于tsk模糊模型的多目标跟踪方法、装置及存储介质 | |
CN111260687B (zh) | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 | |
CN115063447A (zh) | 一种基于视频序列的目标动物运动追踪方法及相关设备 | |
CN114627339B (zh) | 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质 | |
CN111105436B (zh) | 目标跟踪方法、计算机设备及存储介质 | |
CN112488985A (zh) | 图像质量确定方法、装置及设备 | |
CN113255549B (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
TWI728655B (zh) | 應用於動物的卷積神經網路偵測方法及系統 | |
CN114091519A (zh) | 一种基于多粒度遮挡感知的遮挡行人重识别方法 | |
CN113963178A (zh) | 地空背景下红外弱小目标检测方法、装置、设备及介质 | |
CN111524161A (zh) | 提取轨迹的方法和装置 | |
CN108346158B (zh) | 基于主块数据关联的多目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |