CN115760921A - 基于多目标跟踪的行人轨迹预测方法及系统 - Google Patents

基于多目标跟踪的行人轨迹预测方法及系统 Download PDF

Info

Publication number
CN115760921A
CN115760921A CN202211501046.2A CN202211501046A CN115760921A CN 115760921 A CN115760921 A CN 115760921A CN 202211501046 A CN202211501046 A CN 202211501046A CN 115760921 A CN115760921 A CN 115760921A
Authority
CN
China
Prior art keywords
target
frame
human body
pedestrian
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211501046.2A
Other languages
English (en)
Inventor
成卫
伍权
肖海承
蒋银凤
李博
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211501046.2A priority Critical patent/CN115760921A/zh
Publication of CN115760921A publication Critical patent/CN115760921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于多目标跟踪的行人轨迹预测方法及系统,获取待跟踪视频,对视频第一帧的多个目标行人进行标注;将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;多目标跟踪模型的检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹。

Description

基于多目标跟踪的行人轨迹预测方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及基于多目标跟踪的行人轨迹预测方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着居民生活水平的不断提高,大型公共场所的休闲娱乐型客流量逐渐增大,行人出行密度也日益增加,随之便会发生一系列拥挤事故,导致整个客流系统瘫痪,从而影响到居民生活水平和身心健康。对行人出行的运动轨迹进行预测,及时采取安全有效的预防管理措施,是目前预防此类事故发生的重要措施。为了对环境中的行人交通进行有效管理,发现事故发生的潜在风险区域,保障行人交通安全是当前交通管理工作者研究的重点。
智能视频源自计算机视觉技术,是在图像及图像描述之间建立关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容,达到自动分析和抽取视频源中关键信息的目的,也就是智能视频分析技术(IVS)。作为强化视频监控系统应用的一门主要技术,智能视频分析技术近几年一直得到业界的广泛关注,其通过对视频内容的分析,将客户所关注的目标从监控背景中分离出来,按照目标的移动方向、速度、时间等参数和某些行为特征进行关联,从而达到主动监控防御的目的。
近年来,随着大数据、云计算、人工智能等领域日新月异的发展及交互融合,智慧电商、智慧交通、智慧城市等概念越发受到关注。随着人们对更智能、更便捷、更高质量生活的向往,同时伴随着重大的学术价值和广阔的商业前景,众多高校、科研机构、政府部门均对相关产业投入了大量的人力、物力和财力。人工智能,被喻为新时代工业革命的引擎,正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支,旨在研宄如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界。以图像和视频为信息载体的各项计算机视觉算法,早己渗透到大众的日常生活中,如人脸识别、人机交互、商品检索、智能监控、视觉导航等。视频目标跟踪技术,作为计算机视觉领域中基础的、重要的研宄方向之一,一直是研宄人员的关注热点。
同时,行人轨迹预测对于交通出行也有重要的研究意义,针对多目标跟踪的行人轨迹预测可广泛应用于无人驾驶技术、互联网出行、视频监控、交通枢纽信息获取、人机交互等领域,可有效减少交通事故和拥挤事故的发生,对于交通事业的建设与发展有不可忽视的促进作用。
目前,现有的基于多目标跟踪的行人轨迹预测系统存在如下问题:
1、针对目标行人频繁被障碍物遮挡、多人重叠跟踪等现象,现有技术难以得到精确的预测轨迹,存在对预测结果产生的误差难以消除等困难。
2、行人轨迹具有运动不确定性和尺度不规则性,参与城市道路环境的复杂性和行人的密集性给轨迹预测技术提出了更高的要求,传统的跟踪与识别模式难以满足行人轨迹预测精准化、实时化与智能化的要求。
3、傍晚至清晨由于人员密度低、监管人员警惕性下降、环境光线不佳等原因的影响,成为了交通事故、安全意外、犯罪事件的高发阶段,传统的摄像机已经不能满足夜间的监控需求,安全隐患大,无法高效对行人自动识别和跟踪。
发明内容
为了解决现有技术的不足,本发明提供了基于多目标跟踪的行人轨迹预测方法及系统;解决了传统的摄像机已经不能满足夜间的监控需求,安全隐患大,无法高效对行人自动识别和跟踪的技术问题。
第一方面,本发明提供了基于多目标跟踪的行人轨迹预测方法;
基于多目标跟踪的行人轨迹预测方法,包括:
获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
第二方面,本发明提供了基于多目标跟踪的行人轨迹预测系统;
基于多目标跟踪的行人轨迹预测系统,包括:
获取模块,其被配置为:获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
跟踪模块,其被配置为:将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
本公开的一种基于多目标跟踪的行人轨迹预测系统,安全监控需要对特定区域中的行人进行持续的检测和跟踪,以便及时发现行人的异常行为或场景中的安全隐患,广泛应用于日常生活的各个角落,智能监控通过对可疑行人的识别和跟踪,自动分析,提高效率的同时极大地减轻了人们的工作负担。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的检测跟踪流程图;
图2为本发明的CBAM的总体流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于多目标跟踪的行人轨迹预测方法;
如图1所示,基于多目标跟踪的行人轨迹预测方法,包括:
S101:获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
S102:将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
进一步地,所述检测器,包括:用于特征提取的CAPsNet网络、用于特征融合的concat函数层和注意力模块;所述跟踪器,包括:依次连接的卡尔曼滤波算法模型、匈牙利算法模型和轨迹修正模型。
进一步地,所述训练后的多目标跟踪模型,训练过程包括:
构建训练集,所述训练集为已知每一帧行人标注结果的视频;
将训练集输入到多目标跟踪模型中,对模型进行训练,当模型的总损失函数值不再下降时,停止训练,得到训练后的多目标跟踪模型;模型的总损失函数是指检测器的损失函数。
进一步地,所述检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征,具体包括:
采用CAPsNet网络,对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征。
进一步地,所述对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征,具体包括:
Figure BDA0003967640300000071
其中,Γi表示加权融合后的特征值;fcat表示concat融合函数;Ai表示可见光模态特征;Bi表示红外光模态特征;Wv表示经过Sigmoid激活函数处理过后的可见光模态特征;Wi表示经过Sigmoid激活函数处理过后的红外光模态特征;W表示经过Sigmoid激活函数处理过后的可见光模态特征与红外光模态特征之和;
Figure BDA0003967640300000072
表示可见光模态特征权重;
Figure BDA0003967640300000073
表示红外光模态特征权重,fnin表示对可见光模态特征与红外光模态特征通过NIN网络层维度压缩。
fnin表示nin下的维度压缩函数,维度压缩函数可用来对可见光特征和红外光特征进行维度压缩,nin指的是Network in Network,即NIN网络,可增强模型辨别力,原理为利用微型神经网络进行滑窗,得到特征图,然后特征图输出到下一层,由此堆叠小网络实现深层次的网络。
进一步地,所述得到加权融合后的特征之后,所述对加权融合后的特征进行定位之前,还包括:通过注意力模块CBAM(Convolutional Block Attention Module)的通道注意力机制模块和空间注意力机制模块对融合的特征进行优化,具体优化过程包括:
(1)利用通道注意力机制模块对融合后的特征进行处理;
(2)利用空间注意力机制模块对通道注意力机制模块输出值进行处理。
进一步地,如图2所示,所述利用通道注意力机制模块对融合后的特征进行处理,具体包括:
首先,将加权融合后的特征输入通道注意力机制模块;然后对整个特征进行最大池化和平均池化,用来挤压特征,获得通道之间的全局信息;再通过多层感知器获取每个通道的权重;最后进行加权运算输出通道注意力信息;
其中,最大池化的功能就是在过滤器中提取到某个最明显特征,并予以保存,用于由于前期图像包含较多的噪点和目标处理无关的信息。
平均池化则是对池化区域内的图像取平均值,这种方式得到的特征信息对背景信息更加敏感,可以更好识别行人轨迹目标和背景。
多层感知器是针对行人目标与背景而言,在感知器里对不同特征值予以不同权重,便可更好的识别特征,使得注意力特征得以加强。
进一步地,所述利用空间注意力机制模块对通道注意力机制模块输出值进行处理,具体包括:
对整个识别的图像信息特征依次进行最大池化和平均池化,然后将池化后的两张特征图在通道维度堆叠,并保留特征的关键信息,便可得到行人轨迹最重要的信息点,然后,使用卷积核融合通道信息,最后,将卷积后的结果经过Sigmoid激活函数对特征图的空间权重归一化,再将输入特征图和权重相乘。可提高目标跟踪的精度。
针对CBAM的总体流程图,如图2所示。都是需要输入特征图先经过通道注意力机制,将通道权重和输入特征图相乘后再送入空间注意力机制,将归一化后的空间权重和空间注意力机制的输入特征图相乘,得到最终加权后的特征图。
应理解地,为建立更加精准的网络结构融合机制,CBAM可建立风格交叉注意力网络,运用十字交叉法学习识别图像中行人特征,生成稀疏注意力特征图,多次交叉融合后的图像特征将会更准确。
进一步地,所述对加权融合后的特征进行定位,得到目标人体的坐标框,具体包括:
结合行人运动特征,计算目标人体的任意两个节点间的距离权重。
Figure BDA0003967640300000091
其中,α、β分别表示行人特征节点α和节点β,(xα,yα,zα)、(xβ,yβ,zβ)是对应α、β节点的三维坐标。所述任意两个节点,比如人体的膝盖节点和手掌节点。
进一步地,所述检测器,其损失函数Loss,包括:
目标框位置损失函数Lbox、目标置信度损失函数Lobj和类别损失函数Lcls的求和结果。
其中,目标框位置损失函数Lbox表示预测框的定位误差,用于表示中心坐标误差的权重;目标框位置损失函数Lbox,具体为:
Figure BDA0003967640300000092
其中,目标置信度损失函数Lobj表示交并比误差,其作为衡量指标来描述实际框与预测框之间的重合度,保证目标检测网络的查准率和查全率;目标置信度损失函数Lobj,具体为:
Figure BDA0003967640300000101
其中,类别损失函数Lcls表示分类误差,保证网络在预测类别时的准确性,该误差使用交叉熵损失函数的形式,类别损失函数Lcls具体为:
Figure BDA0003967640300000102
其中,S表示行人特征图像被划分成的网格数;B表示每个网格所预测的框的个数;
Figure BDA0003967640300000103
分别表示第i个网格的第j个预测框检测到了目标与没检测到目标;x、y表示行人特征实际框中心坐标的横纵坐标值;w、h表示行人特征实际框的长和宽;
Figure BDA0003967640300000104
表示行人特征预测框中心坐标的横纵坐标值;
Figure BDA0003967640300000105
表示行人特征实际框的长和宽;c表示实际置信度;
Figure BDA0003967640300000106
表示预测置信度;λcoord、λobj、λnoobj表示损失函数的参数值;classes表示预测类别参数;pi(c)表示检测到的目标属于该类别的实际概率;
Figure BDA0003967640300000107
表示检测到的目标属于该类别的预测概率;损失函数Loss,限定行人预测框的长度和宽度,减小轨迹预测坐标偏移值。
应理解地,对目标行人进行检测,以处理环境光线不佳而导致检测结果误差的问题。
进一步地,所述跟踪器根据目标人体的坐标框,对目标行人进行位置预测,具体包括:
采用卡尔曼滤波算法根据目标人体的坐标框,对下一帧图像中目标行人进行位置预测,得到运动特征,使得人体坐标框伴随预测位置方向移动。
进一步地,所述将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹,具体包括:
采用匈牙利算法,将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹。
每一帧的图,跟踪器都会给出多条轨迹,每条轨迹都由若干个点组成。新的一帧物体中心点输入之后,经过多帧融合,快速跟踪,采用雷达与红外线结合定位匹配,跟踪器与给出预测值,同时预测值与实际的距离采用匈牙利算法匹配。匈牙利算法结合表观特征的颜色直方图特征。跟踪器内部设有距离阈值。超过阈值时,将保存原先轨迹于系统内并重新创建新轨迹。
进一步地,所述得到目标人体的预测轨迹之后,所述对目标人体的预测轨迹进行修正之前,还包括:
判断行人是否出现遮挡或重叠,如果出现遮挡或重叠,则进行修正,否则不进行修正。
应理解地,所述判断行人是否出现遮挡或重叠,采用SD-LSTM模型来实现。将池化层添加到原始LSTM的输出端,得到SD-LSTM。
进一步地,所述对目标人体的预测轨迹进行修正,得到修正后的轨迹,具体包括:
采用二帧差分法,对目标人体的预测轨迹进行修正,得到修正后的轨迹。
应理解地,所述轨迹修正模型即为二帧差分法。
进一步地,所述采用二帧差分法,对目标人体的预测轨迹进行修正,得到修正后的轨迹,具体包括:
计算已跟踪的目标α人体坐标框的高度平均值和宽度平均值记作
Figure BDA0003967640300000111
Figure BDA0003967640300000112
将其与第t帧的目标β的人体坐标边框高度hβ和边框宽度wβ比较大小,根据数据集设定阈值为σ∈{0.99,1.01}。
再比较第t-1帧和第t帧中β目标的中心位置
Figure BDA0003967640300000121
Figure BDA0003967640300000122
之间的欧式距离,阈值为
Figure BDA0003967640300000123
Figure BDA0003967640300000124
Figure BDA0003967640300000125
则说明前后两帧的检测目标为同一人体坐标框,行人轨迹无需修正;反之检测目标不同,则需要进行修正,即切换识别目标;
其中,
Figure BDA0003967640300000126
表示第t-1帧中,β目标的中心位置
Figure BDA0003967640300000127
的横坐标;
Figure BDA0003967640300000128
表示第t帧中,β目标的中心位置
Figure BDA0003967640300000129
的横坐标;
Figure BDA00039676403000001210
表示第t-1帧中,β目标的中心位置
Figure BDA00039676403000001211
的纵坐标;
Figure BDA00039676403000001212
表示第t帧中,β目标的中心位置
Figure BDA00039676403000001213
的纵坐标;
Figure BDA00039676403000001214
表示中心位置
Figure BDA00039676403000001215
Figure BDA00039676403000001216
之间欧式距离的判别阈值。
应理解地,针对遮挡现象中的误差轨迹进行修正,防止轨迹的被迫中断或识别目标出现变换的现象。综述,安全监控需要对特定区域中的行人进行持续的检测和跟踪,以便及时发现行人的异常行为或场景中的安全隐患,广泛应用于日常生活的各个角落,智能监控通过对可疑行人的识别和跟踪,自动分析,提高效率的同时极大地减轻了人们的工作负担;利用视频目标跟踪技术,对行人轨迹进行实时监控,进一步的为场景分析、秩序维护和智能调度提供便利,节约人力物力;此外,目标跟踪技术也在视频编辑、三维重建、机器人、机械自动控制等领域发挥着重要作用。
实施例二
本实施例提供了基于多目标跟踪的行人轨迹预测系统;
基于多目标跟踪的行人轨迹预测系统,包括:
获取模块,其被配置为:获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
跟踪模块,其被配置为:将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
此处需要说明的是,上述获取模块和跟踪模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于多目标跟踪的行人轨迹预测方法,其特征是,包括:
获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
2.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,所述检测器,包括:用于特征提取的CAPsNet网络、用于特征融合的concat函数层和注意力模块;所述跟踪器,包括:依次连接的卡尔曼滤波算法模型、匈牙利算法模型和轨迹修正模型。
3.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,所述检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征,具体包括:
采用CAPsNet网络,对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;
所述对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征,具体包括:
Figure FDA0003967640290000021
其中,Γi表示加权融合后的特征值;fcat表示concat融合函数;Ai表示可见光模态特征;Bi表示红外光模态特征;Wv表示经过Sigmoid激活函数处理过后的可见光模态特征;Wi表示经过Sigmoid激活函数处理过后的红外光模态特征;W表示经过Sigmoid激活函数处理过后的可见光模态特征与红外光模态特征之和;
Figure FDA0003967640290000022
表示可见光模态特征权重;
Figure FDA0003967640290000023
表示红外光模态特征权重,fnin表示对可见光模态特征与红外光模态特征通过NIN网络层维度压缩。
4.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,所述得到加权融合后的特征之后,所述对加权融合后的特征进行定位之前,还包括:通过注意力模块CBAM的通道注意力机制模块和空间注意力机制模块对融合的特征进行优化,具体优化过程包括:
利用通道注意力机制模块对融合后的特征进行处理;
利用空间注意力机制模块对通道注意力机制模块输出值进行处理;
其中,所述利用通道注意力机制模块对融合后的特征进行处理,具体包括:
首先,将加权融合后的特征输入通道注意力机制模块;然后对整个特征进行最大池化和平均池化,用来挤压特征,获得通道之间的全局信息;再通过多层感知器获取每个通道的权重;最后进行加权运算输出通道注意力信息;
其中,所述利用空间注意力机制模块对通道注意力机制模块输出值进行处理,具体包括:
对整个识别的图像信息特征依次进行最大池化和平均池化,然后将池化后的两张特征图在通道维度堆叠,并保留特征的关键信息,便可得到行人轨迹最重要的信息点,然后,使用卷积核融合通道信息,最后,将卷积后的结果经过Sigmoid激活函数对特征图的空间权重归一化,再将输入特征图和权重相乘。
5.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,
所述检测器,其损失函数Loss,包括:
目标框位置损失函数Lbox、目标置信度损失函数Lobj和类别损失函数Lcls的求和结果;
其中,目标框位置损失函数Lbox表示预测框的定位误差,用于表示中心坐标误差的权重;目标框位置损失函数Lbox,具体为:
Figure FDA0003967640290000031
其中,目标置信度损失函数Lobj表示交并比误差,其作为衡量指标来描述实际框与预测框之间的重合度,保证目标检测网络的查准率和查全率;目标置信度损失函数Lobj,具体为:
Figure FDA0003967640290000032
其中,类别损失函数Lcls表示分类误差,保证网络在预测类别时的准确性,该误差使用交叉熵损失函数的形式,类别损失函数Lcls具体为:
Figure FDA0003967640290000033
其中,S表示行人特征图像被划分成的网格数;B表示每个网格所预测的框的个数;
Figure FDA0003967640290000034
分别表示第i个网格的第j个预测框检测到了目标与没检测到目标;x、y表示行人特征实际框中心坐标的横纵坐标值;w、h表示行人特征实际框的长和宽;
Figure FDA0003967640290000041
表示行人特征预测框中心坐标的横纵坐标值;
Figure FDA0003967640290000042
表示行人特征实际框的长和宽;c表示实际置信度;
Figure FDA0003967640290000044
表示预测置信度;λcoord、λobj、λnoobj表示损失函数的参数值;classes表示预测类别参数;pi(c)表示检测到的目标属于该类别的实际概率;
Figure FDA0003967640290000043
表示检测到的目标属于该类别的预测概率;损失函数Loss,限定行人预测框的长度和宽度,减小轨迹预测坐标偏移值。
6.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,所述跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测,具体包括:
采用卡尔曼滤波算法根据目标人体的坐标框,对下一帧图像中目标行人进行位置预测,得到运动特征,使得人体坐标框伴随预测位置方向移动;
所述将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹,具体包括:
采用匈牙利算法,将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;
所述得到目标人体的预测轨迹之后,所述对目标人体的预测轨迹进行修正之前,还包括:
判断行人是否出现遮挡或重叠,如果出现遮挡或重叠,则进行修正,否则不进行修正。
7.如权利要求1所述的基于多目标跟踪的行人轨迹预测方法,其特征是,
所述对目标人体的预测轨迹进行修正,得到修正后的轨迹,具体包括:
采用二帧差分法,对目标人体的预测轨迹进行修正,得到修正后的轨迹;
所述采用二帧差分法,对目标人体的预测轨迹进行修正,得到修正后的轨迹,具体包括:
计算已跟踪的目标α人体坐标框的高度平均值和宽度平均值记作
Figure FDA0003967640290000051
Figure FDA0003967640290000052
将其与第t帧的目标β的人体坐标边框高度hβ和边框宽度wβ比较大小,根据数据集设定阈值为σ∈{0.99,1.01};
再比较第t-1帧和第t帧中β目标的中心位置
Figure FDA0003967640290000053
Figure FDA0003967640290000054
之间的欧式距离,阈值为
Figure FDA0003967640290000055
Figure FDA0003967640290000056
Figure FDA0003967640290000057
则说明前后两帧的检测目标为同一人体坐标框,行人轨迹无需修正;反之检测目标不同,则需要进行修正,即切换识别目标;
其中,
Figure FDA0003967640290000058
表示第t-1帧中,β目标的中心位置
Figure FDA0003967640290000059
的横坐标;
Figure FDA00039676402900000510
表示第t帧中,β目标的中心位置
Figure FDA00039676402900000511
的横坐标;
Figure FDA00039676402900000512
表示第t-1帧中,β目标的中心位置
Figure FDA00039676402900000513
的纵坐标;
Figure FDA00039676402900000514
表示第t帧中,β目标的中心位置
Figure FDA00039676402900000515
的纵坐标;
Figure FDA00039676402900000516
表示中心位置
Figure FDA00039676402900000517
Figure FDA00039676402900000518
之间欧式距离的判别阈值。
8.基于多目标跟踪的行人轨迹预测系统,其特征是,包括:
获取模块,其被配置为:获取待跟踪视频,对视频第一帧的多个目标行人进行标注;所述待跟踪视频通过数字摄像机和红外线传感器获取的;
跟踪模块,其被配置为:将待跟踪视频,输入到训练后的多目标跟踪模型中,多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框,以及多个目标行人轨迹的跟踪结果;
所述训练后的多目标跟踪模型,包括相互连接的检测器和跟踪器;
其中,检测器对待跟踪视频的非首帧进行目标检测,得到可见光模态特征和红外光模态特征;对可见光模态特征和红外光模态特征进行加权融合,得到加权融合后的特征;对加权融合后的特征进行定位,得到目标人体的坐标框;
跟踪器根据目标人体的坐标框的中心点位置,对目标行人进行位置预测;将预测的位置与目标人体的当前位置进行关联,得到目标人体的预测轨迹;对目标人体的预测轨迹进行修正,得到修正后的轨迹。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202211501046.2A 2022-11-28 2022-11-28 基于多目标跟踪的行人轨迹预测方法及系统 Pending CN115760921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211501046.2A CN115760921A (zh) 2022-11-28 2022-11-28 基于多目标跟踪的行人轨迹预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211501046.2A CN115760921A (zh) 2022-11-28 2022-11-28 基于多目标跟踪的行人轨迹预测方法及系统

Publications (1)

Publication Number Publication Date
CN115760921A true CN115760921A (zh) 2023-03-07

Family

ID=85339266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211501046.2A Pending CN115760921A (zh) 2022-11-28 2022-11-28 基于多目标跟踪的行人轨迹预测方法及系统

Country Status (1)

Country Link
CN (1) CN115760921A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392585A (zh) * 2023-10-24 2024-01-12 广州广电运通智能科技有限公司 闸机通行检测方法、装置、电子设备及存储介质
CN117636241A (zh) * 2023-11-17 2024-03-01 北京科技大学 基于决策级融合的低光照场景多模态行人检测跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392585A (zh) * 2023-10-24 2024-01-12 广州广电运通智能科技有限公司 闸机通行检测方法、装置、电子设备及存储介质
CN117636241A (zh) * 2023-11-17 2024-03-01 北京科技大学 基于决策级融合的低光照场景多模态行人检测跟踪方法

Similar Documents

Publication Publication Date Title
KR102129893B1 (ko) 딥러닝 네트워크 및 평균 이동을 기반으로 하는 선박 자동추적 방법 및 시스템
Kumar et al. A new vehicle tracking system with R-CNN and random forest classifier for disaster management platform to improve performance
CN107967451B (zh) 一种对静止图像进行人群计数的方法
EP3278317B1 (en) Method and electronic device
Wang et al. YOLOv3-MT: A YOLOv3 using multi-target tracking for vehicle visual detection
Kim et al. Enhanced pedestrian detection using optimized deep convolution neural network for smart building surveillance
Dai et al. Residential building facade segmentation in the urban environment
CN115760921A (zh) 基于多目标跟踪的行人轨迹预测方法及系统
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN111310604A (zh) 一种物体检测方法、装置以及存储介质
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Sindhu Vehicle identification from traffic video surveillance using YOLOv4
CN113780064A (zh) 一种目标跟踪方法以及装置
Munir et al. LDNet: End-to-end lane marking detection approach using a dynamic vision sensor
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
CN114972182A (zh) 一种物体检测方法及其装置
Zhang et al. Spatiotemporal adaptive attention 3D multiobject tracking for autonomous driving
Chauhan et al. Study of moving object detection and tracking for video surveillance
He et al. Real-time pedestrian warning system on highway using deep learning methods
Kantavat et al. Transportation mobility factor extraction using image recognition techniques
Cao et al. A long-memory pedestrian target tracking algorithm incorporating spatiotemporal trajectory feature enhancement model
Kataoka et al. Joint pedestrian detection and risk-level prediction with motion-representation-by-detection
Yugendar et al. Analysis of crowd flow parameters using artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination