CN115760921A

CN115760921A - 基于多目标跟踪的行人轨迹预测方法及系统

Info

Publication number: CN115760921A
Application number: CN202211501046.2A
Authority: CN
Inventors: 成卫; 伍权; 肖海承; 蒋银凤; 李博; 王帅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-07

Abstract

本发明公开了基于多目标跟踪的行人轨迹预测方法及系统，获取待跟踪视频，对视频第一帧的多个目标行人进行标注；将待跟踪视频，输入到训练后的多目标跟踪模型中，多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框，以及多个目标行人轨迹的跟踪结果；多目标跟踪模型的检测器对待跟踪视频的非首帧进行目标检测，得到可见光模态特征和红外光模态特征；对可见光模态特征和红外光模态特征进行加权融合，得到加权融合后的特征；对加权融合后的特征进行定位，得到目标人体的坐标框；跟踪器根据目标人体的坐标框的中心点位置，对目标行人进行位置预测；将预测的位置与目标人体的当前位置进行关联，得到目标人体的预测轨迹。

Description

基于多目标跟踪的行人轨迹预测方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于多目标跟踪的行人轨迹预测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着居民生活水平的不断提高，大型公共场所的休闲娱乐型客流量逐渐增大，行人出行密度也日益增加，随之便会发生一系列拥挤事故，导致整个客流系统瘫痪，从而影响到居民生活水平和身心健康。对行人出行的运动轨迹进行预测，及时采取安全有效的预防管理措施，是目前预防此类事故发生的重要措施。为了对环境中的行人交通进行有效管理，发现事故发生的潜在风险区域，保障行人交通安全是当前交通管理工作者研究的重点。

智能视频源自计算机视觉技术，是在图像及图像描述之间建立关系，从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容，达到自动分析和抽取视频源中关键信息的目的，也就是智能视频分析技术(IVS)。作为强化视频监控系统应用的一门主要技术，智能视频分析技术近几年一直得到业界的广泛关注，其通过对视频内容的分析，将客户所关注的目标从监控背景中分离出来，按照目标的移动方向、速度、时间等参数和某些行为特征进行关联，从而达到主动监控防御的目的。

近年来，随着大数据、云计算、人工智能等领域日新月异的发展及交互融合，智慧电商、智慧交通、智慧城市等概念越发受到关注。随着人们对更智能、更便捷、更高质量生活的向往，同时伴随着重大的学术价值和广阔的商业前景，众多高校、科研机构、政府部门均对相关产业投入了大量的人力、物力和财力。人工智能，被喻为新时代工业革命的引擎，正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支，旨在研宄如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界。以图像和视频为信息载体的各项计算机视觉算法，早己渗透到大众的日常生活中，如人脸识别、人机交互、商品检索、智能监控、视觉导航等。视频目标跟踪技术，作为计算机视觉领域中基础的、重要的研宄方向之一，一直是研宄人员的关注热点。

同时，行人轨迹预测对于交通出行也有重要的研究意义，针对多目标跟踪的行人轨迹预测可广泛应用于无人驾驶技术、互联网出行、视频监控、交通枢纽信息获取、人机交互等领域，可有效减少交通事故和拥挤事故的发生，对于交通事业的建设与发展有不可忽视的促进作用。

目前，现有的基于多目标跟踪的行人轨迹预测系统存在如下问题：

1、针对目标行人频繁被障碍物遮挡、多人重叠跟踪等现象，现有技术难以得到精确的预测轨迹，存在对预测结果产生的误差难以消除等困难。

2、行人轨迹具有运动不确定性和尺度不规则性，参与城市道路环境的复杂性和行人的密集性给轨迹预测技术提出了更高的要求，传统的跟踪与识别模式难以满足行人轨迹预测精准化、实时化与智能化的要求。

3、傍晚至清晨由于人员密度低、监管人员警惕性下降、环境光线不佳等原因的影响，成为了交通事故、安全意外、犯罪事件的高发阶段，传统的摄像机已经不能满足夜间的监控需求，安全隐患大，无法高效对行人自动识别和跟踪。

发明内容

为了解决现有技术的不足，本发明提供了基于多目标跟踪的行人轨迹预测方法及系统；解决了传统的摄像机已经不能满足夜间的监控需求，安全隐患大，无法高效对行人自动识别和跟踪的技术问题。

第一方面，本发明提供了基于多目标跟踪的行人轨迹预测方法；

基于多目标跟踪的行人轨迹预测方法，包括：

获取待跟踪视频，对视频第一帧的多个目标行人进行标注；所述待跟踪视频通过数字摄像机和红外线传感器获取的；

将待跟踪视频，输入到训练后的多目标跟踪模型中，多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框，以及多个目标行人轨迹的跟踪结果；

所述训练后的多目标跟踪模型，包括相互连接的检测器和跟踪器；

其中，检测器对待跟踪视频的非首帧进行目标检测，得到可见光模态特征和红外光模态特征；对可见光模态特征和红外光模态特征进行加权融合，得到加权融合后的特征；对加权融合后的特征进行定位，得到目标人体的坐标框；

跟踪器根据目标人体的坐标框的中心点位置，对目标行人进行位置预测；将预测的位置与目标人体的当前位置进行关联，得到目标人体的预测轨迹；对目标人体的预测轨迹进行修正，得到修正后的轨迹。

第二方面，本发明提供了基于多目标跟踪的行人轨迹预测系统；

基于多目标跟踪的行人轨迹预测系统，包括：

获取模块，其被配置为：获取待跟踪视频，对视频第一帧的多个目标行人进行标注；所述待跟踪视频通过数字摄像机和红外线传感器获取的；

跟踪模块，其被配置为：将待跟踪视频，输入到训练后的多目标跟踪模型中，多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框，以及多个目标行人轨迹的跟踪结果；

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本公开的一种基于多目标跟踪的行人轨迹预测系统，安全监控需要对特定区域中的行人进行持续的检测和跟踪，以便及时发现行人的异常行为或场景中的安全隐患，广泛应用于日常生活的各个角落，智能监控通过对可疑行人的识别和跟踪，自动分析，提高效率的同时极大地减轻了人们的工作负担。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明的检测跟踪流程图；

图2为本发明的CBAM的总体流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于多目标跟踪的行人轨迹预测方法；

如图1所示，基于多目标跟踪的行人轨迹预测方法，包括：

S101：获取待跟踪视频，对视频第一帧的多个目标行人进行标注；所述待跟踪视频通过数字摄像机和红外线传感器获取的；

S102：将待跟踪视频，输入到训练后的多目标跟踪模型中，多目标跟踪模型输出多个目标行人在每一帧图像中的目标检测框，以及多个目标行人轨迹的跟踪结果；

进一步地，所述检测器，包括：用于特征提取的CAPsNet网络、用于特征融合的concat函数层和注意力模块；所述跟踪器，包括：依次连接的卡尔曼滤波算法模型、匈牙利算法模型和轨迹修正模型。

进一步地，所述训练后的多目标跟踪模型，训练过程包括：

构建训练集，所述训练集为已知每一帧行人标注结果的视频；

将训练集输入到多目标跟踪模型中，对模型进行训练，当模型的总损失函数值不再下降时，停止训练，得到训练后的多目标跟踪模型；模型的总损失函数是指检测器的损失函数。

进一步地，所述检测器对待跟踪视频的非首帧进行目标检测，得到可见光模态特征和红外光模态特征，具体包括：

采用CAPsNet网络，对待跟踪视频的非首帧进行目标检测，得到可见光模态特征和红外光模态特征。

进一步地，所述对可见光模态特征和红外光模态特征进行加权融合，得到加权融合后的特征，具体包括：

其中，Γ_i表示加权融合后的特征值；f^cat表示concat融合函数；A_i表示可见光模态特征；B_i表示红外光模态特征；W_v表示经过Sigmoid激活函数处理过后的可见光模态特征；W_i表示经过Sigmoid激活函数处理过后的红外光模态特征；W表示经过Sigmoid激活函数处理过后的可见光模态特征与红外光模态特征之和；

表示可见光模态特征权重；

表示红外光模态特征权重，fⁿⁱⁿ表示对可见光模态特征与红外光模态特征通过NIN网络层维度压缩。

fⁿⁱⁿ表示nin下的维度压缩函数，维度压缩函数可用来对可见光特征和红外光特征进行维度压缩，nin指的是Network in Network，即NIN网络，可增强模型辨别力，原理为利用微型神经网络进行滑窗，得到特征图，然后特征图输出到下一层，由此堆叠小网络实现深层次的网络。

进一步地，所述得到加权融合后的特征之后，所述对加权融合后的特征进行定位之前，还包括：通过注意力模块CBAM(Convolutional Block Attention Module)的通道注意力机制模块和空间注意力机制模块对融合的特征进行优化，具体优化过程包括：

(1)利用通道注意力机制模块对融合后的特征进行处理；

(2)利用空间注意力机制模块对通道注意力机制模块输出值进行处理。

进一步地，如图2所示，所述利用通道注意力机制模块对融合后的特征进行处理，具体包括：

首先，将加权融合后的特征输入通道注意力机制模块；然后对整个特征进行最大池化和平均池化，用来挤压特征，获得通道之间的全局信息；再通过多层感知器获取每个通道的权重；最后进行加权运算输出通道注意力信息；

其中，最大池化的功能就是在过滤器中提取到某个最明显特征，并予以保存，用于由于前期图像包含较多的噪点和目标处理无关的信息。

平均池化则是对池化区域内的图像取平均值，这种方式得到的特征信息对背景信息更加敏感，可以更好识别行人轨迹目标和背景。

多层感知器是针对行人目标与背景而言，在感知器里对不同特征值予以不同权重，便可更好的识别特征，使得注意力特征得以加强。

进一步地，所述利用空间注意力机制模块对通道注意力机制模块输出值进行处理，具体包括：

对整个识别的图像信息特征依次进行最大池化和平均池化，然后将池化后的两张特征图在通道维度堆叠，并保留特征的关键信息，便可得到行人轨迹最重要的信息点，然后，使用卷积核融合通道信息，最后，将卷积后的结果经过Sigmoid激活函数对特征图的空间权重归一化，再将输入特征图和权重相乘。可提高目标跟踪的精度。

针对CBAM的总体流程图，如图2所示。都是需要输入特征图先经过通道注意力机制，将通道权重和输入特征图相乘后再送入空间注意力机制，将归一化后的空间权重和空间注意力机制的输入特征图相乘，得到最终加权后的特征图。

应理解地，为建立更加精准的网络结构融合机制，CBAM可建立风格交叉注意力网络，运用十字交叉法学习识别图像中行人特征，生成稀疏注意力特征图，多次交叉融合后的图像特征将会更准确。

进一步地，所述对加权融合后的特征进行定位，得到目标人体的坐标框，具体包括：

结合行人运动特征，计算目标人体的任意两个节点间的距离权重。

其中，α、β分别表示行人特征节点α和节点β，(x_α,y_α,z_α)、(x_β,y_β,z_β)是对应α、β节点的三维坐标。所述任意两个节点，比如人体的膝盖节点和手掌节点。

进一步地，所述检测器，其损失函数Loss，包括：

目标框位置损失函数L_box、目标置信度损失函数L_obj和类别损失函数L_cls的求和结果。

其中，目标框位置损失函数L_box表示预测框的定位误差，用于表示中心坐标误差的权重；目标框位置损失函数L_box，具体为：

其中，目标置信度损失函数L_obj表示交并比误差，其作为衡量指标来描述实际框与预测框之间的重合度，保证目标检测网络的查准率和查全率；目标置信度损失函数L_obj，具体为：

其中，类别损失函数L_cls表示分类误差，保证网络在预测类别时的准确性，该误差使用交叉熵损失函数的形式，类别损失函数L_cls具体为：

其中，S表示行人特征图像被划分成的网格数；B表示每个网格所预测的框的个数；

分别表示第i个网格的第j个预测框检测到了目标与没检测到目标；x、y表示行人特征实际框中心坐标的横纵坐标值；w、h表示行人特征实际框的长和宽；

表示行人特征预测框中心坐标的横纵坐标值；

表示行人特征实际框的长和宽；c表示实际置信度；

表示预测置信度；λ_coord、λ_obj、λ_noobj表示损失函数的参数值；classes表示预测类别参数；p_i(c)表示检测到的目标属于该类别的实际概率；

表示检测到的目标属于该类别的预测概率；损失函数Loss，限定行人预测框的长度和宽度，减小轨迹预测坐标偏移值。

应理解地，对目标行人进行检测，以处理环境光线不佳而导致检测结果误差的问题。

进一步地，所述跟踪器根据目标人体的坐标框，对目标行人进行位置预测，具体包括：

采用卡尔曼滤波算法根据目标人体的坐标框，对下一帧图像中目标行人进行位置预测，得到运动特征，使得人体坐标框伴随预测位置方向移动。

进一步地，所述将预测的位置与目标人体的当前位置进行关联，得到目标人体的预测轨迹，具体包括：

采用匈牙利算法，将预测的位置与目标人体的当前位置进行关联，得到目标人体的预测轨迹。

每一帧的图，跟踪器都会给出多条轨迹，每条轨迹都由若干个点组成。新的一帧物体中心点输入之后，经过多帧融合，快速跟踪，采用雷达与红外线结合定位匹配，跟踪器与给出预测值，同时预测值与实际的距离采用匈牙利算法匹配。匈牙利算法结合表观特征的颜色直方图特征。跟踪器内部设有距离阈值。超过阈值时，将保存原先轨迹于系统内并重新创建新轨迹。

进一步地，所述得到目标人体的预测轨迹之后，所述对目标人体的预测轨迹进行修正之前，还包括：

判断行人是否出现遮挡或重叠，如果出现遮挡或重叠，则进行修正，否则不进行修正。

应理解地，所述判断行人是否出现遮挡或重叠，采用SD-LSTM模型来实现。将池化层添加到原始LSTM的输出端，得到SD-LSTM。

进一步地，所述对目标人体的预测轨迹进行修正，得到修正后的轨迹，具体包括：

采用二帧差分法，对目标人体的预测轨迹进行修正，得到修正后的轨迹。

应理解地，所述轨迹修正模型即为二帧差分法。

进一步地，所述采用二帧差分法，对目标人体的预测轨迹进行修正，得到修正后的轨迹，具体包括：

计算已跟踪的目标α人体坐标框的高度平均值和宽度平均值记作

和

将其与第t帧的目标β的人体坐标边框高度h^β和边框宽度w^β比较大小，根据数据集设定阈值为σ∈{0.99,1.01}。

再比较第t-1帧和第t帧中β目标的中心位置

和

之间的欧式距离，阈值为

若

且

则说明前后两帧的检测目标为同一人体坐标框，行人轨迹无需修正；反之检测目标不同，则需要进行修正，即切换识别目标；

其中，

表示第t-1帧中，β目标的中心位置

的横坐标；

表示第t帧中，β目标的中心位置

的横坐标；

表示第t-1帧中，β目标的中心位置

的纵坐标；

表示第t帧中，β目标的中心位置

的纵坐标；

表示中心位置

和

之间欧式距离的判别阈值。

应理解地，针对遮挡现象中的误差轨迹进行修正，防止轨迹的被迫中断或识别目标出现变换的现象。综述，安全监控需要对特定区域中的行人进行持续的检测和跟踪，以便及时发现行人的异常行为或场景中的安全隐患，广泛应用于日常生活的各个角落，智能监控通过对可疑行人的识别和跟踪，自动分析，提高效率的同时极大地减轻了人们的工作负担；利用视频目标跟踪技术，对行人轨迹进行实时监控，进一步的为场景分析、秩序维护和智能调度提供便利，节约人力物力；此外，目标跟踪技术也在视频编辑、三维重建、机器人、机械自动控制等领域发挥着重要作用。

实施例二

本实施例提供了基于多目标跟踪的行人轨迹预测系统；

基于多目标跟踪的行人轨迹预测系统，包括：

此处需要说明的是，上述获取模块和跟踪模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。