CN115375736A

CN115375736A - 一种基于图像的行人轨迹跟踪方法和装置

Info

Publication number: CN115375736A
Application number: CN202211306145.5A
Authority: CN
Inventors: 刘建国
Original assignee: Weihai Bohua Medical Equipment Co ltd
Current assignee: Weihai Bohua Medical Equipment Co ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-11-22

Abstract

本申请公开了一种基于图像的行人轨迹跟踪方法和装置,涉及图像处理技术领域，该方法根据视频数据的当前帧图像中各个行人目标的运动信息预测其下一帧图像中的预测位置，并通过训练后的第一人工神经网络模型识别下一帧图像中的各个行人目标的实际位置，如果实际位置距离预测位置太远，则判断该实际位置对应的是一个新增行人目标，并为其赋予新的行人标识。可见，本方法不仅能够实时跟踪当前帧图像中各个行人目标，还能及时处理视频当前帧图像出现的新增行人目标，使得多目标跟踪更加准确。

Description

一种基于图像的行人轨迹跟踪方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于图像的行人轨迹跟踪方法和装置。

背景技术

视觉行人目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控，人机交互，无人驾驶等。

目标跟踪指的是对视频序列中的目标状态进行持续推断的过程，任务是在视频的每一帧对目标进行定位，然后关联起来形成行人运动轨迹。目标跟踪可以分为单目标跟踪和多目标跟踪，相比于单目标跟踪而言，多目标跟踪问题更为复杂，因为不仅仅需要对每个目标进行有效的跟踪，同时还需要解决画面中目标数量实时变换的问题。

多目标跟踪问题虽然具有很大的挑战性，但在很多的场景下都有着巨大的应用需求，特别是多行人跟踪的实际应用价值和应用前景尤为突出。因此，如何合理且准确地进行多目标跟踪是一个亟待解决的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种一种基于图像的行人轨迹跟踪方法和装置，不仅能够实时跟踪当前帧图像中各个行人目标，还能及时处理视频当前帧图像出现的新增行人目标，使得多目标跟踪更加准确。

第一方面，本申请提供一种基于图像的行人轨迹跟踪方法，其包括：

S1，获取视频数据的当前帧图像，所述当前帧图像包含至少一个行人目标，每个所述行人目标对应唯一的行人标识。

S2，根据所述当前帧图像中各个所述行人目标的当前位置和运动信息，预测下一帧图像中各个所述行人目标的所在位置为预测位置。

S3，通过训练后的第一人工神经网络模型识别所述下一帧图像中的各个所述行人目标，获取所述下一帧图像中各个所述行人目标的实际位置。

S4，将所述实际位置与任意所述预测位置的距离大于阈值的所述行人目标作为新增行人目标，为所述新增行人目标赋予新的行人标识。

其中，步骤S1至S4为默认顺序，但是步骤S1至S4中的任意步骤顺序可以根据实际情况调换。

可以理解，本申请公开了一种基于图像的行人轨迹跟踪方法和装置，该方法根据视频数据的当前帧图像中各个行人目标的运动信息预测其下一帧图像中的预测位置，并通过训练后的第一人工神经网络模型识别下一帧图像中的各个行人目标的实际位置，如果实际位置距离预测位置太远，则判断该实际位置对应的是一个新增行人目标，并为其赋予新的行人标识。可见，本方法不仅能够实时跟踪当前帧图像中各个行人目标，还能及时处理视频当前帧图像出现的新增行人目标，使得多目标跟踪更加准确。

在本申请可选的实施例中，步骤S1之前，所述方法还包括：通过训练后的第一人工神经网络模型识别所述视频数据的初始帧图像中的各个行人目标；依次为各个所述行人目标赋予唯一的行人标识。

在本申请可选的实施例中，步骤S2包括：

S21，获取所述当前帧图像中各个所述行人目标的运动信息，所述运动信息包括运动速度和运动角度；

S22，通过训练后的第一人工神经网络模型识别所述当前帧图像中的各个所述行人目标，获取所述当前帧图像中各个所述行人目标的当前位置；

S23，根据下式计算下一帧图像中各个所述行人目标的所在位置为预测位置：

；

其中，

代表三维空间中的所述预测位置的坐标；

代表三维空间中的所述当前位置的坐标；

代表所述运动速度，

代表三维空间中的所述运动角度对应的角坐标。

其中，步骤S21至S23为默认顺序，但是步骤S21至S23中的任意步骤顺序可以根据实际情况调换。

在本申请可选的实施例中，步骤S22包括：

S221，通过各级卷积操作提取当前帧图像中的图像特征，得到当前帧图像特征图；

S222，利用候选区域生成网络RPN技术在所述当前帧图像特征图上生成各个第一目标识别框；

S223，计算所述第一目标识别框中内容的分类结果；

S224，将所述分类结果为行人目标对应的所述第一目标识别框的中心位置作为所述当前位置。

其中，步骤S221至S224为默认顺序，但是步骤S221至S224中的任意步骤顺序可以根据实际情况调换。

在本申请实施例中，获得当前帧图像后，可利用卷积神经网络CNN技术提取该当前帧图像的图像特征，得到该当前帧图像特征图Feature Map，再利用候选区域生成网络(Region Proposal Network,RPN)技术在上述当前帧图像特征图上生成至少一个第一目标识别框。

在本申请可选的实施例中，步骤S3包括：

S31，通过各级卷积操作提取下一帧图像中的图像特征，得到下一帧图像特征图；

S32，利用候选区域生成网络RPN技术在所述下一帧图像特征图上生成各个第二目标识别框；

S33，计算所述第二目标识别框中内容的分类结果；

S34，将所述分类结果为行人目标对应的所述第二目标识别框的中心位置作为所述实际位置。

其中，步骤S31至S34为默认顺序，但是步骤S31至S34中的任意步骤顺序可以根据实际情况调换。

在本申请实施例中，获得下一帧图像后，可利用卷积神经网络CNN技术提取该下一帧图像的图像特征，得到该下一帧图像特征图Feature Map，再利用候选区域生成网络(Region Proposal Network,RPN)技术在上述下一帧图像特征图上生成至少一个第二目标识别框。

在本申请可选的实施例中，步骤S223和/或步骤S33，包括：

利用第一概率函数计算所述第一目标识别框和/或所述第二目标识别框中内容的分类预测概率；所述第一概率函数如下式所示：

;

其中，

是第i个所述第一目标识别框和/或所述第二目标识别框的分类变量，

为所述特征图，

为所述第一目标识别框和/或所述第二目标识别框，

是各项连乘的运算符号，

是所述所述第一目标识别框和/或所述第二目标识别框的集合；

利用方程

解得所述第一目标识别框和/或所述第二目标识别框中内容的分类结果。

在本申请实施例中，在步骤S2之前，所述方法还包括：

S01，通过各级卷积操作提取原始训练图像集中各个原始训练图像中的图像特征，得到原始训练图像特征图；

S02，利用候选区域生成网络RPN技术在所述原始训练图像特征图上生成至少一个目标识别区域；

S03，将所述目标识别区域从对应的所述原始训练图像中分隔出来，形成处理图像；

S04，选取至少两个所述处理图像粘贴于固定尺寸的掩膜版上，形成待训练图像；

S05，通过所述待训练图像对所述第一人工神经网络模型进行训练。

其中，步骤S01至S05为默认顺序，但是步骤S1至S5中的任意步骤顺序可以根据实际情况调换。

可以理解，选取至少两个分别含有目标识别区域的所述处理图像进行拼接形成待训练图像，将待训练图像输入第一人工神经网络模型，相当于一下子至少两张原始训练图像进行学习，该方法能有效解决行人检测中存在的行人聚集遮挡问题。

第二方面，本申请公开了一种基于图像的行人轨迹跟踪装置，其特征在于，包括用于执行如第一方面任一项方法的单元。

第三方面，本申请公开了一种基于图像的行人轨迹跟踪装置，包括：处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面任一项方法。

第四方面，本申请公开了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面任一项方法。

与现有技术相比，本申请公开了一种基于图像的行人轨迹跟踪方法和装置，该方法根据视频数据的当前帧图像中各个行人目标的运动信息预测其下一帧图像中的预测位置，并通过训练后的第一人工神经网络模型识别下一帧图像中的各个行人目标的实际位置，如果实际位置距离预测位置太远，则判断该实际位置对应的是一个新增行人目标，并为其赋予新的行人标识。可见，本方法不仅能够实时跟踪当前帧图像中各个行人目标，还能及时处理视频当前帧图像出现的新增行人目标，使得多目标跟踪更加准确。

另外，本申请中选取至少两个分别含有目标识别区域的所述处理图像进行拼接形成待训练图像，将待训练图像输入第一人工神经网络模型，相当于一下子至少两张原始训练图像进行学习，该方法能有效解决行人检测中存在的行人聚集遮挡问题。

附图说明

图1是本申请提供的一种基于图像的行人轨迹跟踪方法的流程示意图；

图2是本申请实施例中当前帧图像中行人目标的预测位置示意图；

图3是本申请实施例中下一帧图像中行人目标的实际位置和预测位置比较示意图；

图4是本申请提供的一种基于图像的行人轨迹跟踪装置的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

与单目标跟踪不同，多目标跟踪是将视频中每一帧的物体都赋予一个标识，得到每个标识的行为轨迹，因此可以批量跟踪多个对象。当新的物体出现，会赋予一个新的标识。目前主要流行的跟踪思路：检测+跟踪，多目标跟踪算法通常分为3个步骤：

(1)特征提取、运动预测，计算每个检测到的物体不同的特征，通常是视觉和运动特征。

(2)相似度计算，计算两个对象属于同一目标的概率。

(3)数据关联。

为了解决上述问题，第一方面，如图1所示，本申请公开了一种基于图像的行人轨迹跟踪方法，包括：

S1，获取视频数据的当前帧图像，当前帧图像包含至少一个行人目标，每个行人目标对应唯一的行人标识。

在本实施例中，该视频数据可以是用户通过终端设备的任意方式获得的图像，例如，从云端下载、拍摄等方式，本实施例不做限制。

S2，根据当前帧图像中各个行人目标的当前位置和运动信息，预测下一帧图像中各个行人目标的所在位置为预测位置。

在本实施例中，行人目标的运动信息可以包括行人目标的速度、加速度、运动方向等；当前位置即为当前帧图像中行人目标的实际所在的位置坐标；预测位置即为下一帧图像中行人目标的可能所在的位置坐标。

如图2所示的当前帧图像仅包括一个行人目标A，在当前帧图像中预测出下一帧图像中该行人目标A的所在位置为预测位置。

DeepSORT相比于其他跟踪算法，其使用更加可靠的度量来代替关联度量，并使用CNN网络在大规模行人数据集进行训练、提取特征，增加了网络对遗失和遮挡的鲁棒性。由于行人所处的环境复杂，因此，选择DeepSORT作为行人跟踪器。

DeepSORT在对于SORT的改进中加入了一个深度学习的特征提取网络，提升对遮挡和目标遗失的鲁棒性。

SORT算法流程补充：

在跟踪之前，对所有目标已经完成检测，实现了特征建模过程。

(1)第一帧进来时，以检测到的目标初始化并创建新的跟踪器，标注身份标识。

(2)后面帧进来时，先到卡尔曼滤波器中得到由前面帧box产生的状态预测和协方差预测。求跟踪器所有目标状态预测与本帧检测的box的IOU，通过匈牙利指派算法得到交并比(Intersection over Union，IOU)最大的唯一匹配（数据关联部分），再去掉匹配值小于交并比阈值（iou_threshold）的匹配对。

(3)用本帧中匹配到的目标检测框去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪框。对于本帧中没有匹配到的目标重新初始化跟踪器。

S3，通过训练后的第一人工神经网络模型识别下一帧图像中的各个行人目标，获取下一帧图像中各个行人目标的实际位置。

在本实施例中，实际位置即为下一帧图像中行人目标的实际所在的位置坐标。

S4，将实际位置与任意预测位置的距离大于阈值的行人目标作为新增行人目标，为新增行人目标赋予新的行人标识。

其中，阈值可以由本领域技术人员根据实际情况进行设置，其目的是为了区分出实际位置与任意预测位置的距离较大的新增行人目标。

如图3所示的下一帧图像中存在两个实际位置，其中，实际位置1与行人目标A的预测位置重合，说明行人目标A如预测一样在下一帧运动到预测位置，实际位置2与预测位置的距离较大，因此可以判断实际位置2对应的行人目标B为新增行人目标。

在本申请实施例中，步骤S1之前，方法还包括：

通过训练后的第一人工神经网络模型识别视频数据的初始帧图像中的各个行人目标；依次为各个行人目标赋予唯一的行人标识。

举例说明，如果第一人工神经网络模型识别出初始帧图像中有2个行人目标，则为初始帧图像的两个行人目标分别赋予不同的行人标识，以便于后续跟踪。

在本申请实施例中，步骤S2包括：

S21，获取当前帧图像中各个行人目标的运动信息，运动信息包括运动速度和运动角度；

S22，通过训练后的第一人工神经网络模型识别当前帧图像中的各个行人目标，获取当前帧图像中各个行人目标的当前位置；

S23，根据下式计算下一帧图像中各个行人目标的所在位置为预测位置：

；

其中，

代表三维空间中的预测位置的坐标；

代表三维空间中的当前位置的坐标；

代表运动速度，

代表三维空间中的运动角度对应的角坐标。

在本申请实施例中，步骤S22包括：

S222，利用候选区域生成网络RPN技术在当前帧图像特征图上生成各个第一目标识别框；

S223，计算第一目标识别框中内容的分类结果；

S224，将分类结果为行人目标对应的第一目标识别框的中心位置作为当前位置。

其中，步骤S221至S224为默认顺序，但是步骤S1至S5中的任意步骤顺序可以根据实际情况调换。

在本申请实施例中，步骤S3包括：

S32，利用候选区域生成网络RPN技术在下一帧图像特征图上生成各个第二目标识别框；

S33，计算第二目标识别框中内容的分类结果；

S34，将分类结果为行人目标对应的第二目标识别框的中心位置作为实际位置。

其中，步骤S31至S34为默认顺序，但是步骤S1至S5中的任意步骤顺序可以根据实际情况调换。

在本申请实施例中，步骤S223和/或步骤S33，包括：

利用第一概率函数计算第一目标识别框和/或第二目标识别框中内容的分类预测概率；第一概率函数如下式所示：

;

其中，

是第i个第一目标识别框和/或第二目标识别框的分类变量，

为特征图，

为第一目标识别框和/或第二目标识别框，

是各项连乘的运算符号，

是第一目标识别框和/或第二目标识别框的集合；

利用方程

解得第一目标识别框和/或第二目标识别框中内容的分类结果。

在本申请实施例中，利用第一概率函数计算目标识别框中内容的分类预测概率，包括：

提取目标识别框中的代表待识别物体视觉特征的节点和边缘点；

利用预设处理方法对节点和边缘点进行处理，预设处理方法包括：将节点和边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算，分别得到节点GRU结果和边缘GRU结果；分别对节点GRU结果和边缘GRU结果进行池化，分别得到节点池化结果和边缘池化结果；

将节点池化结果和边缘池化结果分别作为下一次预设处理方法的门控递归单位递归神经网络GRU的边缘点输入数据和节点输入数据，继续利用预设处理方法进行处理直至得到目标识别框中内容的分类预测概率。

在本申请实施例中，将节点和边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算，分别得到节点GRU结果和边缘GRU结果，包括：

利用第二概率函数计算节点输入数据和边缘点输入数据对应的目标识别框中内容的分类预测概率；第二概率函数如下所示：

；

为每个变量x的概率函数名，n为目标识别框的个数，

是第

个目标识别框的分类变量，

为节点

的当前隐藏状态，

为一个关于节点i的视觉特征；

将边缘点输入数据对应的目标识别框中内容的分类预测概率作为边缘GRU结果。

YOLO V5在保持精度较好的前提下，灵活性与速度上远强于YOLO V4，在模型的快速部署上具有极强优势，能够在视频分析中体现优势。因此，可以选择YOLO V5作为行人检测模型。该模型分为输入端、Backbone、Neck、Prediction四个部分。输入端主要包含Mosaic数据增强、自适应锚框计算等；Backbone主要包含Focus结构，CSP结构等结构；Neck包含FPN+PAN结构；Prediction包含GIOU_Loss计算和nms等。

在步骤S2之前，方法还包括：

S01，通过各级卷积操作提取原始训练图像集中各个原始训练图像中的图像特征，得到原始训练图像特征图。

S02，利用候选区域生成网络RPN技术在原始训练图像特征图上生成至少一个目标识别区域。

在本申请实施例中，获得原始训练图像后，可利用卷积神经网络CNN技术提取该原始训练图像的图像特征，得到该原始训练图像特征图Feature Map，再利用候选区域生成网络(Region Proposal Network,RPN)技术在上述原始训练图像特征图上生成至少一个目标识别区域。

S03，将目标识别区域从对应的原始训练图像中分隔出来，形成处理图像。

S04，选取至少两个处理图像粘贴于固定尺寸的掩膜版上，形成待训练图像。

S05，通过待训练图像对第一人工神经网络模型进行训练。

举例说明，在有两个原始训练图时，在第一原始训练图和第二原始训练图中分别将目标识别区域分隔出来，形成第一处理图像和第二处理图像；分别对第一处理图像和第二处理图像进行数据增广操作，并分别粘贴至与最终输出图像大小相等掩模的对应位置，增广操作包括翻转（对原始图片进行左右的翻转）；缩放（对原始图片进行大小的缩放）；色域变化（对原始图片的明亮度、饱和度、色调进行改变）等；形成待训练图像，以输入第一人工神经网络模型进行训练。

可以理解，选取至少两个分别含有目标识别区域的处理图像进行拼接形成待训练图像，将待训练图像输入第一人工神经网络模型，相当于一下子至少两张原始训练图像进行学习，该方法能有效解决行人检测中存在的行人聚集遮挡问题。

第二方面，本申请公开了一种基于图像的行人轨迹跟踪装置，包括用于执行第一方面任一项所述方法的模块。具体执行实施情况与第一方面所描述的相似，这里不再赘述。

第三方面，本申请提供一种基于图像的行人轨迹跟踪装置。如图4所示，基于图像的行人轨迹跟踪装置包括一个或多个处理器501；一个或多个输入设备502，一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序，该计算机程序包括程序指令，处理器501用于执行存储器504存储的程序指令。其中，处理器501被配置用于调用该程序指令执行第一方面任一方法的操作：

应当理解，在本发明实施例中，所称处理器501可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备503可以包括显示器(LCD等)、扬声器等。

该存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如，存储器504还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行第一方面任一方法所描述的实现方式，也可执行本发明实施例所描述的终端设备的实现方式，在此不再赘述。

第四方面，本发明供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现第一方面任一方法的步骤。

上述计算机可读存储介质可以是前述任一实施例的终端设备的内部存储单元，例如终端设备的硬盘或内存。上述计算机可读存储介质也可以是上述终端设备的外部存储设备，例如上述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述计算机可读存储介质还可以既包括上述终端设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述终端设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。