CN113160275A

CN113160275A - 一种基于多个视频的自动目标跟踪和轨迹计算的方法

Info

Publication number: CN113160275A
Application number: CN202110430138.5A
Authority: CN
Inventors: 张嘉伟; 刘缘朋; 王妍
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-23
Anticipated expiration: 2041-04-21
Also published as: CN113160275B

Abstract

本发明公开了一种基于多个视频的自动目标跟踪和轨迹计算的方法，属于计算机视觉处理技术领域。一种基于多个视频的自动目标跟踪和轨迹计算的方法，包括以下步骤：摄像机参数计算和三维重建，3D场景模型的定义和参数训练，目标人物识别和轨迹重建。本发明可快速重建视频内所有行人的3D模型，利用SPM模型对每个人及其行动轨迹进行参数化，再通过计算出的参数从外形和姿势两个方面进行比较和配准，完成目标对象的识别和路径计算。

Description

一种基于多个视频的自动目标跟踪和轨迹计算的方法

技术领域

本发明涉及计算机视觉处理技术领域，尤其涉及一种基于多个视频的自动目标跟踪和轨迹计算的方法。

背景技术

目标跟踪和轨迹计算，在刑侦、智能监控以及智能交通等方面都有着极其重要的应用价值。传统的方法，需要在海量的监控视频中搜寻目标对象并测算行为轨迹，需要耗费大量的人力，并且错查、漏查层出不穷。

目前常用的方法有两类：

(1)行人重识别：也称行人再识别，是利用计算机视觉技术判断图像或者单个视频中是否存在特定行人的技术。但该技术有很大的局限性，首先不能在多个视频之间进行目标跟踪；其次目前目标跟踪环境复杂多变、目标发生非刚性形变、目标被遮挡、目标尺度变换等多个问题，用行人重识别方法跟丢跟错现象经常发生；最后，该方法基于二维图像，并不能计算出目标对象在多个三维场景中的行为轨迹。

(2)基于传感器的目标感知和追踪技术：这种方法可以通过部署特定传感器(例如3DiDAR)，来生成目标对象的3D点云模型，并完成跟踪和轨迹计算。这种方法需要安装昂贵的传感器，无法大规模应用，并且生成的数据包含大量冗余信息，影响跟踪效率。

所以，急需一种可以自动在大量监控视频中搜寻，并且进行目标跟踪和轨迹计算的方法。

发明内容

本发明的目的在于，提出一种基于多个视频的自动目标跟踪和轨迹计算的方法，通过基于参数化的场景表示方法，对目标视频序列进行3D重建，快速重建出视频内所有行人的3D模型，然后对每个人及其行动轨迹进行参数化，再通过计算出的参数从外形和姿势两个方面进行比较和配准，进而完成目标对象的识别和路径计算。

为了实现上述目的，本发明采用了如下技术方案：

一种基于多个视频的自动目标跟踪和轨迹计算的方法，包括以下步骤：

S1：摄像机参数计算和三维重建：计算摄像机的变换矩阵K和深度值λ，完成对每个摄像机的K和λ的计算后，选择目标对象，对目标对象进行3D面模型重建；

S2：3D场景模型的定义和参数训练：对包含摄像机、行人和行人轨迹的场景进行参数化，设置参数化的基于机器学习的3D场景模型，对3D场景模型进行训练；

S3：目标人物识别和轨迹重建：生成多个场景的模型，对其中的目标对象进行识别，目标对象坐标加入模型，完成轨迹计算。

优选的，在步骤S1，计算变换矩阵K和深度值λ中，图像中的点由向量(x_p y_p 1)^T表示，三维空间中点由向量(x_w y_w z_w)^T表示，

其中，包含m_x和m_y的矩阵，将图像平面坐标映射到摄像机图像上，m_x和m_y表示像素缩放因子，s表示倾斜因子，x₀和y₀表示特征点座标；包含f的矩阵，为摄像机的参数矩阵，f为镜头焦距；包含r和t的矩阵，为摄像机的空间变换矩阵，r为摄像机的旋转参数，t为摄像机的平移参数。

优选的，在步骤S1中通过一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法计算K和λ。

优选的，一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法，包括以下步骤：

S101：从任意视频中选取一个固定物体作为辅助对象，获取该对象不同角度的图像，输入神经网络；神经网络由2d卷积神经网络(2d-cnn)、3d卷积lstm(3d-lstm)、3d反卷积神经网络(3d-dcnn)三部分组成；

S102：2d卷积神经网络(2d-cnn)抽取图像序列的低维特征；

S103：将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元；

S104：3d反卷积神经网络(3d-dcnn)解码3d卷积lstm(3d-lstm)单元的隐状态，生成重建的3D模型和估算的K和λ；

S105：重新选择一个目标对象，重复步骤S101-S104的过程，得到新目标的3D模型和估算的K和λ；

S106：对若干个模型完成的重建和K、λ，交叉验证。

S107：完成对每个摄像机的K和λ的计算后，选择目标对象进行3D面模型重建。

优选的，所述的3d卷积lstm(3d-lstm)单元由四个部分组成：

存储器，包括一个存储细胞和一个隐藏层；

输入门，控制数据从输入端到隐状态；

输出门，控制数据从隐状态到输出门；

忘记门，从前次隐状态切换至当前隐状态。

优选的，在步骤S106中，交叉验证

o_j＝λ^-1K_iO_j

其中，K_i表示第i个目标计算得到的K值和λ值，O_j表示第j个目标的3D重建模型的顶点集合；带入公式中计算出第j个目标的图像o_j，最后与第j个目标的摄像机采集画面进行比较验证，确定K_i和λ_i的精度。

优选的，3D场景模型公式

其中，H为包含姿势和骨骼信息的人体三维模型，T为标准人体外形三维模型，B_S为场景中人物的外形相对与标准人体外形的增量值，

为由人体外形参数构成的向量，ID为场景中人物个体的标识符，P为由骨骼组成的骨架，

为骨骼节点的空间变换向量，W为骨骼权重，L为轨迹向量。

优选的，对3D场景模型进行训练的具体过程，包括以下步骤：

S2001：采集训练素材；

S2002：确定训练参数；

S2003：训练姿势相关的参数；

S2004：训练形状相关的参数。

与现有技术相比，本发明提供了一种基于多个视频的自动目标跟踪和轨迹计算的方法，具备以下有益效果：

1、本发明，可快速重建视频内所有行人的3D模型，利用SPM模型对每个人及其行动轨迹进行参数化，再通过计算出的参数从外形和姿势两个方面进行比较和配准，完成目标对象的识别和路径计算。

2、本发明，通过可自动在监控视频中搜寻，进行目标跟踪和轨迹计算；不需要安装昂贵的传感器，可大规模应用，跟踪效率高效

该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现，本发明可快速重建视频内所有行人的3D模型，利用SPM模型对每个人及其行动轨迹进行参数化，再通过计算出的参数从外形和姿势两个方面进行比较和配准，完成目标对象的识别和路径计算；可自动在监控视频中搜寻，进行目标跟踪和轨迹计算；不需要安装昂贵的传感器，可大规模应用，跟踪效率高效。

附图说明

图1为辅助对象三维重建和摄像机参数计算过程示意图；

图2为行人姿态重建集合和行人形状重建集合示意图；

图3为模型的训练过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

一种基于多个视频的自动目标跟踪和轨迹计算的方法，包括以下步骤：摄像机参数计算和三维重建、3D场景模型的定义和参数训练、目标人物识别和轨迹重建。

S1：摄像机参数计算和三维重建。计算摄像机的变换矩阵K和深度值λ，完成对每个摄像机的K和λ的计算后，选择目标对象，对目标对象进行3D面模型重建。

在步骤S1，摄像机的位置和姿态是由它的变换矩阵K和深度值λ决定；在齐次坐标空间中，图像中的点由向量(x_p y_p 1)^T表示，三维空间中点由向量(x_w y_w z_w)^T表示，则根据摄像机的投影变换公式可知：

请参阅图1，为了计算每个摄像机的K和λ，在步骤S1中设置一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法，具体包括以下步骤：

S101：从任意视频中选取一个固定物体作为辅助对象，获取该对象不同角度的图像，输入神经网络；神经网络由2d卷积神经网络(2d-cnn)、3d卷积lstm(3d-lstm)、3d反卷积神经网络(3d-dcnn)三部分组成。

S102：2d卷积神经网络(2d-cnn)抽取图像序列的低维特征。

S103：将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元；3d卷积lstm(3d-lstm)单元由四个部分组成：

存储器，包括一个存储细胞和一个隐藏层；

输入门，控制数据从输入端到隐状态；

输出门，控制数据从隐状态到输出门；

忘记门，从前次隐状态切换至当前隐状态。

S104：3d反卷积神经网络(3d-dcnn)解码3d卷积lstm(3d-lstm)单元的隐状态，生成重建的3D模型和估算的K和λ。

S105：重新选择一个目标对象，重复步骤S101-S104的过程，得到新目标的3D模型和估算的K和λ。

S106：对若干个模型完成的重建和K、λ，交叉验证

o_j＝λ^-1K_iO_j

其中，K_i表示第i个目标计算得到的K值和λ值，O_j表示第j个目标的3D重建模型的顶点集合；公式中计算出第j个目标的图像o_j，最后与第j个目标的摄像机采集画面进行比较验证，确定K_i和λ_i的精度。

S107：完成对每个摄像机的K和λ的计算后，选择目标对象，通过交叉验证公式，进行3D面模型重建。

S2：3D场景模型的定义和参数训练。对包含摄像机、行人和行人轨迹的场景进行参数化，设置参数化的基于机器学习的3D场景模型，对3D场景模型进行训练。

提供一个参数化的基于机器学习的3D场景模型，命名为SPM(Sceneparametricmodel)模型，该模型对包含摄像机、行人和行人轨迹的场景进行参数化。模型公式为：

为骨骼节点的空间变换向量，W为骨骼权重，L为轨迹向量。

该模型中，关于目标人体3D模型的部分(B_S，P)基于顶点和顶点权重，对顶点、面、骨骼和权重的表示方法与现有的图形管线兼容。并且可以表示各种人体外形和人体姿势。

请参阅图2-3，对3D场景模型M进行训练，对模型M参数进行确定，具体的训练过程为：

S2001：采集训练素材。选取若干场景，每个场景设置多个固定摄像机，采集行人和景物的视频，优选选择外貌、性别差别较大的人群，并且，对同一个场景进行两次视频采集。第一次，让行人摆出不同姿态，采集结果记为V^P；第二次，让行人摆成标准姿态(一般为T字形)，采集结果记为V^S。V^P表示行人姿态间的差异，V^S表示行人形状外貌间的差异。

S2002：确定训练参数，模型M在定义的时候将人体形状和人体姿势分开定义。其中和人体形状相关的参数是外形增量值是B_S，B_S表示为：

其中，

表示标准人体三维模型的顶点和面信息，标准人体三维模型由三维建模得到，建模过程保证面与面之间连续过渡，由摄像机初始化和场景训练过程得到。

表示向量

的长度；S表示由摄像机初始化和场景训练过程得到的重建人体模型与标准人体模型之间的偏移矩阵。

S是由V^S训练得到。和人体姿势相关的参数是P，P表示为：

其中，J的运算结果是矩阵，表示由骨骼层级关系组成的骨架；J的输入是人体外形增量值B_S；J是从V^P训练得到。

S2003：训练姿势相关的参数。假设V^P数据集中第j个个体的三维模型是

将通过训练得到与之对应的H模型H_j，并对H中的参数J、S、W进行回归，而由H产生的可视化三维模型，其顶点集合用T_j表示，骨骼集合用J_j表示。

通过计算V^P中的个体

与标准人体模型之间的欧式距离来进行姿势推断和参数回归，目标函数为：

其中，

ID_j为第j个个体的ID编号，在模型初始化时由系统随机分配，|V^P|表示V^P集合的元素个数。将模型划分成26个部分，使用每个部分来计算骨骼中心的位置，并依靠顶点到骨骼中心的距离对参数J进行回归。由此得到正则化公式为：

接下来，对骨骼权重参数W进行回归，由此得到正则化公式为：

其中||·||_F表示F-范数。

因为模型参数过多，为了防止过拟合，对目标函数进行正则化处理。训练公式为：

E_*(T,J,Θ,(W))＝E_D+λ_JE_J+E_W

其中，λ_J是正则化系数。

S2004：训练形状相关的参数。对人体形状的确定主要在于对参数

的回归，

表示标准姿势模型(T字形姿势)，S表示由摄像机初始化和场景训练过程得到的重建人体模型与标准人体模型之间的偏移矩阵。姿势参数归一化完成后，使用主成分分析(PCA)在V^S中对S进行回归。为了减少由姿势所引起的人体外形的改变，将所得到的人体骨架统一转换成标准姿势(T字形姿势)，然后再在V_S集合中进行学习。最终得到的模型记为T^S，骨骼位置记为J^S。用以下公式对每一个模型T^S进行计算，并且得到参数S的值：

其中，

ID_j为第j个个体的ID编号，在模型初始化时由系统随机分配，|V^S|表示V^S集合的元素个数。

假设，使用训练后的模型生成两个场景的SPM模型，场景1:M({K,λ})₁，{H,L(ID)}₁)，场景2：M({K,λ})₂，{H,L(ID)}₂)，在场景1中的某个个体

，场景2中的某个个体

。因为Bs表示个体与标准人体模型的外形差异，

表示骨骼的空间变换，所以有以下配准公式：

其中f表示视频帧，λ₁表示形状权重，λ₂表示姿势权重。λ₁和λ₂的值可以让用户自行调整，也可以由系统根据场景情况自动选定。系统对Q值的阈值进行定义，在阈值之内的视为同一个个体，至此完成目标对象的识别；然后，将被标定为同一个个体的H的ID值重置为相同的值，并计算H在每一帧的包围盒B(H)，以B(H)的中心作为H在世界座标中的位置P_H；最后，将P_H加入到SPM模型中的参数L向量中，完成轨迹计算。

本发明，提供了一种对视频场景进行参数化建模的方法：SPM模型，该模型由两个集合构成，即摄像机集合和行人以及行人轨迹集合。首先对视频场景进行快速3D重建，该3D重建方法基于lstm和cnn；通过3D重建可以获得场景内行人的3D模型和摄像机的变换矩阵以及深度信息，构成SPM模型的摄像机集合；然后，对3D重建后的行人模型进行训练，回归得到形状参数、骨架参数和姿势参数，以此构成SPM模型的第二部分，即行人和行人轨迹的集合；最后，使用训练好的SPM模型对场景中的行人进行建模，匹配其形状信息和姿势信息，计算目标行动轨迹，完成目标识别和追踪。

本发明，可快速重建视频内所有行人的3D模型，利用SPM模型对每个人及其行动轨迹进行参数化，再通过计算出的参数从外形和姿势两个方面进行比较和配准，完成目标对象的识别和路径计算；可自动在监控视频中搜寻，并计算目标对象在三维场景中的行为，进行目标跟踪和轨迹计算；不需要安装昂贵的传感器，可大规模应用，跟踪效率高效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，在步骤S1，计算变换矩阵K和深度值λ中，图像中的点由向量(x_p y_p 1)^T表示，三维空间中点由向量(x_w y_w z_w)^T表示，

3.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，在步骤S1中设置一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法计算K和λ。

4.根据权利要求3所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法，具体包括以下步骤：

S102：2d卷积神经网络(2d-cnn)抽取图像序列的低维特征；

S103：将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元；

S106：对若干个模型完成的重建和K、λ，交叉验证。

5.根据权利要求4所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，所述的3d卷积lstm(3d-lstm)单元由四个部分组成：

存储器，包括一个存储细胞和一个隐藏层；

输入门，控制数据从输入端到隐状态；

输出门，控制数据从隐状态到输出门；

忘记门，从前次隐状态切换至当前隐状态。

6.根据权利要求4所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，在步骤S106中，交叉验证

o_j＝λ^-1K_iO_j

其中，K_i表示第i个目标计算得到的K和λ，O_j表示第j个目标的3D重建模型的顶点集合；公式中计算出第j个目标的图像o_j，与第j个目标的摄像机采集画面进行比较验证，确定K_i和λ_i的精度。

7.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，3D场景模型公式

为骨骼节点的空间变换向量，W为骨骼权重，L为轨迹向量。

8.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法，其特征在于，对3D场景模型进行训练的具体过程，包括以下步骤：

S2001：采集训练素材；

S2002：确定训练参数；

S2003：训练姿势相关的参数；

S2004：训练形状相关的参数。