CN113160275A - 一种基于多个视频的自动目标跟踪和轨迹计算的方法 - Google Patents

一种基于多个视频的自动目标跟踪和轨迹计算的方法 Download PDF

Info

Publication number
CN113160275A
CN113160275A CN202110430138.5A CN202110430138A CN113160275A CN 113160275 A CN113160275 A CN 113160275A CN 202110430138 A CN202110430138 A CN 202110430138A CN 113160275 A CN113160275 A CN 113160275A
Authority
CN
China
Prior art keywords
model
target
scene
camera
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110430138.5A
Other languages
English (en)
Other versions
CN113160275B (zh
Inventor
张嘉伟
刘缘朋
王妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202110430138.5A priority Critical patent/CN113160275B/zh
Publication of CN113160275A publication Critical patent/CN113160275A/zh
Application granted granted Critical
Publication of CN113160275B publication Critical patent/CN113160275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多个视频的自动目标跟踪和轨迹计算的方法,属于计算机视觉处理技术领域。一种基于多个视频的自动目标跟踪和轨迹计算的方法,包括以下步骤:摄像机参数计算和三维重建,3D场景模型的定义和参数训练,目标人物识别和轨迹重建。本发明可快速重建视频内所有行人的3D模型,利用SPM模型对每个人及其行动轨迹进行参数化,再通过计算出的参数从外形和姿势两个方面进行比较和配准,完成目标对象的识别和路径计算。

Description

一种基于多个视频的自动目标跟踪和轨迹计算的方法
技术领域
本发明涉及计算机视觉处理技术领域,尤其涉及一种基于多个视频的自动目标跟踪和轨迹计算的方法。
背景技术
目标跟踪和轨迹计算,在刑侦、智能监控以及智能交通等方面都有着极其重要的应用价值。传统的方法,需要在海量的监控视频中搜寻目标对象并测算行为轨迹,需要耗费大量的人力,并且错查、漏查层出不穷。
目前常用的方法有两类:
(1)行人重识别:也称行人再识别,是利用计算机视觉技术判断图像或者单个视频中是否存在特定行人的技术。但该技术有很大的局限性,首先不能在多个视频之间进行目标跟踪;其次目前目标跟踪环境复杂多变、目标发生非刚性形变、目标被遮挡、目标尺度变换等多个问题,用行人重识别方法跟丢跟错现象经常发生;最后,该方法基于二维图像,并不能计算出目标对象在多个三维场景中的行为轨迹。
(2)基于传感器的目标感知和追踪技术:这种方法可以通过部署特定传感器(例如3DiDAR),来生成目标对象的3D点云模型,并完成跟踪和轨迹计算。这种方法需要安装昂贵的传感器,无法大规模应用,并且生成的数据包含大量冗余信息,影响跟踪效率。
所以,急需一种可以自动在大量监控视频中搜寻,并且进行目标跟踪和轨迹计算的方法。
发明内容
本发明的目的在于,提出一种基于多个视频的自动目标跟踪和轨迹计算的方法,通过基于参数化的场景表示方法,对目标视频序列进行3D重建,快速重建出视频内所有行人的3D模型,然后对每个人及其行动轨迹进行参数化,再通过计算出的参数从外形和姿势两个方面进行比较和配准,进而完成目标对象的识别和路径计算。
为了实现上述目的,本发明采用了如下技术方案:
一种基于多个视频的自动目标跟踪和轨迹计算的方法,包括以下步骤:
S1:摄像机参数计算和三维重建:计算摄像机的变换矩阵K和深度值λ,完成对每个摄像机的K和λ的计算后,选择目标对象,对目标对象进行3D面模型重建;
S2:3D场景模型的定义和参数训练:对包含摄像机、行人和行人轨迹的场景进行参数化,设置参数化的基于机器学习的3D场景模型,对3D场景模型进行训练;
S3:目标人物识别和轨迹重建:生成多个场景的模型,对其中的目标对象进行识别,目标对象坐标加入模型,完成轨迹计算。
优选的,在步骤S1,计算变换矩阵K和深度值λ中,图像中的点由向量(xp yp 1)T表示,三维空间中点由向量(xw yw zw)T表示,
Figure BDA0003031058900000031
Figure BDA0003031058900000032
其中,包含mx和my的矩阵,将图像平面坐标映射到摄像机图像上,mx和my表示像素缩放因子,s表示倾斜因子,x0和y0表示特征点座标;包含f的矩阵,为摄像机的参数矩阵,f为镜头焦距;包含r和t的矩阵,为摄像机的空间变换矩阵,r为摄像机的旋转参数,t为摄像机的平移参数。
优选的,在步骤S1中通过一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法计算K和λ。
优选的,一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法,包括以下步骤:
S101:从任意视频中选取一个固定物体作为辅助对象,获取该对象不同角度的图像,输入神经网络;神经网络由2d卷积神经网络(2d-cnn)、3d卷积lstm(3d-lstm)、3d反卷积神经网络(3d-dcnn)三部分组成;
S102:2d卷积神经网络(2d-cnn)抽取图像序列的低维特征;
S103:将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元;
S104:3d反卷积神经网络(3d-dcnn)解码3d卷积lstm(3d-lstm)单元的隐状态,生成重建的3D模型和估算的K和λ;
S105:重新选择一个目标对象,重复步骤S101-S104的过程,得到新目标的3D模型和估算的K和λ;
S106:对若干个模型完成的重建和K、λ,交叉验证。
S107:完成对每个摄像机的K和λ的计算后,选择目标对象进行3D面模型重建。
优选的,所述的3d卷积lstm(3d-lstm)单元由四个部分组成:
存储器,包括一个存储细胞和一个隐藏层;
输入门,控制数据从输入端到隐状态;
输出门,控制数据从隐状态到输出门;
忘记门,从前次隐状态切换至当前隐状态。
优选的,在步骤S106中,交叉验证
oj=λ-1KiOj
其中,Ki表示第i个目标计算得到的K值和λ值,Oj表示第j个目标的3D重建模型的顶点集合;带入公式中计算出第j个目标的图像oj,最后与第j个目标的摄像机采集画面进行比较验证,确定Ki和λi的精度。
优选的,3D场景模型公式
Figure BDA0003031058900000041
其中,H为包含姿势和骨骼信息的人体三维模型,T为标准人体外形三维模型,BS为场景中人物的外形相对与标准人体外形的增量值,
Figure BDA0003031058900000051
为由人体外形参数构成的向量,ID为场景中人物个体的标识符,P为由骨骼组成的骨架,
Figure BDA0003031058900000052
为骨骼节点的空间变换向量,W为骨骼权重,L为轨迹向量。
优选的,对3D场景模型进行训练的具体过程,包括以下步骤:
S2001:采集训练素材;
S2002:确定训练参数;
S2003:训练姿势相关的参数;
S2004:训练形状相关的参数。
与现有技术相比,本发明提供了一种基于多个视频的自动目标跟踪和轨迹计算的方法,具备以下有益效果:
1、本发明,可快速重建视频内所有行人的3D模型,利用SPM模型对每个人及其行动轨迹进行参数化,再通过计算出的参数从外形和姿势两个方面进行比较和配准,完成目标对象的识别和路径计算。
2、本发明,通过可自动在监控视频中搜寻,进行目标跟踪和轨迹计算;不需要安装昂贵的传感器,可大规模应用,跟踪效率高效
该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现,本发明可快速重建视频内所有行人的3D模型,利用SPM模型对每个人及其行动轨迹进行参数化,再通过计算出的参数从外形和姿势两个方面进行比较和配准,完成目标对象的识别和路径计算;可自动在监控视频中搜寻,进行目标跟踪和轨迹计算;不需要安装昂贵的传感器,可大规模应用,跟踪效率高效。
附图说明
图1为辅助对象三维重建和摄像机参数计算过程示意图;
图2为行人姿态重建集合和行人形状重建集合示意图;
图3为模型的训练过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
一种基于多个视频的自动目标跟踪和轨迹计算的方法,包括以下步骤:摄像机参数计算和三维重建、3D场景模型的定义和参数训练、目标人物识别和轨迹重建。
S1:摄像机参数计算和三维重建。计算摄像机的变换矩阵K和深度值λ,完成对每个摄像机的K和λ的计算后,选择目标对象,对目标对象进行3D面模型重建。
在步骤S1,摄像机的位置和姿态是由它的变换矩阵K和深度值λ决定;在齐次坐标空间中,图像中的点由向量(xp yp 1)T表示,三维空间中点由向量(xw yw zw)T表示,则根据摄像机的投影变换公式可知:
Figure BDA0003031058900000071
Figure BDA0003031058900000072
其中,包含mx和my的矩阵,将图像平面坐标映射到摄像机图像上,mx和my表示像素缩放因子,s表示倾斜因子,x0和y0表示特征点座标;包含f的矩阵,为摄像机的参数矩阵,f为镜头焦距;包含r和t的矩阵,为摄像机的空间变换矩阵,r为摄像机的旋转参数,t为摄像机的平移参数。
请参阅图1,为了计算每个摄像机的K和λ,在步骤S1中设置一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法,具体包括以下步骤:
S101:从任意视频中选取一个固定物体作为辅助对象,获取该对象不同角度的图像,输入神经网络;神经网络由2d卷积神经网络(2d-cnn)、3d卷积lstm(3d-lstm)、3d反卷积神经网络(3d-dcnn)三部分组成。
S102:2d卷积神经网络(2d-cnn)抽取图像序列的低维特征。
S103:将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元;3d卷积lstm(3d-lstm)单元由四个部分组成:
存储器,包括一个存储细胞和一个隐藏层;
输入门,控制数据从输入端到隐状态;
输出门,控制数据从隐状态到输出门;
忘记门,从前次隐状态切换至当前隐状态。
S104:3d反卷积神经网络(3d-dcnn)解码3d卷积lstm(3d-lstm)单元的隐状态,生成重建的3D模型和估算的K和λ。
S105:重新选择一个目标对象,重复步骤S101-S104的过程,得到新目标的3D模型和估算的K和λ。
S106:对若干个模型完成的重建和K、λ,交叉验证
oj=λ-1KiOj
其中,Ki表示第i个目标计算得到的K值和λ值,Oj表示第j个目标的3D重建模型的顶点集合;公式中计算出第j个目标的图像oj,最后与第j个目标的摄像机采集画面进行比较验证,确定Ki和λi的精度。
S107:完成对每个摄像机的K和λ的计算后,选择目标对象,通过交叉验证公式,进行3D面模型重建。
S2:3D场景模型的定义和参数训练。对包含摄像机、行人和行人轨迹的场景进行参数化,设置参数化的基于机器学习的3D场景模型,对3D场景模型进行训练。
提供一个参数化的基于机器学习的3D场景模型,命名为SPM(Sceneparametricmodel)模型,该模型对包含摄像机、行人和行人轨迹的场景进行参数化。模型公式为:
Figure BDA0003031058900000091
其中,H为包含姿势和骨骼信息的人体三维模型,T为标准人体外形三维模型,BS为场景中人物的外形相对与标准人体外形的增量值,
Figure BDA0003031058900000092
为由人体外形参数构成的向量,ID为场景中人物个体的标识符,P为由骨骼组成的骨架,
Figure BDA0003031058900000093
为骨骼节点的空间变换向量,W为骨骼权重,L为轨迹向量。
该模型中,关于目标人体3D模型的部分(BS,P)基于顶点和顶点权重,对顶点、面、骨骼和权重的表示方法与现有的图形管线兼容。并且可以表示各种人体外形和人体姿势。
请参阅图2-3,对3D场景模型M进行训练,对模型M参数进行确定,具体的训练过程为:
S2001:采集训练素材。选取若干场景,每个场景设置多个固定摄像机,采集行人和景物的视频,优选选择外貌、性别差别较大的人群,并且,对同一个场景进行两次视频采集。第一次,让行人摆出不同姿态,采集结果记为VP;第二次,让行人摆成标准姿态(一般为T字形),采集结果记为VS。VP表示行人姿态间的差异,VS表示行人形状外貌间的差异。
S2002:确定训练参数,模型M在定义的时候将人体形状和人体姿势分开定义。其中和人体形状相关的参数是外形增量值是BS,BS表示为:
Figure BDA0003031058900000101
其中,
Figure BDA0003031058900000102
表示标准人体三维模型的顶点和面信息,标准人体三维模型由三维建模得到,建模过程保证面与面之间连续过渡,由摄像机初始化和场景训练过程得到。
Figure BDA0003031058900000103
表示向量
Figure BDA0003031058900000104
的长度;S表示由摄像机初始化和场景训练过程得到的重建人体模型与标准人体模型之间的偏移矩阵。
Figure BDA0003031058900000105
S是由VS训练得到。和人体姿势相关的参数是P,P表示为:
Figure BDA0003031058900000106
其中,J的运算结果是矩阵,表示由骨骼层级关系组成的骨架;J的输入是人体外形增量值BS;J是从VP训练得到。
S2003:训练姿势相关的参数。假设VP数据集中第j个个体的三维模型是
Figure BDA0003031058900000107
将通过训练得到与之对应的H模型Hj,并对H中的参数J、S、W进行回归,而由H产生的可视化三维模型,其顶点集合用Tj表示,骨骼集合用Jj表示。
通过计算VP中的个体
Figure BDA0003031058900000108
与标准人体模型之间的欧式距离来进行姿势推断和参数回归,目标函数为:
Figure BDA0003031058900000109
其中,
Figure BDA00030310589000001010
IDj为第j个个体的ID编号,在模型初始化时由系统随机分配,|VP|表示VP集合的元素个数。将模型划分成26个部分,使用每个部分来计算骨骼中心的位置,并依靠顶点到骨骼中心的距离对参数J进行回归。由此得到正则化公式为:
Figure BDA0003031058900000111
接下来,对骨骼权重参数W进行回归,由此得到正则化公式为:
Figure BDA0003031058900000112
其中||·||F表示F-范数。
因为模型参数过多,为了防止过拟合,对目标函数进行正则化处理。训练公式为:
E*(T,J,Θ,(W))=EDJEJ+EW
其中,λJ是正则化系数。
S2004:训练形状相关的参数。对人体形状的确定主要在于对参数
Figure BDA0003031058900000113
的回归,
Figure BDA0003031058900000114
表示标准姿势模型(T字形姿势),S表示由摄像机初始化和场景训练过程得到的重建人体模型与标准人体模型之间的偏移矩阵。姿势参数归一化完成后,使用主成分分析(PCA)在VS中对S进行回归。为了减少由姿势所引起的人体外形的改变,将所得到的人体骨架统一转换成标准姿势(T字形姿势),然后再在VS集合中进行学习。最终得到的模型记为TS,骨骼位置记为JS。用以下公式对每一个模型TS进行计算,并且得到参数S的值:
Figure BDA0003031058900000121
其中,
Figure BDA0003031058900000122
IDj为第j个个体的ID编号,在模型初始化时由系统随机分配,|VS|表示VS集合的元素个数。
S3:目标人物识别和轨迹重建:生成多个场景的模型,对其中的目标对象进行识别,目标对象坐标加入模型,完成轨迹计算。
假设,使用训练后的模型生成两个场景的SPM模型,场景1:M({K,λ})1,{H,L(ID)}1),场景2:M({K,λ})2,{H,L(ID)}2),在场景1中的某个个体
Figure BDA0003031058900000123
,场景2中的某个个体
Figure BDA0003031058900000124
。因为Bs表示个体与标准人体模型的外形差异,
Figure BDA0003031058900000125
表示骨骼的空间变换,所以有以下配准公式:
Figure BDA0003031058900000126
其中f表示视频帧,λ1表示形状权重,λ2表示姿势权重。λ1和λ2的值可以让用户自行调整,也可以由系统根据场景情况自动选定。系统对Q值的阈值进行定义,在阈值之内的视为同一个个体,至此完成目标对象的识别;然后,将被标定为同一个个体的H的ID值重置为相同的值,并计算H在每一帧的包围盒B(H),以B(H)的中心作为H在世界座标中的位置PH;最后,将PH加入到SPM模型中的参数L向量中,完成轨迹计算。
本发明,提供了一种对视频场景进行参数化建模的方法:SPM模型,该模型由两个集合构成,即摄像机集合和行人以及行人轨迹集合。首先对视频场景进行快速3D重建,该3D重建方法基于lstm和cnn;通过3D重建可以获得场景内行人的3D模型和摄像机的变换矩阵以及深度信息,构成SPM模型的摄像机集合;然后,对3D重建后的行人模型进行训练,回归得到形状参数、骨架参数和姿势参数,以此构成SPM模型的第二部分,即行人和行人轨迹的集合;最后,使用训练好的SPM模型对场景中的行人进行建模,匹配其形状信息和姿势信息,计算目标行动轨迹,完成目标识别和追踪。
本发明,可快速重建视频内所有行人的3D模型,利用SPM模型对每个人及其行动轨迹进行参数化,再通过计算出的参数从外形和姿势两个方面进行比较和配准,完成目标对象的识别和路径计算;可自动在监控视频中搜寻,并计算目标对象在三维场景中的行为,进行目标跟踪和轨迹计算;不需要安装昂贵的传感器,可大规模应用,跟踪效率高效。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,包括以下步骤:
S1:摄像机参数计算和三维重建:计算摄像机的变换矩阵K和深度值λ,完成对每个摄像机的K和λ的计算后,选择目标对象,对目标对象进行3D面模型重建;
S2:3D场景模型的定义和参数训练:对包含摄像机、行人和行人轨迹的场景进行参数化,设置参数化的基于机器学习的3D场景模型,对3D场景模型进行训练;
S3:目标人物识别和轨迹重建:生成多个场景的模型,对其中的目标对象进行识别,目标对象坐标加入模型,完成轨迹计算。
2.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,在步骤S1,计算变换矩阵K和深度值λ中,图像中的点由向量(xp yp 1)T表示,三维空间中点由向量(xw yw zw)T表示,
Figure FDA0003031058890000011
Figure FDA0003031058890000012
其中,包含mx和my的矩阵,将图像平面坐标映射到摄像机图像上,mx和my表示像素缩放因子,s表示倾斜因子,x0和y0表示特征点座标;包含f的矩阵,为摄像机的参数矩阵,f为镜头焦距;包含r和t的矩阵,为摄像机的空间变换矩阵,r为摄像机的旋转参数,t为摄像机的平移参数。
3.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,在步骤S1中设置一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法计算K和λ。
4.根据权利要求3所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,一种基于长短期记忆(lstm)和卷积神经网络(cnn)的方法,具体包括以下步骤:
S101:从任意视频中选取一个固定物体作为辅助对象,获取该对象不同角度的图像,输入神经网络;神经网络由2d卷积神经网络(2d-cnn)、3d卷积lstm(3d-lstm)、3d反卷积神经网络(3d-dcnn)三部分组成;
S102:2d卷积神经网络(2d-cnn)抽取图像序列的低维特征;
S103:将步骤S102的输出结果输入到3d卷积lstm(3d-lstm)单元;
S104:3d反卷积神经网络(3d-dcnn)解码3d卷积lstm(3d-lstm)单元的隐状态,生成重建的3D模型和估算的K和λ;
S105:重新选择一个目标对象,重复步骤S101-S104的过程,得到新目标的3D模型和估算的K和λ;
S106:对若干个模型完成的重建和K、λ,交叉验证。
S107:完成对每个摄像机的K和λ的计算后,选择目标对象进行3D面模型重建。
5.根据权利要求4所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,所述的3d卷积lstm(3d-lstm)单元由四个部分组成:
存储器,包括一个存储细胞和一个隐藏层;
输入门,控制数据从输入端到隐状态;
输出门,控制数据从隐状态到输出门;
忘记门,从前次隐状态切换至当前隐状态。
6.根据权利要求4所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,在步骤S106中,交叉验证
oj=λ-1KiOj
其中,Ki表示第i个目标计算得到的K和λ,Oj表示第j个目标的3D重建模型的顶点集合;公式中计算出第j个目标的图像oj,与第j个目标的摄像机采集画面进行比较验证,确定Ki和λi的精度。
7.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,3D场景模型公式
Figure FDA0003031058890000031
其中,H为包含姿势和骨骼信息的人体三维模型,T为标准人体外形三维模型,BS为场景中人物的外形相对与标准人体外形的增量值,
Figure FDA0003031058890000032
为由人体外形参数构成的向量,ID为场景中人物个体的标识符,P为由骨骼组成的骨架,
Figure FDA0003031058890000033
为骨骼节点的空间变换向量,W为骨骼权重,L为轨迹向量。
8.根据权利要求1所述的一种基于多个视频的自动目标跟踪和轨迹计算的方法,其特征在于,对3D场景模型进行训练的具体过程,包括以下步骤:
S2001:采集训练素材;
S2002:确定训练参数;
S2003:训练姿势相关的参数;
S2004:训练形状相关的参数。
CN202110430138.5A 2021-04-21 2021-04-21 一种基于多个视频的自动目标跟踪和轨迹计算的方法 Active CN113160275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110430138.5A CN113160275B (zh) 2021-04-21 2021-04-21 一种基于多个视频的自动目标跟踪和轨迹计算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110430138.5A CN113160275B (zh) 2021-04-21 2021-04-21 一种基于多个视频的自动目标跟踪和轨迹计算的方法

Publications (2)

Publication Number Publication Date
CN113160275A true CN113160275A (zh) 2021-07-23
CN113160275B CN113160275B (zh) 2022-11-08

Family

ID=76867698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110430138.5A Active CN113160275B (zh) 2021-04-21 2021-04-21 一种基于多个视频的自动目标跟踪和轨迹计算的方法

Country Status (1)

Country Link
CN (1) CN113160275B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463687A (zh) * 2022-04-12 2022-05-10 北京云恒科技研究院有限公司 一种基于大数据的移动轨迹预测方法
CN115100327A (zh) * 2022-08-26 2022-09-23 广东三维家信息科技有限公司 动画立体视频生成的方法、装置及电子设备
TWI808734B (zh) * 2022-04-25 2023-07-11 財團法人工業技術研究院 異地分享三維空間標註軌跡的方法及系統

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481270A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备
US20190138786A1 (en) * 2017-06-06 2019-05-09 Sightline Innovation Inc. System and method for identification and classification of objects
CN109934042A (zh) * 2017-12-15 2019-06-25 吉林大学 基于卷积神经网络的自适应视频对象行为轨迹分析方法
CN110378931A (zh) * 2019-07-10 2019-10-25 成都数之联科技有限公司 一种基于多摄像头的行人目标移动轨迹获取方法及系统
CN110490917A (zh) * 2019-08-12 2019-11-22 北京影谱科技股份有限公司 三维重建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138786A1 (en) * 2017-06-06 2019-05-09 Sightline Innovation Inc. System and method for identification and classification of objects
CN107481270A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备
CN109934042A (zh) * 2017-12-15 2019-06-25 吉林大学 基于卷积神经网络的自适应视频对象行为轨迹分析方法
CN110378931A (zh) * 2019-07-10 2019-10-25 成都数之联科技有限公司 一种基于多摄像头的行人目标移动轨迹获取方法及系统
CN110490917A (zh) * 2019-08-12 2019-11-22 北京影谱科技股份有限公司 三维重建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QI FU,AND ETC: "Human Action Recognition Based on Sparse LSTM Auto-encoder and Improved 3D CNN", 《2018 14TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 *
王飞等: "基于 3D-CBAM 注意力机制的人体动作识别", 《南京师范大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463687A (zh) * 2022-04-12 2022-05-10 北京云恒科技研究院有限公司 一种基于大数据的移动轨迹预测方法
TWI808734B (zh) * 2022-04-25 2023-07-11 財團法人工業技術研究院 異地分享三維空間標註軌跡的方法及系統
CN115100327A (zh) * 2022-08-26 2022-09-23 广东三维家信息科技有限公司 动画立体视频生成的方法、装置及电子设备

Also Published As

Publication number Publication date
CN113160275B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
Shi et al. From points to parts: 3d object detection from point cloud with part-aware and part-aggregation network
Ma et al. Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments
CN109643368B (zh) 检测视频数据中的对象
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及系统
CN113160275B (zh) 一种基于多个视频的自动目标跟踪和轨迹计算的方法
Tulsiani et al. Learning category-specific deformable 3d models for object reconstruction
Elgammal et al. Tracking people on a torus
Su et al. Global localization of a mobile robot using lidar and visual features
Wells III Statistical object recognition
CN109815847B (zh) 一种基于语义约束的视觉slam方法
Shi et al. Learning to detect 3D symmetry from single-view RGB-D images with weak supervision
Guo et al. Graph-based CNNs with self-supervised module for 3D hand pose estimation from monocular RGB
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
Zhuang et al. Instance segmentation based 6D pose estimation of industrial objects using point clouds for robotic bin-picking
Tao et al. Indoor 3D semantic robot VSLAM based on mask regional convolutional neural network
Cui et al. Dense depth-map estimation based on fusion of event camera and sparse LiDAR
Gao et al. Pose refinement with joint optimization of visual points and lines
Zhang et al. Body localization in still images using hierarchical models and hybrid search
Hoque et al. Deep learning for 6D pose estimation of objects—A case study for autonomous driving
Zheng et al. Buildingfusion: Semantic-aware structural building-scale 3d reconstruction
Wang et al. 3D human pose and shape estimation with dense correspondence from a single depth image
CN115719363B (zh) 可进行二维动态检测和三维重建的环境感知方法与系统
US20240013497A1 (en) Learning Articulated Shape Reconstruction from Imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant