CN112734805A - 一种基于深度学习的行人运动轨迹预测方法及装置 - Google Patents
一种基于深度学习的行人运动轨迹预测方法及装置 Download PDFInfo
- Publication number
- CN112734805A CN112734805A CN202110029289.XA CN202110029289A CN112734805A CN 112734805 A CN112734805 A CN 112734805A CN 202110029289 A CN202110029289 A CN 202110029289A CN 112734805 A CN112734805 A CN 112734805A
- Authority
- CN
- China
- Prior art keywords
- frame
- prediction network
- frames
- optical flow
- flow information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度学习的行人运动轨迹预测方法及装置,其中方法包括:获取视频数据,其中,视频数据包括已知帧,已知帧包括:时间t以及时间t之前的帧;光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息;合成预测网络根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度学习的行人运动轨迹预测方法及装置。
背景技术
随着深度学习的发展,基于神经网络的行人轨迹预测成为重要课题。通过观察视频特定帧中的行人并预测他们随后的移动方向,能够引导视力障碍者避免碰撞,此方向的深入研究将为视力障碍者出行带来极大便利。
现有的算法大多直接使用已知帧中目标行人上坐标作为神经网络的输入,使用循环卷积神经网络或者其他方法直接回归未知帧中目标行人的位置,从而得到目标行人的运动轨迹,此方法存在以下缺点:
1)直接使用目标的坐标作为网络的输入,没有考虑视频的内容,没有结合实际的场景信息对目标进行轨迹预测。
2)除了已知帧中目标的位置信息之外,需要其他额外信息(例如行人姿势、行人大小比例的变化等)作为网络的输入,辅助网络学习行人的目标位置。而一般来说,这些辅助信息难以获取,难以标注,给网络的训练增加了困难。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于深度学习的行人运动轨迹预测方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于深度学习的行人运动轨迹预测方法,包括:获取视频数据,其中,视频数据包括已知帧,已知帧包括:时间t以及时间t之前的帧;光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息;合成预测网络根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。
其中,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。
其中,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括:获取两个相邻的已知帧,得到两个相邻的已知帧的特征图;通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;通过上采样恢复两个相邻的已知帧的特征图信息;输出两个相邻的已知帧之间的光流信息。
其中,合成预测网络包括多个具有残差连接的子模块,每个子模块包括3x3的卷积、BN层和ReLU激活层。
其中,合成预测网络根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧包括:将已知帧和已知帧之间的光流信息下采样四次,得到大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;结合浅层特征和深层特征信息,采样四次,恢复特征图的细节信息;使用线性差值重建未知帧的光流信息,得到t+1帧。
其中,方法还包括:通过合成相似性损失函数的后向传播优化合成预测网络。
其中,合成预测网络根据t+1帧预测目标行人在t+1帧中的位置包括:将大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
其中,方法还包括:通过位置回归损失函数的反向传播不断优化合成预测网络。
本发明另一方面提供了一种基于深度学习的行人运动轨迹预测装置,包括:获取模块,用于获取视频数据,其中,视频数据包括已知帧,已知帧包括:时间t以及时间t之前的帧;光流预测网络,用于根据相邻的两个已知帧预测已知帧之间的光流信息;合成预测网络,用于根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;根据t+1帧预测目标行人在t+1帧中的位置。
其中,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。
其中,光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息:光流预测网络,具体用于获取两个相邻的已知帧,得到两个相邻的已知帧的特征图;通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;通过上采样恢复两个相邻的已知帧的特征图信息;输出两个相邻的已知帧之间的光流信息。
其中,合成预测网络包括多个具有残差连接的子模块,每个子模块包括3x3的卷积、BN层和ReLU激活层。
其中,合成预测网络通过如下方式根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧:合成预测网络,具体用于将已知帧和已知帧之间的光流信息下采样四次,得到大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;结合浅层特征和深层特征信息,采样四次,恢复特征图的细节信息;使用线性差值重建未知帧的光流信息,得到t+1帧。
其中,装置还包括:优化模块,用于通过合成相似性损失函数的后向传播优化合成预测网络。
其中,合成预测网络通过如下方式根据t+1帧预测目标行人在t+1帧中的位置:合成预测网络,具体用于将大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
其中,装置还包括:优化模块,用于通过位置回归损失函数的反向传播不断优化合成预测网络。
由此可见,通过本发明提供的基于深度学习的行人运动轨迹预测方法及装置,通过观察某一目标行人在当前帧以及过去几帧的运动情况,通过网络预测光流信息,以此光流信息作为指导,预测未来帧中目标行人的位置。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于深度学习的行人运动轨迹预测方法的流程图;
图2为本发明实施例提供的网络模型示意图;
图3为本发明实施例提供的FlowNet网络结构图;
图4为本发明实施例提供的合成预测网络结构示意图;
图5为本发明实施例提供的基于深度学习的行人运动轨迹预测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心在于:提出一种利用已知帧视频和光流信息预测目标轨迹的方案,旨在在实际场景中捕捉周围环境信息,以便预测目标的准确位置。本发明首先预测已有帧之间的光流信息,将已有帧以及光流信息作为输入,分别预测下一帧视频以及目标所在位置。
图1示出了本发明实施例提供的基于深度学习的行人运动轨迹预测方法的流程图,参见图1,本发明实施例提供的基于深度学习的行人运动轨迹预测方法,包括:
S1,获取视频数据,其中,视频数据包括已知帧,已知帧包括:时间t以及时间t之前的帧。
具体地,提供一段视频,以时间t为分界线,时间t以及之前的帧作为已知帧(已知行人目标的具体位置)。
本发明的网络模型设计如图2所示,约定时间t及之前的帧(It,It-1,It-2,It-3,…)为已知帧,即已知行人目标的位置轨迹等信息,求时间t之后的未知帧(It+1)中目标的位置以及轨迹。
将首先使用深度神经网络预测已知帧之间的光流信息,以此光流信息作为指导,合成未知帧并预测目标的位置信息,合成未知帧能更好的帮助网络理解视频中所包含的全局信息。
S2,光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息。
作为本发明实施例的一个可选实施方式,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。其中,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括:获取两个相邻的已知帧,得到两个相邻的已知帧的特征图;通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;通过上采样恢复两个相邻的已知帧的特征图信息;输出两个相邻的已知帧之间的光流信息。
具体地,本发明使用FlowNet2预测已知帧之间的光流信息。本发明使用的FlowNet网络示意图如图3所示,是一个孪生网络结构,网络编码器的两个分支分别输入两个相邻的已知帧(以It,It-1为例),网络输出两帧之前的偏移量,即光流信息。孪生编码器部分分别由卷积核为7x7,5x5,3x3的三个卷积模块构成,孪生编码器部分得到的已知帧的两个特征图,通过比较融合后再不断经过3x3的卷积操作以及下采样操作学习相邻帧之间潜在的对应关系,最终通过上采样恢复特征图的细节信息,最终输出光流信息。
此光流预测网络是预先训练好的网络,本发明训练时并未改变其权重。
当然,本发明采用的FlowNet网络还可以替换为其他的有关于光流预测的网络,比如PWCNet等。
S3,合成预测网络根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;
S4,合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。
作为本发明实施例的一个可选实施方式,合成预测网络包括多个具有残差连接的子模块,每个子模块包括3x3的卷积、BN层和ReLU激活层。其中,合成预测网络根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧包括:将已知帧和已知帧之间的光流信息下采样四次,得到大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;结合浅层特征和深层特征信息,采样四次,恢复特征图的细节信息;使用线性差值重建未知帧的光流信息,得到t+1帧。
具体地,本发明使用的合成预测网络示意图如图4所示。合成预测网络使用已知帧(It帧以及之前的帧)和光流预测网络得到的光流信息作为输入,预测第It帧到第It+1帧的光流,将此光流应用It帧可以得到未知帧It+1。
合成预测网络的设计类似于U-Net网络的设计,将U-Net的每一个子模块替换成具有残差连接的子模块,每个子模块都由3x3的卷积、BN层和ReLU激活层构成,图中灰色实线表示各个模块中添加的残差连接。编码器阶段下采样四次学习丰富的语义信息,得到的特征图的大小分别为原图的1/2,1/4,1/8,1/16,通道大小分别为64,128,256,512,1024。解码器阶段对应上采样四次,恢复位置等细节信息,图4中黑色虚线所示编码解码器之间的远程连接可以使网络结合浅层特征和深层特征信息,以便更准确的预测结果。合成预测网络学习已知帧It到未知帧It+1的偏移量(即光流)φf,用于重建未知帧具体表示为其中°操作使用线性插值来实现。
作为本发明实施例的一个可选实施方式,本发明基于深度学习的行人运动轨迹预测方法还包括:通过合成相似性损失函数的后向传播优化合成预测网络。
作为本发明实施例的一个可选实施方式,合成预测网络根据t+1帧预测目标行人在t+1帧中的位置包括:大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
具体地,类U-Net网络的U形底部特征具有丰富的语义信息,本发明用于预测未知帧中目标的具体位置。其具体结构如图4方框内所示,将编码器底部特征首先经过一个平均池化层得到1x1x1024的特征层,再经过三个输出维度分别为256、32、4的全卷积层,得到最终的位置坐标。
作为本发明实施例的一个可选实施方式,本发明基于深度学习的行人运动轨迹预测方法还包括:通过位置回归损失函数的反向传播不断优化合成预测网络。
具体地,通过位置回归损失函数的反向传播不断优化网络,使预测的行人位置与实际位置尽可能相近。
由此可见,本发明提供的基于深度学习的行人运动轨迹预测方法的最终目的是获得目标行人在未知帧I_(t+1)中的具体位置,本发明基于深度学习的行人运动轨迹预测方法合成未知帧可以有助于网络对视频场景的把控,有助于帮助网络掌握全局信息,从而得到准确的目标位置预测。
其中,本发明涉及的损失函数包括光流平滑损失、合成相似性损失和位置回归损失。相关性平滑损失对φf和φb进行正则化约束,定义为:
其中,对于图像空间的每个位置s,本发明计算原始图像与合成图像的相关性,CC指的是每个位置的局部归一化互相关。最后,本发明用L1损失来约束预测的轨迹位置的准确性,表示为:
整个网络的损失函数可以表示为:
L=Ls+Ld+Lp
因此,相较于已有的方法直接使用目标行人在已知帧中的位置信息作为深度神经网络的输入,缺少视频中的场景信息和全局信息,本发明提供的基于深度学习的行人运动轨迹预测方法用视频中的已知帧作为网络输入,在合成未知帧的过程中帮助网络学习视频中的语义信息,使网络能更好的预测未知帧中目标的位置。
相较于已有的方法在预测轨迹时,通常使用行人关键点等辅助信息,但是这些信息通畅难以获得,给网络等训练增加了难度。本发明提供的基于深度学习的行人运动轨迹预测方法,使用光流信息来辅助网络学习,使用已有的网络预测光流,比较容易获取。
图5示出了本发明实施例提供的基于深度学习的行人运动轨迹预测装置的结构示意图,该基于深度学习的行人运动轨迹预测装置应用上述方法,以下仅对基于深度学习的行人运动轨迹预测装置的结构进行简单说明,其他未尽事宜,请参照上述基于深度学习的行人运动轨迹预测方法中的相关描述,参见图5,本发明实施例提供的基于深度学习的行人运动轨迹预测装置,包括:
获取模块,用于获取视频数据,其中,视频数据包括已知帧,已知帧包括:时间t以及时间t之前的帧;
光流预测网络,用于根据相邻的两个已知帧预测已知帧之间的光流信息;
合成预测网络,用于根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;根据t+1帧预测目标行人在t+1帧中的位置。
作为本发明实施例的一个可选实施方式,光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。
作为本发明实施例的一个可选实施方式,光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息:光流预测网络,具体用于获取两个相邻的已知帧,得到两个相邻的已知帧的特征图;通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;通过上采样恢复两个相邻的已知帧的特征图信息;输出两个相邻的已知帧之间的光流信息。
作为本发明实施例的一个可选实施方式,合成预测网络包括多个具有残差连接的子模块,每个子模块包括3x3的卷积、BN层和ReLU激活层。
作为本发明实施例的一个可选实施方式,合成预测网络通过如下方式根据已知帧和已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧:合成预测网络,具体用于将已知帧和已知帧之间的光流信息下采样四次,大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;结合浅层特征和深层特征信息,采样四次,恢复特征图的细节信息;使用线性差值重建未知帧的光流信息,得到t+1帧。
作为本发明实施例的一个可选实施方式,本发明实施例提供的基于深度学习的行人运动轨迹预测装置还包括:优化模块,用于通过合成相似性损失函数的后向传播优化合成预测网络。
作为本发明实施例的一个可选实施方式,合成预测网络通过如下方式根据t+1帧预测目标行人在t+1帧中的位置:合成预测网络,具体用于将大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
作为本发明实施例的一个可选实施方式,本发明实施例提供的基于深度学习的行人运动轨迹预测装置还包括:优化模块,用于通过位置回归损失函数的反向传播不断优化合成预测网络。
因此,相较于已有的方法直接使用目标行人在已知帧中的位置信息作为深度神经网络的输入,缺少视频中的场景信息和全局信息,本发明提供的基于深度学习的行人运动轨迹预测装置用视频中的已知帧作为网络输入,在合成未知帧的过程中帮助网络学习视频中的语义信息,使网络能更好的预测未知帧中目标的位置。
相较于已有的方法在预测轨迹时,通常使用行人关键点等辅助信息,但是这些信息通畅难以获得,给网络等训练增加了难度。本发明提供的基于深度学习的行人运动轨迹预测装置,使用光流信息来辅助网络学习,使用已有的网络预测光流,比较容易获取。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种基于深度学习的行人运动轨迹预测方法,其特征在于,包括:
获取视频数据,其中,所述视频数据包括已知帧,所述已知帧包括:时间t以及时间t之前的帧;
光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息;
合成预测网络根据所述已知帧和所述已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;
所述合成预测网络根据所述t+1帧预测目标行人在t+1帧中的位置。
2.根据权利要求1所述的方法,其特征在于,所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。
3.根据权利要求2所述的方法,其特征在于,所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括:
获取所述两个相邻的已知帧,得到两个相邻的已知帧的特征图;
通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;
通过上采样恢复两个相邻的已知帧的特征图信息;
输出两个相邻的已知帧之间的光流信息。
4.根据权利要求1所述的方法,其特征在于,所述合成预测网络包括多个具有残差连接的子模块,每个所述子模块包括3x3的卷积、BN层和ReLU激活层。
5.根据权利要求4所述的方法,其特征在于,所述合成预测网络根据所述已知帧和所述已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧包括:
将所述已知帧和所述已知帧之间的光流信息下采样四次,得到大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;
结合浅层特征和深层特征信息,采样四次,恢复所述特征图的细节信息;
使用线性差值重建未知帧的光流信息,得到所述t+1帧。
6.根据权利要求1所述的方法,其特征在于,还包括:通过合成相似性损失函数的后向传播优化所述合成预测网络。
7.根据权利要求5所述的方法,其特征在于,所述合成预测网络根据所述t+1帧预测目标行人在t+1帧中的位置包括:
将大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;
经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
8.根据权利要求7所述的方法,其特征在于,还包括:通过位置回归损失函数的反向传播不断优化所述合成预测网络。
9.一种基于深度学习的行人运动轨迹预测装置,其特征在于,包括:
获取模块,用于获取视频数据,其中,所述视频数据包括已知帧,所述已知帧包括:时间t以及时间t之前的帧;
光流预测网络,用于根据相邻的两个已知帧预测已知帧之间的光流信息;
合成预测网络,用于根据所述已知帧和所述已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧;根据所述t+1帧预测目标行人在t+1帧中的位置。
10.根据权利要求9所述的装置,其特征在于,所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。
11.根据权利要求10所述的装置,其特征在于,所述光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息:
所述光流预测网络,具体用于获取所述两个相邻的已知帧,得到两个相邻的已知帧的特征图;通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系;通过上采样恢复两个相邻的已知帧的特征图信息;输出两个相邻的已知帧之间的光流信息。
12.根据权利要求9所述的装置,其特征在于,所述合成预测网络包括多个具有残差连接的子模块,每个所述子模块包括3x3的卷积、BN层和ReLU激活层。
13.根据权利要求12所述的装置,其特征在于,所述合成预测网络通过如下方式根据所述已知帧和所述已知帧之间的光流信息,预测未知帧的光流信息,得到t+1帧:
所述合成预测网络,具体用于将所述已知帧和所述已知帧之间的光流信息下采样四次,得到大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图;结合浅层特征和深层特征信息,采样四次,恢复所述特征图的细节信息;使用线性差值重建未知帧的光流信息,得到所述t+1帧。
14.根据权利要求9所述的装置,其特征在于,还包括:优化模块,用于通过合成相似性损失函数的后向传播优化所述合成预测网络。
15.根据权利要求13所述的装置,其特征在于,所述合成预测网络通过如下方式根据所述t+1帧预测目标行人在t+1帧中的位置:
所述合成预测网络,具体用于将大小分别为原图的1/2,1/4,1/8,1/16,通道数分别为64,128,256,512,1024的特征图经过一个平均池化层得到1x1x1024的特征层;经过三个输出维度分别为256、32、4的全卷积层,得到目标行人在t+1帧中的位置。
16.根据权利要求15所述的方法,其特征在于,还包括:优化模块,用于通过位置回归损失函数的反向传播不断优化所述合成预测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110029289.XA CN112734805B (zh) | 2021-01-11 | 2021-01-11 | 一种基于深度学习的行人运动轨迹预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110029289.XA CN112734805B (zh) | 2021-01-11 | 2021-01-11 | 一种基于深度学习的行人运动轨迹预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734805A true CN112734805A (zh) | 2021-04-30 |
CN112734805B CN112734805B (zh) | 2022-04-15 |
Family
ID=75590118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110029289.XA Active CN112734805B (zh) | 2021-01-11 | 2021-01-11 | 一种基于深度学习的行人运动轨迹预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734805B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324950A (zh) * | 2012-03-22 | 2013-09-25 | 中国科学院计算技术研究所 | 基于在线学习的人体重现检测方法及其系统 |
CN105760831A (zh) * | 2015-12-07 | 2016-07-13 | 北京航空航天大学 | 一种基于低空航拍红外视频的行人跟踪方法 |
CN107527358A (zh) * | 2017-08-23 | 2017-12-29 | 北京图森未来科技有限公司 | 一种稠密光流估计方法及装置 |
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN110276233A (zh) * | 2018-03-15 | 2019-09-24 | 南京大学 | 一种基于深度学习的多相机协同跟踪系统 |
CN110728270A (zh) * | 2019-12-17 | 2020-01-24 | 北京影谱科技股份有限公司 | 视频人物的去除方法、装置及设备及计算机可读存储介质 |
CN110830808A (zh) * | 2019-11-29 | 2020-02-21 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN110992401A (zh) * | 2019-11-25 | 2020-04-10 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN111340101A (zh) * | 2020-02-24 | 2020-06-26 | 广州虎牙科技有限公司 | 稳定性评估方法、装置、电子设备和计算机可读存储介质 |
CN111462192A (zh) * | 2020-02-24 | 2020-07-28 | 江苏大学 | 一种人行道扫地机器人时空双流融合卷积神经网络动态避障方法 |
US20200265567A1 (en) * | 2019-02-18 | 2020-08-20 | Samsung Electronics Co., Ltd. | Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames |
US20200265590A1 (en) * | 2019-02-19 | 2020-08-20 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
-
2021
- 2021-01-11 CN CN202110029289.XA patent/CN112734805B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324950A (zh) * | 2012-03-22 | 2013-09-25 | 中国科学院计算技术研究所 | 基于在线学习的人体重现检测方法及其系统 |
CN105760831A (zh) * | 2015-12-07 | 2016-07-13 | 北京航空航天大学 | 一种基于低空航拍红外视频的行人跟踪方法 |
CN107527358A (zh) * | 2017-08-23 | 2017-12-29 | 北京图森未来科技有限公司 | 一种稠密光流估计方法及装置 |
CN110276233A (zh) * | 2018-03-15 | 2019-09-24 | 南京大学 | 一种基于深度学习的多相机协同跟踪系统 |
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
US20200265567A1 (en) * | 2019-02-18 | 2020-08-20 | Samsung Electronics Co., Ltd. | Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames |
US20200265590A1 (en) * | 2019-02-19 | 2020-08-20 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
CN110992401A (zh) * | 2019-11-25 | 2020-04-10 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN110830808A (zh) * | 2019-11-29 | 2020-02-21 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN110728270A (zh) * | 2019-12-17 | 2020-01-24 | 北京影谱科技股份有限公司 | 视频人物的去除方法、装置及设备及计算机可读存储介质 |
CN111462192A (zh) * | 2020-02-24 | 2020-07-28 | 江苏大学 | 一种人行道扫地机器人时空双流融合卷积神经网络动态避障方法 |
CN111340101A (zh) * | 2020-02-24 | 2020-06-26 | 广州虎牙科技有限公司 | 稳定性评估方法、装置、电子设备和计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
A.DOSOVITSKIY ET AL: "FlowNet: Learning Optical Flow with Convolutional Networks", 《CVPR2015》 * |
T. N. NGUYEN ET AL: "Anomaly Detection in Video Sequence With Appearance-Motion Correspondence", 《ICCV2019》 * |
顾炼 等: "基于FlowS-Unet的遥感图像建筑物变化检测", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112734805B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651973B (zh) | 基于特征金字塔注意力和混合注意力级联的语义分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
Salimans et al. | Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN109798888B (zh) | 移动设备的姿态确定装置、方法和视觉里程计 | |
CN110795990A (zh) | 一种面向水下设备的手势识别方法 | |
CN111079507B (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN115953582B (zh) | 一种图像语义分割方法及系统 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
Liu et al. | Griddehazenet+: An enhanced multi-scale network with intra-task knowledge transfer for single image dehazing | |
CN112288772B (zh) | 基于在线多特征选择的通道注意力目标跟踪方法 | |
Lu et al. | FRNet: Factorized and regular blocks network for semantic segmentation in road scene | |
CN115249382B (zh) | 一种基于Transformer与CNN的静默活体检测方法 | |
CN112508099A (zh) | 一种实时目标检测的方法和装置 | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116071748A (zh) | 一种基于频域全局滤波的无监督视频目标分割方法 | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
Thangavel et al. | A novel method for image captioning using multimodal feature fusion employing mask RNN and LSTM models | |
CN113782042B (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN118230323A (zh) | 一种融合空间细节上下文与多尺度交互图像语义分割方法 | |
CN112734805B (zh) | 一种基于深度学习的行人运动轨迹预测方法及装置 | |
KR102612625B1 (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
CN114972851B (zh) | 一种基于遥感影像的船只目标智能检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |