CN112529940A - 一种固定摄像机下的运动目标位置预测方法及装置 - Google Patents

一种固定摄像机下的运动目标位置预测方法及装置 Download PDF

Info

Publication number
CN112529940A
CN112529940A CN202011495516.XA CN202011495516A CN112529940A CN 112529940 A CN112529940 A CN 112529940A CN 202011495516 A CN202011495516 A CN 202011495516A CN 112529940 A CN112529940 A CN 112529940A
Authority
CN
China
Prior art keywords
data
predicted
target
prediction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011495516.XA
Other languages
English (en)
Other versions
CN112529940B (zh
Inventor
刘锋
俞益洲
李一鸣
乔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202011495516.XA priority Critical patent/CN112529940B/zh
Publication of CN112529940A publication Critical patent/CN112529940A/zh
Application granted granted Critical
Publication of CN112529940B publication Critical patent/CN112529940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Abstract

本发明提供了一种固定摄像机下的运动目标位置预测方法及装置,其中方法包括:获取待预测数据,将待预测数据送入用于目标位置预测的神经网络模型,利用用于目标位置预测的神经网络模型对待预测数据进行预测,待预测数据包括视频数据和待预测时间间隔t,视频数据包括K帧RGB 3通道的图片;将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体;将4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。

Description

一种固定摄像机下的运动目标位置预测方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种固定摄像机下的运动目标位置预测方法及装置。
背景技术
运动目标位置的预测是导盲设备的关键技术,导盲设备如导盲眼镜通常配备单目摄像机,如何从单目摄像机获取的视频中定位目标、预测目标的位置对于自身状态估计与路径规划至关重要。
现有运动目标位置预测技术通常分为两个阶段,首先采用视频目标检测和目标跟踪算法获取目标现在和历史位置,然后采用预测模型如循环神经网络或树搜索等算法预测目标未来的轨迹。这些方法的不足在于基于规则的方法难以枚举所有情况,而采用循环神经网络方法通常受模型容量的制约,且无法进行端到端训练,累积误差导致预测不稳定,影响预测精度。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的固定摄像机下的运动目标位置预测方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种固定摄像机下的运动目标位置预测方法,包括:获取待预测数据,将待预测数据送入用于目标位置预测的神经网络模型,利用用于目标位置预测的神经网络模型对待预测数据进行预测,其中,待预测数据包括视频数据和待预测时间间隔t,视频数据包括K帧RGB 3通道的图片;其中,利用用于目标位置预测的神经网络模型对待预测数据进行预测包括:将k帧RGB 3通道的图片和待预测时间间隔t组合为4通道的k×H×W大小的立体;将4通道的k×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
其中,方法还包括:训练用于目标位置预测的神经网络模型;训练用于目标位置预测的神经网络模型包括:获取标注数据,其中,标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置,其中位置包括边界框;对标注数据进行抽取,生成训练数据,训练数据包括N对数据单元,每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注;利用训练数据训练用于目标位置预测的神经网络模型。
其中,输入视频片段通过以下方式生成:在原视频V按预设方式选取开始点t1和序列长度K后,生成输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。
其中,标注通过如下方式生成:对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
其中,利用训练数据训练用于目标位置预测的神经网络模型包括:利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
本发明另一方面提供了一种固定摄像机下的运动目标位置预测装置,包括:获取模块,用于获取待预测数据;预测模块,用于将待预测数据送入用于目标位置预测的神经网络模型,利用用于目标位置预测的神经网络模型对待预测数据进行预测,其中,待预测数据包括视频数据和待预测时间间隔t,视频数据包括K帧RGB 3通道的图片;其中,预测模块通过如下方式利用用于目标位置预测的神经网络模型对待预测数据进行预测:预测模块,具体用于将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体;将4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
其中,装置还包括:训练模块,用于训练用于目标位置预测的神经网络模型;训练模块通过如下方式训练用于目标位置预测的神经网络模型:训练模块,具体用于获取标注数据,其中,标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置,其中位置包括边界框;对标注数据进行抽取,生成训练数据,训练数据包括N对数据单元,每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注;利用训练数据训练用于目标位置预测的神经网络模型。
其中,训练模块通过如下方式生成输入视频片段:训练模块,具体用于在在原视频V按预设方式选取开始点t1和序列长度K后,生成输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。
其中,训练模块通过如下方式生成标注:训练模块,具体用于对每个时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
其中,训练模块通过如下方式利用训练数据训练用于目标位置预测的神经网络模型:训练模块,具体用于利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
由此可见,通过本发明提供的固定摄像机下的运动目标位置预测方法及装置,采用一种端到端的方法,利用神经网络从原始视频流中直接对特定时刻后不同目标的位置进行预测,避免了中间环节造成的信息丢失和误差累积。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种固定摄像机下的运动目标位置预测方法的流程图;
图2为本发明实施例提供的固定摄像机下的运动目标位置预测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的固定摄像机下的运动目标位置预测方法的流程图,参见图1,本发明实施例提供的固定摄像机下的运动目标位置预测方法,包括:
S1,获取待预测数据;
S2,将待预测数据送入用于目标位置预测的神经网络模型,利用用于目标位置预测的神经网络模型对待预测数据进行预测,其中,待预测数据包括视频数据和待预测时间间隔t,视频数据包括K帧RGB 3通道的图片。
具体地,本发明可以创建用于目标位置预测的神经网络模型,该模型的输入为一段视频和待预测时间间隔t,如5秒或120帧,其中视频包括K帧,每帧均为RGB 3通道的图片;模型输出为视频中不同目标在一段时间t后目标的空间位置。该预测过程是按以下流程实现的:
其中,S2,利用用于目标位置预测的神经网络模型对待预测数据进行预测包括:
S201,将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体。
具体地,将K帧图像组合为4通道的K×H×W大小的立体:每帧图片的长和宽为H和W,在每帧3通道(RGB)的图片添加一个额外的通道,即在原图每个像素R,G,B三个值的基础上,添加一个新的值即待预测时间间隔t,这样每帧图片则包含4个通道,形状为4×H×W。然后将K张图像堆叠在一起,即构成了4通道K×H×W的立体数据。
S202,将4通道的K×H×W大小的立体数据送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图。
具体地,将K×H×W的立体送入主干网络,其中主干网络为3D深度卷积残差网络,如18层的深度残差网络(ResNet-18),负责从视频序列中提取特征,该网络共分为5个层级,每个层级的输出分别为不同尺度的特征图。
S203,采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图。
具体地,待完成特征提取后,采用特征金字塔(FPN)对不同尺度的特征进行融合,由于主干网络为3D模型,特征层大小均为立体,本发明可以采用池化的方法对特征层沿时间维进行融合,如最大池化,平均池化,注意力池化,得到2D多通道的特征图。
S204,利用2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
具体地,利用上一步得到的2D特征图,对待预测层目标位置进行预测。根据2D特征图,采用2D目标检测预测模块对目标位置进行预测。从2D特征图到目标位置的预测可以有多种实现方法,本发明可以采用有锚点的预测模块RetinaNet为例,检出预测子网络的构建:首先在C5基础上进行间隔为2的卷积得到P6和P7层,然后在P3、P4、P5、P6、P7这四个特征金字塔层级上对不同大小的目标进行位置预测和类别的预测,得到最终的目标预测结果。
在实际使用中,待预测时间间隔t为系统参数需提前设定,如120帧,那么本发明对于帧率为24的视频,则预测5秒后目标所处的位置。对于连续的视频流,本发明以距离当前时刻最近的K帧子视频作为输入,送入神经网络模型进行推理,即可得到目标在5秒后的位置的预测。
作为本发明实施例的一个可选实施方式,本发明实施例提供的固定摄像机下的运动目标位置预测方法还包括:训练用于目标位置预测的神经网络模型;训练用于目标位置预测的神经网络模型包括:获取标注数据,其中,标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置,其中位置包括边界框;对标注数据进行抽取,生成训练数据,训练数据包括N对数据单元,每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注;利用训练数据训练用于目标位置预测的神经网络模型。其中,输入视频片段通过以下方式生成:在原视频V按预设方式选取开始点t1和序列长度K后,生成输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。其中,标注通过如下方式生成:对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。其中,利用训练数据训练用于目标位置预测的神经网络模型包括:利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
具体地,由于本发明采用的为神经网络模型,需要从数据中进行学习。因此,需要对神经网络模型进行训练,提供了一种用于视频中运动目标位置预测模型的训练方法,包括数据集构建和训练模型两个步骤。
其中,数据集构建包括:
获取视频数据,其中,视频数据包括多段视频和视频每一帧感兴趣目标位置(如车、人)及其编号构成,其中目标位置可以由边界框(目标左上角、右下角坐标)构成。
首先进行标注数据的抽取,生成可供模型训练的数据,训练数据包括N对数据单元。每一对数据单元包括一个输入视频片段和多组与之对应标注。
其中,输入视频片段可以按以下方式生成,在原视频V按特定方式选取开始点t1,如随机,根据预设定序列长度K,抽取视频片段:{V[t1-K],…,V[t1-1],V[t1]},其中V[i]表示抽取第i帧视频。
标注由多组时间间隔t和未来时刻目标位置标注构成。其生成方法为,对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
按此方法抽重复多次即可得到N组数据单元作为训练集。
训练模型包括:利用数据集中模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
由此可见,本发明固定摄像机下的运动目标位置预测方法,采用视频流数据作为输入,利用深度学习模型直接对特定时刻后目标的位置进行预测;深度学习模型采用3D卷积神经网络从视频流中提取多尺度特征;利用特征金字塔对不同尺度特征进行融合,并利用池化将3D特征图转为2D特征图;采用2D检测预测模块对特定时刻后目标位置进行预测;对视频中每一帧RGB图像,在图像的每个位置的R、G、B取值后添加待预测时间间隔t,构成图像的第四通道,将扩增通道后的视频作为模型输入;以t时刻后目标位置作为视频对应的学习目标。
因此,利用本发明固定摄像机下的运动目标位置预测方法,有利于提升位置预测的稳定性与准确性。本发明利用一种端到端的方法,利用深度卷积神经网络建模不同运动目标的信息,直接从原始视频流预测特定时刻后目标的位置,采用从数据中学习的方法学习目标的运动规律,避免了多级模型各中间环节的信息丢失与误差累积。同时本发明采用容量更大的3D卷积神经网络对运动信息进行建模,具有更强的模型容量与表达能力,从而得到更加精确的结果。
图2示出了本发明实施例提供的固定摄像机下的运动目标位置预测装置的结构示意图,该固定摄像机下的运动目标位置预测装置应用上述方法,以下仅对固定摄像机下的运动目标位置预测装置的结构进行简单说明,其他未尽事宜,请参照上述固定摄像机下的运动目标位置预测方法中的相关描述,参见图2,本发明实施例提供的固定摄像机下的运动目标位置预测装置,包括:
获取模块,用于获取待预测数据;
预测模块,用于将待预测数据送入用于目标位置预测的神经网络模型,利用用于目标位置预测的神经网络模型对待预测数据进行预测,其中,待预测数据包括视频数据和待预测时间间隔t,视频数据包括K帧RGB 3通道的图片;
其中,预测模块通过如下方式利用用于目标位置预测的神经网络模型对待预测数据进行预测:
预测模块,具体用于将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体;将4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
本发明实施例提供的固定摄像机下的运动目标位置预测方法装置,还包括:训练模块,用于训练用于目标位置预测的神经网络模型;
训练模块通过如下方式训练用于目标位置预测的神经网络模型:
训练模块,具体用于获取标注数据,其中,标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置,其中位置包括边界框;对标注数据进行抽取,生成训练数据,训练数据包括N对数据单元,每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注;利用训练数据训练用于目标位置预测的神经网络模型。
作为本发明实施例的一个可选实施方式,训练模块通过如下方式生成输入视频片段:训练模块,具体用于在原视频V按预设方式选取开始点t1和序列长度K后,生成输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。
作为本发明实施例的一个可选实施方式,训练模块通过如下方式生成标注:训练模块,具体用于对每个时刻t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
作为本发明实施例的一个可选实施方式,训练模块通过如下方式利用训练数据训练用于目标位置预测的神经网络模型:训练模块,具体用于利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
由此可见,本发明固定摄像机下的运动目标位置预测装置,采用视频流数据作为输入,利用深度学习模型直接对特定时刻后目标的位置进行预测;深度学习模型采用3D卷积神经网络从视频流中提取多尺度特征;利用特征金字塔对不同尺度特征进行融合,并利用池化将3D特征图转为2D特征图;采用2D检测预测模块对特定时刻后目标位置进行预测;对视频中每一帧RGB图像,在图像的每个位置的R、G、B取值后添加待预测时间间隔t,构成图像的第四通道,将扩增通道后的视频作为模型输入;以t时刻后目标位置作为视频对应的学习目标。
因此,利用本发明固定摄像机下的运动目标位置预测装置,有利于提升位置预测的稳定性与准确性。本发明利用一种端到端的方法,利用深度卷积神经网络建模不同运动目标的信息,直接从原始视频流预测特定时刻后目标的位置,采用从数据中学习的方法学习目标的运动规律,避免了多级模型各中间环节的信息丢失与误差累积。同时本发明采用容量更大的3D卷积神经网络对运动信息进行建模,具有更强的模型容量与表达能力,从而得到更加精确的结果。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种固定摄像机下的运动目标位置预测方法,其特征在于,包括:
获取待预测数据,将所述待预测数据送入用于目标位置预测的神经网络模型,利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测,其中,所述待预测数据包括视频数据和待预测时间间隔t,所述视频数据包括K帧RGB 3通道的图片;
其中,所述利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测包括:
将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体;
将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;
采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;
利用所述2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
2.根据权利要求1所述的方法,其特征在于,还包括:训练所述用于目标位置预测的神经网络模型;
所述训练所述用于目标位置预测的神经网络模型包括:
获取标注数据,其中,所述标注数据包括多段视频和每段所述视频每一帧感兴趣目标的编号及位置,其中所述位置包括边界框;
对所述标注数据进行抽取,生成训练数据,所述训练数据包括N对数据单元,每一对所述数据单元包括一个输入视频片段和多组与所述输入视频片段对应的标注;
利用所述训练数据训练所述用于目标位置预测的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述输入视频片段通过以下方式生成:
在原视频V按预设方式选取开始点t1和序列长度K后,生成所述输入视频片段{V[t1-K,…,Vt1-1,V[t1]}。
4.根据权利要求2所述的方法,其特征在于,所述标注通过如下方式生成:
对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
5.根据权利要求2所述的方法,其特征在于,所述利用所述训练数据训练所述用于目标位置预测的神经网络模型包括:
利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
6.一种固定摄像机下的运动目标位置预测装置,其特征在于,包括:
获取模块,用于获取待预测数据;
预测模块,用于将所述待预测数据送入用于目标位置预测的神经网络模型,利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测,其中,所述待预测数据包括视频数据和待预测时间间隔t,所述视频数据包括K帧RGB 3通道的图片;
其中,所述预测模块通过如下方式利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测:
所述预测模块,具体用于将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体;将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用所述2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
7.根据权利要求6所述的装置,其特征在于,还包括:训练模块,用于训练所述用于目标位置预测的神经网络模型;
所述训练模块通过如下方式训练所述用于目标位置预测的神经网络模型:
所述训练模块,具体用于获取标注数据,其中,所述标注数据包括多段视频和每段所述视频每一帧感兴趣目标的编号及位置,其中所述位置包括边界框;对所述标注数据进行抽取,生成训练数据,所述训练数据包括N对数据单元,每一对所述数据单元包括一个输入视频片段和多组与所述输入视频片段对应的标注;利用所述训练数据训练所述用于目标位置预测的神经网络模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块通过如下方式生成输入视频片段:
所述训练模块,具体用于在在原视频V按预设方式选取开始点t1和序列长度K后,生成输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。
9.根据权利要求7所述的装置,其特征在于,所述训练模块通过如下方式生成标注:
所述训练模块,具体用于对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
10.根据权利要求7所述的装置,其特征在于,所述训练模块通过如下方式利用所述训练数据训练所述用于目标位置预测的神经网络模型:
所述训练模块,具体用于利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
CN202011495516.XA 2020-12-17 2020-12-17 一种固定摄像机下的运动目标位置预测方法及装置 Active CN112529940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495516.XA CN112529940B (zh) 2020-12-17 2020-12-17 一种固定摄像机下的运动目标位置预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495516.XA CN112529940B (zh) 2020-12-17 2020-12-17 一种固定摄像机下的运动目标位置预测方法及装置

Publications (2)

Publication Number Publication Date
CN112529940A true CN112529940A (zh) 2021-03-19
CN112529940B CN112529940B (zh) 2022-02-11

Family

ID=75001003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495516.XA Active CN112529940B (zh) 2020-12-17 2020-12-17 一种固定摄像机下的运动目标位置预测方法及装置

Country Status (1)

Country Link
CN (1) CN112529940B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492113A (zh) * 2017-06-01 2017-12-19 南京行者易智能交通科技有限公司 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN111223131A (zh) * 2020-01-14 2020-06-02 山东科技大学 一种特定目标与嫌疑目标持续移动的监控追踪方法
CN111626090A (zh) * 2020-03-03 2020-09-04 湖南理工学院 一种基于深度帧差卷积神经网络的运动目标检测方法
CN111798490A (zh) * 2020-07-08 2020-10-20 电子科技大学 一种视频sar车辆目标检测方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492113A (zh) * 2017-06-01 2017-12-19 南京行者易智能交通科技有限公司 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN111223131A (zh) * 2020-01-14 2020-06-02 山东科技大学 一种特定目标与嫌疑目标持续移动的监控追踪方法
CN111626090A (zh) * 2020-03-03 2020-09-04 湖南理工学院 一种基于深度帧差卷积神经网络的运动目标检测方法
CN111798490A (zh) * 2020-07-08 2020-10-20 电子科技大学 一种视频sar车辆目标检测方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法

Also Published As

Publication number Publication date
CN112529940B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN110569875B (zh) 一种基于特征复用的深度神经网络目标检测方法
JP2022526513A (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
CN106875437B (zh) 一种面向rgbd三维重建的关键帧提取方法
CN110610486B (zh) 单目图像深度估计方法及装置
CN109191498B (zh) 基于动态记忆和运动感知的目标检测方法及系统
CN111291690A (zh) 路线规划方法、路线规划装置、机器人及介质
CN112070071B (zh) 视频中的对象标注方法、装置、计算机设备及存储介质
CN113109816B (zh) 雷达回波图像的回波块追踪方法、装置及存储介质
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112633149A (zh) 一种域自适应雾天图像目标检测方法和装置
CN112580558A (zh) 红外图像目标检测模型构建方法、检测方法、装置及系统
CN110909625A (zh) 一种计算机视觉基础网络训练识别构建方法及装置
CN111414931A (zh) 一种基于图像深度的多分支多尺度小目标检测方法
CN115393745A (zh) 一种基于无人机与深度学习的桥梁形象进度自动识别方法
CN112732860B (zh) 道路提取方法、装置、可读存储介质及设备
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN112529940B (zh) 一种固定摄像机下的运动目标位置预测方法及装置
CN114154563A (zh) 基于混合监督训练的目标检测方法
CN112288702A (zh) 一种基于车联网的道路图像检测方法
CN113052103A (zh) 一种基于神经网络的电气设备缺陷检测方法及装置
JP2020064364A (ja) 学習装置、画像生成装置、学習方法、及び学習プログラム
KR20200095251A (ko) 사이클 일관성 기반 옵티컬플로우 및 디스패리티 추정 장치 및 방법
CN113191301B (zh) 融合时序和空间信息的视频密集人群计数方法及系统
CN115470418A (zh) 一种基于无人机航拍的排队点推荐方法及系统
US10847048B2 (en) Server, method and wearable device for supporting maintenance of military apparatus based on augmented reality using correlation rule mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant