CN112529940A

CN112529940A - 一种固定摄像机下的运动目标位置预测方法及装置

Info

Publication number: CN112529940A
Application number: CN202011495516.XA
Authority: CN
Inventors: 刘锋; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19
Anticipated expiration: 2040-12-17
Also published as: CN112529940B

Abstract

本发明提供了一种固定摄像机下的运动目标位置预测方法及装置，其中方法包括：获取待预测数据，将待预测数据送入用于目标位置预测的神经网络模型，利用用于目标位置预测的神经网络模型对待预测数据进行预测，待预测数据包括视频数据和待预测时间间隔t，视频数据包括K帧RGB 3通道的图片；将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体；将4通道的K×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；利用2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

Description

一种固定摄像机下的运动目标位置预测方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种固定摄像机下的运动目标位置预测方法及装置。

背景技术

运动目标位置的预测是导盲设备的关键技术，导盲设备如导盲眼镜通常配备单目摄像机，如何从单目摄像机获取的视频中定位目标、预测目标的位置对于自身状态估计与路径规划至关重要。

现有运动目标位置预测技术通常分为两个阶段，首先采用视频目标检测和目标跟踪算法获取目标现在和历史位置，然后采用预测模型如循环神经网络或树搜索等算法预测目标未来的轨迹。这些方法的不足在于基于规则的方法难以枚举所有情况，而采用循环神经网络方法通常受模型容量的制约，且无法进行端到端训练，累积误差导致预测不稳定，影响预测精度。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的固定摄像机下的运动目标位置预测方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种固定摄像机下的运动目标位置预测方法，包括：获取待预测数据，将待预测数据送入用于目标位置预测的神经网络模型，利用用于目标位置预测的神经网络模型对待预测数据进行预测，其中，待预测数据包括视频数据和待预测时间间隔t，视频数据包括K帧RGB 3通道的图片；其中，利用用于目标位置预测的神经网络模型对待预测数据进行预测包括：将k帧RGB 3通道的图片和待预测时间间隔t组合为4通道的k×H×W大小的立体；将4通道的k×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；利用2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

其中，方法还包括：训练用于目标位置预测的神经网络模型；训练用于目标位置预测的神经网络模型包括：获取标注数据，其中，标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置，其中位置包括边界框；对标注数据进行抽取，生成训练数据，训练数据包括N对数据单元，每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注；利用训练数据训练用于目标位置预测的神经网络模型。

其中，输入视频片段通过以下方式生成：在原视频V按预设方式选取开始点t₁和序列长度K后，生成输入视频片段{V[t₁-K],…,V[t₁-1],V[t₁]}。

其中，标注通过如下方式生成：对每个待预测时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

其中，利用训练数据训练用于目标位置预测的神经网络模型包括：利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

本发明另一方面提供了一种固定摄像机下的运动目标位置预测装置，包括：获取模块，用于获取待预测数据；预测模块，用于将待预测数据送入用于目标位置预测的神经网络模型，利用用于目标位置预测的神经网络模型对待预测数据进行预测，其中，待预测数据包括视频数据和待预测时间间隔t，视频数据包括K帧RGB 3通道的图片；其中，预测模块通过如下方式利用用于目标位置预测的神经网络模型对待预测数据进行预测：预测模块，具体用于将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体；将4通道的K×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；利用2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

其中，装置还包括：训练模块，用于训练用于目标位置预测的神经网络模型；训练模块通过如下方式训练用于目标位置预测的神经网络模型：训练模块，具体用于获取标注数据，其中，标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置，其中位置包括边界框；对标注数据进行抽取，生成训练数据，训练数据包括N对数据单元，每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注；利用训练数据训练用于目标位置预测的神经网络模型。

其中，训练模块通过如下方式生成输入视频片段：训练模块，具体用于在在原视频V按预设方式选取开始点t₁和序列长度K后，生成输入视频片段{V[t₁-K],…,V[t₁-1],V[t₁]}。

其中，训练模块通过如下方式生成标注：训练模块，具体用于对每个时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

其中，训练模块通过如下方式利用训练数据训练用于目标位置预测的神经网络模型：训练模块，具体用于利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

由此可见，通过本发明提供的固定摄像机下的运动目标位置预测方法及装置，采用一种端到端的方法，利用神经网络从原始视频流中直接对特定时刻后不同目标的位置进行预测，避免了中间环节造成的信息丢失和误差累积。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种固定摄像机下的运动目标位置预测方法的流程图；

图2为本发明实施例提供的固定摄像机下的运动目标位置预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的固定摄像机下的运动目标位置预测方法的流程图，参见图1，本发明实施例提供的固定摄像机下的运动目标位置预测方法，包括：

S1，获取待预测数据；

S2，将待预测数据送入用于目标位置预测的神经网络模型，利用用于目标位置预测的神经网络模型对待预测数据进行预测，其中，待预测数据包括视频数据和待预测时间间隔t，视频数据包括K帧RGB 3通道的图片。

具体地，本发明可以创建用于目标位置预测的神经网络模型，该模型的输入为一段视频和待预测时间间隔t，如5秒或120帧，其中视频包括K帧，每帧均为RGB 3通道的图片；模型输出为视频中不同目标在一段时间t后目标的空间位置。该预测过程是按以下流程实现的：

其中，S2，利用用于目标位置预测的神经网络模型对待预测数据进行预测包括：

S201，将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体。

具体地，将K帧图像组合为4通道的K×H×W大小的立体：每帧图片的长和宽为H和W，在每帧3通道(RGB)的图片添加一个额外的通道，即在原图每个像素R，G，B三个值的基础上，添加一个新的值即待预测时间间隔t，这样每帧图片则包含4个通道，形状为4×H×W。然后将K张图像堆叠在一起，即构成了4通道K×H×W的立体数据。

S202，将4通道的K×H×W大小的立体数据送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图。

具体地，将K×H×W的立体送入主干网络，其中主干网络为3D深度卷积残差网络，如18层的深度残差网络(ResNet-18)，负责从视频序列中提取特征，该网络共分为5个层级，每个层级的输出分别为不同尺度的特征图。

S203，采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图。

具体地，待完成特征提取后，采用特征金字塔(FPN)对不同尺度的特征进行融合，由于主干网络为3D模型，特征层大小均为立体，本发明可以采用池化的方法对特征层沿时间维进行融合，如最大池化，平均池化，注意力池化，得到2D多通道的特征图。

S204，利用2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

具体地，利用上一步得到的2D特征图，对待预测层目标位置进行预测。根据2D特征图，采用2D目标检测预测模块对目标位置进行预测。从2D特征图到目标位置的预测可以有多种实现方法，本发明可以采用有锚点的预测模块RetinaNet为例，检出预测子网络的构建：首先在C5基础上进行间隔为2的卷积得到P6和P7层，然后在P3、P4、P5、P6、P7这四个特征金字塔层级上对不同大小的目标进行位置预测和类别的预测，得到最终的目标预测结果。

在实际使用中，待预测时间间隔t为系统参数需提前设定，如120帧，那么本发明对于帧率为24的视频，则预测5秒后目标所处的位置。对于连续的视频流，本发明以距离当前时刻最近的K帧子视频作为输入，送入神经网络模型进行推理，即可得到目标在5秒后的位置的预测。

作为本发明实施例的一个可选实施方式，本发明实施例提供的固定摄像机下的运动目标位置预测方法还包括：训练用于目标位置预测的神经网络模型；训练用于目标位置预测的神经网络模型包括：获取标注数据，其中，标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置，其中位置包括边界框；对标注数据进行抽取，生成训练数据，训练数据包括N对数据单元，每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注；利用训练数据训练用于目标位置预测的神经网络模型。其中，输入视频片段通过以下方式生成：在原视频V按预设方式选取开始点t₁和序列长度K后，生成输入视频片段{V[t₁-K],…,V[t₁-1],V[t₁]}。其中，标注通过如下方式生成：对每个待预测时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。其中，利用训练数据训练用于目标位置预测的神经网络模型包括：利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

具体地，由于本发明采用的为神经网络模型，需要从数据中进行学习。因此，需要对神经网络模型进行训练，提供了一种用于视频中运动目标位置预测模型的训练方法，包括数据集构建和训练模型两个步骤。

其中，数据集构建包括：

获取视频数据，其中，视频数据包括多段视频和视频每一帧感兴趣目标位置(如车、人)及其编号构成，其中目标位置可以由边界框(目标左上角、右下角坐标)构成。

首先进行标注数据的抽取，生成可供模型训练的数据，训练数据包括N对数据单元。每一对数据单元包括一个输入视频片段和多组与之对应标注。

其中，输入视频片段可以按以下方式生成，在原视频V按特定方式选取开始点t₁，如随机，根据预设定序列长度K，抽取视频片段：{V[t₁-K],…,V[t₁-1],V[t₁]}，其中V[i]表示抽取第i帧视频。

标注由多组时间间隔t和未来时刻目标位置标注构成。其生成方法为，对每个待预测时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

按此方法抽重复多次即可得到N组数据单元作为训练集。

训练模型包括：利用数据集中模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

由此可见，本发明固定摄像机下的运动目标位置预测方法，采用视频流数据作为输入，利用深度学习模型直接对特定时刻后目标的位置进行预测；深度学习模型采用3D卷积神经网络从视频流中提取多尺度特征；利用特征金字塔对不同尺度特征进行融合，并利用池化将3D特征图转为2D特征图；采用2D检测预测模块对特定时刻后目标位置进行预测；对视频中每一帧RGB图像，在图像的每个位置的R、G、B取值后添加待预测时间间隔t，构成图像的第四通道，将扩增通道后的视频作为模型输入；以t时刻后目标位置作为视频对应的学习目标。

因此，利用本发明固定摄像机下的运动目标位置预测方法，有利于提升位置预测的稳定性与准确性。本发明利用一种端到端的方法，利用深度卷积神经网络建模不同运动目标的信息，直接从原始视频流预测特定时刻后目标的位置，采用从数据中学习的方法学习目标的运动规律，避免了多级模型各中间环节的信息丢失与误差累积。同时本发明采用容量更大的3D卷积神经网络对运动信息进行建模，具有更强的模型容量与表达能力，从而得到更加精确的结果。

图2示出了本发明实施例提供的固定摄像机下的运动目标位置预测装置的结构示意图，该固定摄像机下的运动目标位置预测装置应用上述方法，以下仅对固定摄像机下的运动目标位置预测装置的结构进行简单说明，其他未尽事宜，请参照上述固定摄像机下的运动目标位置预测方法中的相关描述，参见图2，本发明实施例提供的固定摄像机下的运动目标位置预测装置，包括：

获取模块，用于获取待预测数据；

预测模块，用于将待预测数据送入用于目标位置预测的神经网络模型，利用用于目标位置预测的神经网络模型对待预测数据进行预测，其中，待预测数据包括视频数据和待预测时间间隔t，视频数据包括K帧RGB 3通道的图片；

其中，预测模块通过如下方式利用用于目标位置预测的神经网络模型对待预测数据进行预测：

预测模块，具体用于将K帧RGB 3通道的图片和待预测时间间隔t组合为4通道的K×H×W大小的立体；将4通道的K×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；利用2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

本发明实施例提供的固定摄像机下的运动目标位置预测方法装置，还包括：训练模块，用于训练用于目标位置预测的神经网络模型；

训练模块通过如下方式训练用于目标位置预测的神经网络模型：

训练模块，具体用于获取标注数据，其中，标注数据包括多段视频和每段视频每一帧感兴趣目标的编号及位置，其中位置包括边界框；对标注数据进行抽取，生成训练数据，训练数据包括N对数据单元，每一对数据单元包括一个输入视频片段和多组与输入视频片段对应的标注；利用训练数据训练用于目标位置预测的神经网络模型。

作为本发明实施例的一个可选实施方式，训练模块通过如下方式生成输入视频片段：训练模块，具体用于在原视频V按预设方式选取开始点t₁和序列长度K后，生成输入视频片段{V[t₁-K],…,V[t₁-1],V[t₁]}。

作为本发明实施例的一个可选实施方式，训练模块通过如下方式生成标注：训练模块，具体用于对每个时刻t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

作为本发明实施例的一个可选实施方式，训练模块通过如下方式利用训练数据训练用于目标位置预测的神经网络模型：训练模块，具体用于利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

由此可见，本发明固定摄像机下的运动目标位置预测装置，采用视频流数据作为输入，利用深度学习模型直接对特定时刻后目标的位置进行预测；深度学习模型采用3D卷积神经网络从视频流中提取多尺度特征；利用特征金字塔对不同尺度特征进行融合，并利用池化将3D特征图转为2D特征图；采用2D检测预测模块对特定时刻后目标位置进行预测；对视频中每一帧RGB图像，在图像的每个位置的R、G、B取值后添加待预测时间间隔t，构成图像的第四通道，将扩增通道后的视频作为模型输入；以t时刻后目标位置作为视频对应的学习目标。

因此，利用本发明固定摄像机下的运动目标位置预测装置，有利于提升位置预测的稳定性与准确性。本发明利用一种端到端的方法，利用深度卷积神经网络建模不同运动目标的信息，直接从原始视频流预测特定时刻后目标的位置，采用从数据中学习的方法学习目标的运动规律，避免了多级模型各中间环节的信息丢失与误差累积。同时本发明采用容量更大的3D卷积神经网络对运动信息进行建模，具有更强的模型容量与表达能力，从而得到更加精确的结果。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种固定摄像机下的运动目标位置预测方法，其特征在于，包括：

获取待预测数据，将所述待预测数据送入用于目标位置预测的神经网络模型，利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测，其中，所述待预测数据包括视频数据和待预测时间间隔t，所述视频数据包括K帧RGB 3通道的图片；

其中，所述利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测包括：

将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体；

将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；

采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；

利用所述2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

2.根据权利要求1所述的方法，其特征在于，还包括：训练所述用于目标位置预测的神经网络模型；

所述训练所述用于目标位置预测的神经网络模型包括：

获取标注数据，其中，所述标注数据包括多段视频和每段所述视频每一帧感兴趣目标的编号及位置，其中所述位置包括边界框；

对所述标注数据进行抽取，生成训练数据，所述训练数据包括N对数据单元，每一对所述数据单元包括一个输入视频片段和多组与所述输入视频片段对应的标注；

利用所述训练数据训练所述用于目标位置预测的神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述输入视频片段通过以下方式生成：

在原视频V按预设方式选取开始点t₁和序列长度K后，生成所述输入视频片段{V[t₁-K,…,Vt1-1,V[t1]}。

4.根据权利要求2所述的方法，其特征在于，所述标注通过如下方式生成：

对每个待预测时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

5.根据权利要求2所述的方法，其特征在于，所述利用所述训练数据训练所述用于目标位置预测的神经网络模型包括：

利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。

6.一种固定摄像机下的运动目标位置预测装置，其特征在于，包括：

获取模块，用于获取待预测数据；

预测模块，用于将所述待预测数据送入用于目标位置预测的神经网络模型，利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测，其中，所述待预测数据包括视频数据和待预测时间间隔t，所述视频数据包括K帧RGB 3通道的图片；

其中，所述预测模块通过如下方式利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测：

所述预测模块，具体用于将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体；将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络，提取特征，输出不同尺度的特征图；采用特征金字塔对不同尺度的特征进行融合，得到2D多通道的特征图；利用所述2D多通道的特征图，对待预测层目标位置进行预测，得到目标位置预测结果。

7.根据权利要求6所述的装置，其特征在于，还包括：训练模块，用于训练所述用于目标位置预测的神经网络模型；

所述训练模块通过如下方式训练所述用于目标位置预测的神经网络模型：

所述训练模块，具体用于获取标注数据，其中，所述标注数据包括多段视频和每段所述视频每一帧感兴趣目标的编号及位置，其中所述位置包括边界框；对所述标注数据进行抽取，生成训练数据，所述训练数据包括N对数据单元，每一对所述数据单元包括一个输入视频片段和多组与所述输入视频片段对应的标注；利用所述训练数据训练所述用于目标位置预测的神经网络模型。

8.根据权利要求7所述的装置，其特征在于，所述训练模块通过如下方式生成输入视频片段：

所述训练模块，具体用于在在原视频V按预设方式选取开始点t₁和序列长度K后，生成输入视频片段{V[t₁-K],…,V[t₁-1],V[t₁]}。

9.根据权利要求7所述的装置，其特征在于，所述训练模块通过如下方式生成标注：

所述训练模块，具体用于对每个待预测时间间隔t∈{1,4,8,16,32}，找到视频t₁+t时刻的感兴趣目标的标注，获取所有目标的位置，并根据目标的编号判定t₁时刻出现的每个目标是否出仍然在视频中，移除新出现目标的位置，得到之前视频中的目标在t时刻后所有感兴趣目标的位置。

10.根据权利要求7所述的装置，其特征在于，所述训练模块通过如下方式利用所述训练数据训练所述用于目标位置预测的神经网络模型：

所述训练模块，具体用于利用模型预测与真实值的差异作为监督信号，采用梯度下降的方法进行优化。