CN111414975A

CN111414975A - 一种基于移动摄像机和神经网络的运动矢量预测方法

Info

Publication number: CN111414975A
Application number: CN202010261812.7A
Authority: CN
Inventors: 刘波; 薛园园
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-05
Filing date: 2020-04-05
Publication date: 2020-07-14
Anticipated expiration: 2040-04-05
Also published as: CN111414975B

Abstract

本发明公开了一种基于移动摄像机和神经网络的运动矢量预测方法，属于图像处理和人工智能领域，包括：光流图图像数据和相机运动参数标签准备；利用ResNet50构建网络，并在其后添加六个全连接层，分别用于六个参数预测；通过采取对参数进行分类后回归的方式求得均方误差，与交叉熵损失按照一定的权重加权求和，计算损失；利用反向传播算法不断更新网络参数完成网络训练；利用训练完毕的网络得到移动相机的运动参数并求解背景运动，剔除场景中背景运动信息，得到运动物体的真实光流。此模型训练采用数据集为真实场景中的数据制作，网络采用分类后回归的方式提高了学习速率和精度，具有很好的普适性和广阔的应用前景。

Description

一种基于移动摄像机和神经网络的运动矢量预测方法

技术领域

本发明属于图像处理和人工智能领域，涉及深度学习方法。

背景技术

人们看到的场景是真实立体场景在视网膜上呈现出的二维图像。运动场景在视网膜上将会产生光流，人类从光流中来感知物体的运动。发育心理学告诉我们，婴儿在发育早期首先发展出运动感知能力，能感知到运动物体，随后才发展出对物体的识别能力。由于在观察运动场景时人的头部和身体自身一般也在运动，导致物体运动引起的光流和人自身运动引起的光流混合在一起，需要从混合光流中将人自身运动和物体的运动区分开来，才能感知运动物体。人大脑中的前庭装置可以感知人自身运动，所以可以有效地从混合光流中去除人自身运动引起的全局光流，从剩下的物体运动光流中提取出运动物体，进而发展出物体识别功能。

受此启发，本专利研究如何从运动场景的光流中去除相机运动引起的全局光流，从而提取出运动物体，为进一步学习无监督特征来进行物体识别打下基础。相机运动引起的全局光流有一定的模式，比如相机拉近、旋转等运动所生成的全局光流。为了模拟前庭装置的功能，本专利设计了一个卷积神经网络，从场景的光流中根据其全局光流模式来预测相机自身的运动，然后就可以求出对应的全局光流，通过剔除全局运动背景光流从而提取出运动物体。

发明内容

启发于婴儿观察运动的方式，通过观察发现人类观察运动的呈现方式和光流相似，利用移动的相机代替人类自身运动的方式，采用光流的方法模拟人类感知运动。由于深度学习具有非常强大的拟合能力，为了能更好的模拟人脑感知运动信息的机制，使用卷积神经网络来预测场景中相机的运动参数，并利用参数信息进行场景中动态背景的运动矢量提取以及剔除背景的运动信息之后物体的运动矢量提取。

本发明的采用的技术方案为一种基于移动摄像机和神经网络的运动矢量预测方法，该方法的实现过程如下：

具体技术方案如下：

第一步，数据集制作；第二步，网络构建；第三步，损失函数设计；第四步，网络训练，将第一步中的数据集输入到第二步构建的网络中，通过第三步设计的损失函数计算网络损失，然后再进行反向传播，对神经网络进行网络参数的优化，得到优化之后的模型；第五步，运动矢量提取，使用第四步获取的网络模型进行相机运动参数预测，得到相机运动参数，然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流，通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。

如图1所示为算法具体流程图。

所述方法包括以下步骤：

步骤1，数据集制作，包括光流图图像数据和相机运动参数标签数据；

所述光流图图像数据的制作具体为：

原图像，对应的深度信息，以及拍摄该图像的相机内参数；

对原图像进行任意的旋转平移操作，得到新的图像，其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数，取值范围在[-A,A]范围内作为连续数值标签，将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签，如-A对应离散数值标签0；

根据像素点在原图像和新图像上的位移变化量得到光流图像；

所述相机运动参数数据即为旋转平移参数，参数值表示包括连续数值标签和离散数值标签。

步骤2，网络构建，构建的网络是用于根据输入的光流图图像数据预测相机的运动参数。

网络结构采用ResNet50残差网络进行特征提取，并在网络最后添加六个并列的全连接层，每个全连接层对应一个旋转平移参数。其中，每个全连接层的维度数量设置为2A+1，每一个全连接层用于对提取到的特征进行预测，得到旋转平移参数在每个维度上的预测值。

步骤3，网络损失函数设计，具体内容如下：

Loss＝Cls(y,y′)+α·MSE(y,y′) (1)

Loss表示网络整体的交叉熵损失函数，Cls(y,y′)表示交叉熵损失函数，MSE(y,y′)表示均方误差损失函数，α是用来调节均方误差损失的影响权重的超参数；

交叉熵损失函数的公式如下所示：

其中，Cls(y,y′)表示交叉熵损失函数，T表示样本数量也就是全连接层的维度数量2A+1，y′_j表示全连接层第j个维度上的离散数值标签，S_j代表在全连接层进行softmax分类得到第j个维度的概率值，取值范围在(0,1)。

均方误差损失函数的公式如下所示：

其中，MSE(y,y′)表示均方误差，y_i是全连接层第i个维度的真实值也就是连续数值标签，y′_i是全连接层第i个维度的预测值。

步骤4，网络训练部分，具体内容如下：

将光流图图像训练数据和相机运动参数标签数据输入网络，对基础网络进行全连接之后，每一个全连接层一方面对预测数值和离散数值标签进行交叉熵损失计算。另一方面，对全连接层结果进行softmax，将全连接层中学习的预测数值映射成(0,1)之间的概率值，每个概率值乘以对应离散数值标签并求和得到参数的期望值，映射到[0,2A]区间范围内，然后减去A，最终映射到[-A,A]区间范围内，最终取得的预测值和连续数值标签进行MSE均方误差损失计算。均方误差与前面的交叉熵损失按照一定的权重加权求和，对最终的损失梯度进行反向传播，保存最后的网络模型。

步骤5，运动矢量提取部分，具体内容如下：

采用真实场景中的数据(包括相机的运动和物体的运动)作为测试，利用网络模型进行特征提取，获得相机运动参数；运用相机运动参数求解场景中由于相机运动导致的全局运动；根据场景中整体运动光流和提取的全局运动光流进行相减操作，并设定合适的阈值，目的是为了将运动矢量距离和角度低于阈值的部分被剔除，只留下大于阈值部分的运动光流，也就是运动物体的运动矢量信息。

如图2所示为运动物体提取方法图。

有益效果：

数据集的真实性以及各个角度和位移的自由转换让学习结果有很好的普适性，网络采用在分类的情况下进行参数精细回归的方式提高了学习速率和学习精度。

附图说明

图1本发明方法流程图

图2本发明所述运动物体提取方法图

图2(a)视频帧序列

图2(b)整体光流图

图2(c)背景光流图

图2(d)目标光流图

图3本发明所述损失函数的网络学习框架图

图4本发明所述运动物体提取结果图

图4(a)t时刻图像

图4(b)t+1时刻图像

图4(c)运动物体光流图

具体实施方式

本发明使用到的实验环境资源如下所述，采用CPU为E5-2630,GPU为Tesla K80的设备用于卷积神经网络的加速训练,使用操作系统为Ubuntu16.04、CUDA版本CUDA8.0、Python版本2.7、Pytorch版本Pytorch0.4.1等。

具体实验步骤细节如下：

步骤一，制作训练数据集；

读取KITTI自动驾驶数据集视频序列,并制作仅包含相机运动导致的背景运动场景，随机产生的参数范围中，相机平移参数T在[-20,20]dm范围，旋转参数R在[-20,20]度之间。每个图像随机转换生成成20个图像对，生成数据集的光流图片共53040张。方法如下：

步骤二，网络构建；

采用Pytorch学习框架对ResNet50骨干网络进行搭建，最后添加六个并列的全连接层，其中，每个全连接层的维度数量设置为41，也就是将全部[-20,20]共41个数值每个分为一组，全连接层的维度就是41。为了与其他实验结果做对比，使用AlexNet网络和ResNet50做对比实验，并在AlexNet的最后添加六个全连接层，和ResNet50一样每个全连接层保持41维。

一方面根据设置的41个分组参数进行分类，将分类结果映射到[0,40]范围，计算交叉熵损失。另一方面，对全连接层结果进行softmax，将全连接层中学习的数值映射成(0,1)之间的概率值，每个概率值乘以所在位置的数值求得期望，映射到[0,40]区间范围内，然后减去20，最终映射到[-20,20]区间范围内，计算MSE均方误差损失。均方误差与前面的交叉熵损失按照一定的权重加权求和，对最终的损失梯度进行反向传播，保存最后的网络模型。网络学习框架如图3所示。

步骤三，进行网络训练；

网络的训练是在单个Tesla K80 GPU上进行的，采用自适应学习法Adam训练网络，网络训练所有样本训练20次也就是epoch设定为20，批大小batch_size为16,设置初始学习率lr为0.001。利用反向传播算法不断更新网络参数，一个训练过程能够持续一天左右，并在训练结束保存最后的网络模型。

步骤四，利用训练得到的网络模型进行特征提取；

使用步骤三保存好的网络结构以及参数进行数据的特征向量提取，并且在本步骤中不再进行网络模型参数的更新，而是直接冻结所有层的参数，让所有的数据只进行前向传播来获取到它们所对应的特征向量。

步骤五，场景中运动物体提取；

利用步骤四中提取到的表示相机运动参数的特征向量可以运用在求解运动物体光流向量的任务中：利用特征向量求解场景中背景运动，使用合适的阈值处理剔除场景中背景运动信息得到运动物体的真实光流。

为了说明本发明的有效性，做了以下实验，具体为：

实验一，输入采用训练数据集

网络训练步骤一制作训练数据集中的算法进行数据输入，根据模型训练结果提取相机运动参数。采用结果采用平均误差MAE(Mean Absolute Error)来对整体损失进行评判，采用标准差的方式衡量数据的离散度能更好地反应预测运动参数的实际情况。其中公式定义如下：

上述平均误差计算公式中，h⁽ⁱ⁾表示网络训练得到的预测值，在这里我们用训练的六个参数损失值大小表示；x⁽ⁱ⁾表示样本的真实值，我们用样本真实值的损失表示，即默认为零；n表示样本数量，本文训练的六个参数即样本数量。

以平均误差准大小为评价指标的实验结果如下表1所示：

表1实验结果对比

以平均误差准大小为评价指标的实验结果如下表2所示：

表2实验结果对比

以平均误差准大小为评价指标的实验结果如下表3所示：

表3实验结果对比

在表1和表2中，评价标准均是以超参数α的取值大小作为参考，两个表格均设置了四组不同的对比试验。从两个表格中的数据，我们可以发现，在网络超参数α取值分别为0,0.1,0.01,0.001之间时，超参数取值为0.001的时候损失的平均误差最低。从表格3中对比两个网络我们又发现，ResNet50网络训练得到的损失平均误差达为3.781，远远低于使用AlexNet进行训练的平均损失误差10.309，我们可以得出这样的结论：在选取的两个骨架网络ResNet50和AlexNet之间，ResNet50网络有着更好的学习效果。

实验二，输入数据采用真实视频序列和步骤五中提取出的相机运动参数

采用真实场景中的数据(包括相机的运动和物体的运动)作为测试，利用网络模型进行特征提取，获得相机运动参数。采取仿射变换生成由于相机运动造成的全局运动图像光流信息；根据场景中整体运动光流和提取的全局运动光流进行相减操作，并设定合适的阈值，只留下大于阈值部分的运动光流，也就是真实运动物体光流信息。

运动物体提取效果如图4所示。

通过肉眼观察进行比较从而说明本发明的有效性。

Claims

1.一种基于移动摄像机和神经网络的运动矢量预测方法，其特征在于包括以下步骤：

步骤1，数据集制作，包括光流图图像数据制作和相机运动参数数据制作；

步骤2，网络构建，用于根据输入的光流图图像数据预测相机的运动参数，网络结构采用ResNet50残差网络进行特征提取，并在网络最后添加六个并列的全连接层，每个全连接层单独进行参数预测，其中，每个全连接层的维度数量设置为2A+1，每一个全连接层用于对提取到的特征进行预测，得到旋转平移参数在每个维度上的预测值；

步骤3，损失函数设计；

步骤4，网络训练，将步骤1中的数据集输入到步骤2构建的网络中，通过步骤3损失函数计算网络损失，然后再进行反向传播，对神经网络进行网络参数的优化，得到优化之后的模型；

步骤5，运动矢量提取，利用步骤4中的训练模型进行相机运动参数预测，得到相机运动参数，然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流，通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。

2.根据权利要求1所述的一种基于移动摄像机和神经网络的运动矢量预测方法，其特征在于：

步骤1中所述光流图图像数据的制作需要原图像，原图像对应的深度信息，以及拍摄该图像的相机内参数，制作具体为：对原图像进行任意的旋转平移操作，得到新的图像，其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数，取值范围在[-A,A]范围内作为连续数值标签，将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签，如-A对应离散数值标签0；根据像素点在原图像和新图像上的位移变化量得到光流图像；

3.根据权利要求1所述的一种基于移动摄像机和神经网络的运动矢量预测方法，其特征在于：步骤3所述的网络损失函数设计，具体内容如下：

Loss＝Cls(y,y′)+α·MSE(y,y′) (1)

交叉熵损失函数的公式如下所示：

均方误差损失函数的公式如下所示：

4.根据权利要求1所述的一种基于移动摄像机和神经网络的运动矢量预测方法，其特征在于：步骤4所述的网络训练部分，具体内容如下：