CN107506333A

CN107506333A - 一种基于自运动估计的视觉测距算法

Info

Publication number: CN107506333A
Application number: CN201710686867.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-12-22

Abstract

本发明提出一种基于视觉自运动估计的测距算法，其主要内容包括：主要包括自运动密度估计、轨迹优化、自运动估计自举学习、场景流预测进行内省推理，其过程为，把自运动回归任务作为密度估计问题，通过跟踪自运动在图像中引起的显着特征，学习这些从跟踪特征的自运动范围内概率质量的映射，提出了一种可训练的视觉自运动学习结构，通过混合密度网络(MDN)将光学向量映射到自运动密度估计，通过条件变分自编码器(C‑VAE)，根据自运动估计和输入的特征位置为场景流提供的内省推理，预测实际轨迹，为工程领域的新设计，以及定位领域的创新解决方案做了进一步贡献。

Description

一种基于自运动估计的视觉测距算法

技术领域

本发明涉及视觉测距领域，尤其是涉及了一种基于自运动估计的视觉测距算法。

背景技术

视觉测距算法广泛应用于汽车预警、军事、工程建设、机器人、定位等领域。具体地，在汽车预警领域，通过视觉测距算法可以具体计算出行车轨迹，在行车记录仪中使用测距算法，可以计算汽车障碍物的距离，有利于汽车驾驶。而在军事领域，利用视觉测距算法，可以记录前进轨迹，并预测敌人活动范围。在机器人领域，根据视觉测距算法，机器人在行走过程中可以更好的避开障碍物。另外，在定位领域，视觉测距算法可以给出更为精确的位置信息。由于目前的测距系统，大多只采用单一的传感器，并且对其模型具有强烈的依赖性，对数据泛化性能没有保障，因此，要保证测距结果的确定性尚且存在一定的挑战。

本发明提出了一种基于自运动估计的视觉测距算法，把自运动回归任务作为密度估计问题，通过跟踪自运动在图像中引起的显着特征，学习这些从跟踪特征的自运动范围内概率质量的映射。本发明提出了一种可训练的视觉自运动学习结构，通过混合密度网络(MDN)将光学向量映射到自运动密度估计，通过条件变分自编码器(C-VAE)，根据自运动估计和输入的特征位置为场景流提供的内省推理，预测实际轨迹，为工程领域的新设计，以及定位领域的创新解决方案做了进一步贡献。

发明内容

针对视觉测距，提出了一种视觉自运动学习结构，根据自运动估计和输入的特征位置为场景流提供的内省推理，预测实际轨迹，为工程领域的新设计，以及定位领域的创新解决方案做了进一步贡献。

为解决上述问题，本发明提供一种基于自运动估计的视觉测距算法。其主要内容包括：

(一)自运动密度估计；

(二)轨迹优化；

(三)自运动估计自举学习；

(四)场景流预测进行内省推理。

其中，所述的自运动密度估计，联合概率密度p(x,z)分解为p(z|x)和p(x)两个项的乘积，p(z|x)是目标姿态z∈SE(3)从稀疏光流获得的输入对应特征x＝(x,△x)的条件密度，其中SE(3)为李群，条件密度p(z|x)预测给定新值x的可能值范围z，p(x)是输入数据x的无条件密度，无条件密度p(x)＝∑_zp(x,z)dz提供训练模型捕获的预测效果，估计自运动信度的关键是能够准确预测给定的输入特征x和流量Δx引起的姿态估计条件概率分布p(z|x)，由于它具有强大而丰富的建模能力，故采用混合密度网络(MDN)用参数来表示条件密度估计。

其中，所述的混合密度网络，是一种端对端可训练的密度估计技术，利用传统的神经网络来回归生成模型的参数，神经网络加上高斯混合模型中丰富的概率模型，模拟视觉自运动等反演问题中产生的多值或多模态信度，在每个输入流F中，通过目标跟踪算法提取特征x_i，目标姿态数据z_i的条件概率密度表示为K个高斯成分的凸面组合，目标姿态z_i由等式(1)得出：

其中，π_k(x)是高斯混合模型中规定的第k个组件的混合系数，高斯核通过其平均向量μ_k(x)和对角线协方差σ_k(x)参数化，参数π_k(x),μ_k(x),σ_k(x)是x的一般连续函数，将这些参数建模，作为x输入传统神经网络后的输出，神经网络的输出约束如下：混合系数的总和必须为1，即∑_Kπ_k(x)＝1，其中0≤π_k(x)≤1，这个过程通过softmax激活函数来完成：

方差σ_k(x)在等式(3)中通过指数激活为正：

模型通过最大化数据的对数似然或者最小化负对数似然进行端对端学习，其中负对数似然表示为：

给定F的输入特征轨迹(x₁,…x_F)和预期自运动估计z，结合密度乘积，从每个个体流向量x_i获得自运动密度估计p(z_i|x_i)，为了保持密度乘积的易处理性和之后的轨迹优化，通过以下等式：

把每个特征对应的最大混合系数进行平均和协方差处理。

其中，所述的自运动估计器，在原始相机图像序列上通过目标跟踪算法提取特征轨迹x＝(x,△x)，输入基于密度的自运动估计器，在所输入的图像中，输入的特征位置和流向量的尺寸被规范为[-1；1]，用一个比例因子来评估位于7层金字塔尺度上的稀疏LK光流算法，随着特征的提取，训练中相应的机器人姿势被同步并记录在李群SE(3)里，输入目标跟踪算法的特征，用于训练相对姿态估计被参数化为其中伴随一个欧几里德平移向量和一个欧拉旋转矢量

进一步地，所述的轨迹优化，引入了一个次级优化，它将局部目标和全局目标最小化，全局目标是最小化整体轨迹和通过局部优化产生的回归姿态估计获得的轨迹之间的误差，全局部目标为：

是通过整合每一组窗口上独立回归估计的整体轨迹误差，是帧到帧之间的自运动估计，t是混合密度网络函数中F的回归目标/输出，是通过整合帧到帧之间个体回归自运动估计的整体轨迹预测，定义为

其中，所述的优化，将局部和全局损失调整为具有高灵敏性的单个目标损失权重参数，训练期间的局部自运动估计和全局轨迹的单次联合优化具有足够的收敛性，将培训分为两个阶段，在第一阶段保持快速收敛率，在第二阶段，需要几十次迭代，获得足够准确的自运动轨迹，为了优化第二阶段中较大的时间窗口，将批量大小设置为1000个帧到帧图像匹配，并再次从训练集中随机抽取样本，由于窗口和内存限制，在CPU上训练这个阶段，设置为100个时间段，每个时间段约需要30秒，为了更快地收敛，令全局轨迹的损失权重增加到100，剩余的损失权重保持不变。

进一步地，所述的自运动估计自举学习，在目前的测距估计方法中，开环链中的不确定性以无界的方式增长，校准错误最终导致了总体错误的发生，相对姿态估计存在固有偏置，尽管GPS被噪声干扰，但其提供的传感器测量与开环测距链互补，为了维持测距估计，融合这两个测量模式的概率恢复一个准确的轨迹估计，在自我监督或自举学习范例内，从机器人融合其他传感器的模式间接恢复训练数据，通过这种融合和优化姿态估计z，恢复输入和输出之间的关系以训练一个全新的传感器的视觉自运动。

其中，所述的网络训练，所提出的架构由一组完全连接的堆叠层组成，之后是一个具有32个隐藏单元和5个混合元件(K)的混合密度网络，每个初始完全连接层实施双曲正切函数激活，丢失层的丢失率为0.1，混合密度网络的最终输出层(a^π,a^μ,a^σ)由(O+2)*K的输出组成，其中O是估计的所需状态数，网络训练后的损失对应的权重分别为10，0.1，1，其中为条件变分自编码器的损失，提供100个帧到帧的后续图像对组成训练数据，每个图像对大约由50个随机抽样通过算法特征匹配组。

其中，所述的轨迹融合，为了优化姿态图，使用GTSAM来构建姿态优化的基本要素图，从帧到帧自运动获得的测距约束作为一个6自由度约束参数被并入李群SE(3)，SE(3)由1*10^-3拉德旋转噪声和5*10^-2的平移噪声组成，与典型的自主导航解决方案一样，为了更正开环测距链中发生的长期漂移，以GPS的形式更新测量，仅在每150帧内并入之前的绝对更新，在0.01米之前弱平移，随着测量的流式传输，逐步添加和解决约束，每10帧更新一次，所提出的混合密度网络在欧拉角被参数化，但是轨迹集成模块将四元数的旋转矢量进行参数化，使长期轨迹估计具有鲁棒性。

进一步地，所述的内省推理场景流预测，通过条件变分自编码器恢复由自运动本身引起的流，通过反演回归问题，开发一个生成模型，其能够预测可能性最大的流并据此给定一个自运动估计生成z以及特征位置x，提出一个场景流特定的自动编码器，由传感器观察到的隐式自运动进行编码，同时推理每个跟踪特征的潜在深度，并在等式(7)中通过指定的辅助损失来合并这个附加模块：

通过这个降噪自动编码器模型，获得一个异常值存在的内省机制。

附图说明

图1是本发明一种基于自运动估计的视觉测距算法的系统流程图。

图2是本发明一种基于自运动估计的视觉测距算法的轨迹优化图。

图3是本发明一种基于自运动估计的视觉测距算法的融合轨迹流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于自运动估计的视觉测距算法的系统流程图。主要包括自运动密度估计、轨迹优化、自运动估计自举学习、场景流预测进行内省推理。

其中，所述的混合密度网络，混合密度网络是一种端对端可训练的密度估计技术，利用传统的神经网络来回归生成模型的参数，神经网络加上高斯混合模型中丰富的概率模型，模拟视觉自运动等反演问题中产生的多值或多模态信度，在每个输入流F中，通过目标跟踪算法提取特征x_i，目标姿态数据z_i的条件概率密度表示为K个高斯成分的凸面组合，目标姿态z_i由等式(1)得出：

方差σ_k(x)在等式(3)中通过指数激活为正：

把每个特征对应的最大混合系数进行平均和协方差处理。

图2是本发明一种基于自运动估计的视觉测距算法的轨迹优化图。第一列显示局部优化的最终解决方案，尽管损失已经最小化，但是合成的轨迹依然有偏差，并且与预期的结果不相符。第二，第三和第四列显示了第二阶段全局目标最小化后，合成的轨迹逐步改进，与地面真实轨迹匹配度更高。

其中，所述的优化，将局部和全局损失调整为具有高灵敏性的单个目标损失权重参数，训练期间的局部自运动估计和全局轨迹的单次联合优化具有足够的收敛性，将培训分为两个阶段，在第一阶段保持快速收敛率，在第二阶段，需要几十次迭代，获得足够准确的自运动轨迹，为了优化第二阶段中较大的时间窗口，将批量大小设置为1000个帧到帧图像匹配，并再次从训练集中随机抽取样本，由于窗口和内存限制，在CPU上训练这个阶段，设置为100个时间段，每个时间段大约需要30秒，为了更快地收敛，令全局轨迹的损失权重增加到100，剩余的损失权重保持不变。

图3是本发明一种基于自运动估计的视觉测距算法的融合轨迹流程图。通过融合来自其他传感器源(如GPS等)的信息，来监督新摄像机传感器中所提出的自运动回归任务，最后回复出准确的轨迹估计。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于自运动估计的视觉测距算法，其特征在于，主要包括自运动密度估计(一)；轨迹优化(二)；自运动估计自举学习(三)；场景流预测进行内省推理(四)。

2.对于权利要求书1所述的自运动密度估计(一)，其特征在于，联合概率密度p(x,z)分解为p(z|x)和p(x)两个项的乘积，p(z|x)是目标姿态z∈SE(3)从稀疏光流获得的输入对应特征x＝(x,△x)的条件密度，其中SE(3)为李群，条件密度p(z|x)预测给定新值x的可能值范围z，p(x)是输入数据x的无条件密度，无条件密度p(x)＝∑_zp(x,z)dz提供训练模型捕获的预测效果，估计自运动信度的关键是能够准确预测给定的输入特征x和流量Δx引起的姿态估计条件概率分布p(z|x)，由于它具有强大而丰富的建模能力，故采用混合密度网络(MDN)用参数来表示条件密度估计。

3.基于权利要求书2所述的混合密度网络，其特征在于，混合密度网络是一种端对端可训练的密度估计技术，利用传统的神经网络来回归生成模型的参数，神经网络加上高斯混合模型中丰富的概率模型，模拟视觉自运动等反演问题中产生的多值或多模态信度，在每个输入流F中，通过目标跟踪算法提取特征x_i，目标姿态数据z_i的条件概率密度表示为K个高斯成分的凸面组合，目标姿态z_i由等式(1)得出：

<mrow> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mi>k</mi> <mi>&pi;</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mi>i</mi> <mi>&pi;</mi> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

方差σ_k(x)在等式(3)中通过指数激活为正：

<mrow> <msub> <mi>&sigma;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mi>k</mi> <mi>&sigma;</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>a</mi> <mi>k</mi> <mi>&mu;</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

把每个特征对应的最大混合系数进行平均和协方差处理。

4.基于权利要求书3所述的自运动估计器，其特征在于，在原始相机图像序列上通过目标跟踪算法提取特征轨迹x＝(x,△x)，输入基于密度的自运动估计器，在所输入的图像中，输入的特征位置和流向量的尺寸被规范为[-1；1]，用一个比例因子来评估位于7层金字塔尺度上的稀疏LK光流算法，随着特征的提取，训练中相应的机器人姿势被同步并记录在李群SE(3)里，输入目标跟踪算法的特征，用于训练相对姿态估计被参数化为其中伴随一个欧几里德平移向量和一个欧拉旋转矢量

5.基于权利要求书1所述的轨迹优化(二)，其特征在于，引入了一个次级优化，它将局部目标和全局目标最小化，全局目标是最小化整体轨迹和通过局部优化产生的回归姿态估计获得的轨迹之间的误差，全局部目标为：

6.基于权利要求书5所述的优化，其特征在于，将局部和全局损失调整为具有高灵敏性的单个目标损失权重参数，训练期间的局部自运动估计和全局轨迹的单次联合优化具有足够的收敛性，将培训分为两个阶段，在第一阶段保持快速收敛率，在第二阶段，需要几十次迭代，获得足够准确的自运动轨迹，为了优化第二阶段中较大的时间窗口，将批量大小设置为1000个帧到帧图像匹配，并再次从训练集中随机抽取样本，由于窗口和内存限制，在CPU上训练这个阶段，设置为100个时间段，每个时间段约需要30秒，为了更快地收敛，令全局轨迹的损失权重增加到100，剩余的损失权重保持不变。

7.基于权利要求书1所述的自运动估计自举学习(三)，其特征在于，在目前的测距估计方法中，开环链中的不确定性以无界的方式增长，校准错误最终导致了总体错误的发生，相对姿态估计存在固有偏置，尽管GPS被噪声干扰，但其提供的传感器测量与开环测距链互补，为了维持测距估计，融合这两个测量模式的概率恢复一个准确的轨迹估计，在自我监督或自举学习范例内，从机器人融合其他传感器的模式间接恢复训练数据，通过这种融合和优化姿态估计z，恢复输入和输出之间的关系以训练一个全新的传感器的视觉自运动。

8.基于权利要求书7中所述的网络训练，其特征在于，所提出的架构由一组完全连接的堆叠层组成，之后是一个具有32个隐藏单元和5个混合元件(K)的混合密度网络，每个初始完全连接层实施双曲正切函数激活，丢失层的丢失率为0.1，混合密度网络的最终输出层(a^π,a^μ,a^σ)由(O+2)*K的输出组成，其中O是估计的所需状态数，网络训练后的损失对应的权重分别为10，0.1，1，其中为条件变分自编码器的损失，提供100个帧到帧的后续图像对组成训练数据，每个图像对大约由50个随机抽样通过算法特征匹配组。

9.基于权利要求书7所述的轨迹融合，其特征在于，为了优化姿态图，使用GTSAM来构建姿态优化的基本要素图，从帧到帧自运动获得的测距约束作为一个6自由度约束参数被并入李群SE(3)，SE(3)由1*10^-3拉德旋转噪声和5*10^-2的平移噪声组成，与典型的自主导航解决方案一样，为了更正开环测距链中发生的长期漂移，以GPS的形式更新测量，仅在每150帧内并入之前的绝对更新，在0.01米之前弱平移，随着测量的流式传输，逐步添加和解决约束，每10帧更新一次，所提出的混合密度网络在欧拉角被参数化，但是轨迹集成模块将四元数的旋转矢量进行参数化，使长期轨迹估计具有鲁棒性。

10.基于权利要求书1所述的内省推理场景流预测(四)，其特征在于，通过条件变分自编码器恢复由自运动本身引起的流，通过反演回归问题，开发一个生成模型，其能够预测可能性最大的流并据此给定一个自运动估计生成z以及特征位置x，提出一个场景流特定的自动编码器，由传感器观察到的隐式自运动进行编码，同时推理每个跟踪特征的潜在深度，并在等式(7)中通过指定的辅助损失来合并这个附加模块：