CN113340324B

CN113340324B - 一种基于深度确定性策略梯度的视觉惯性自校准方法

Info

Publication number: CN113340324B
Application number: CN202110583354.3A
Authority: CN
Inventors: 王立辉; 祝文星; 陈飞鹏; 唐兴邦
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-04-29
Anticipated expiration: 2041-05-27
Also published as: CN113340324A

Abstract

一种基于深度确定性策略梯度的视觉惯性自校准方法，具体包括以下步骤：(1)建立相机和IMU测量误差模型，利用非线性优化算法求解相机‑IMU参数；(2)计算Fisher信息矩阵，并分析视觉惯性标定系统可观测性；(3)将标定过程建模为马尔可夫决策过程，明确智能体的状态空间、动作空间、状态转移函数和奖励函数；(4)设计基于深度确定性策略梯度的强化学习标定算法，确定不可观测的离散运动序列，从校准数据集筛选出可观测子序列用于参数标定。该方法能有效简化标定过程和降低计算量，无需专业的人工标定和精准的初始化参数，可以智能化选择完全可观测的动作序列进行参数标定。

Description

一种基于深度确定性策略梯度的视觉惯性自校准方法

技术领域

本发明涉及传感器技术领域，特别是涉及一种基于深度确定性策略梯度的视觉惯性自校准方法。

背景技术

精确的相机-IMU校准参数对视觉惯性同步定位与地图构建系统至关重要，不准确校准参数将降低系统性能，甚至定位失效。在智能体视觉惯性导航系统长时间运行的情况下，需要对视觉惯性自校准，补偿随着时间的推移而造成的校准误差，如传感器碰撞、重新安装和IMU温漂等。自校准在智能体导航系统中引起了极大的研究热潮。

视觉惯性传感器标定一般采用特定的离线例程或者依靠充分激励运动的自校准算法。现有智能体视觉惯性传感器校准存在以下不足：1.离线校准算法繁琐且耗时，需要专业技术人员反复移动标定板，并且在相机-IMU传感器碰撞或重新安装后需要重复标定。2.基于非线性滤波的视觉惯性在线标定算法高度依赖于准确的初始化参数，在标定同等数量参数时，在线自校准需要更为复杂的初始化过程，计算成本更高。3.使得相机-IMU标定参数空间完全可观测的校准数据集的收集并非易事。

针对离线标定过程复杂、在线标定计算量大的问题，提出一种基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)的智能视觉惯性标定方法。利用Fisher信息矩阵分析视觉惯性标定系统可观测性，将标定过程建模为马尔可夫决策过程，设计基于深度确定性策略梯度的强化学习标定算法，确定不可观测的离散运动序列，从校准数据集筛选出可观测子序列用于参数标定。该方法能有效简化标定过程和降低计算量，无需专业的人工标定和精准的初始化参数，可以智能化选择完全可观测的动作子序列进行参数标定，为视觉惯性导航系统长时间自主运行提供高精度的标定参数。

发明内容

本发明针对视觉惯性离线标定过程复杂、在线标定计算量大的问题，本发明提供一种基于深度确定性策略梯度的视觉惯性自校准方法，该方法能有效简化标定过程和降低计算量，无需专业的人工标定和精准的初始化参数，可以智能化选择完全可观测的动作序列进行参数标定。

本发明提供一种基于深度确定性策略梯度的视觉惯性自校准方法，其特征在于：包括以下步骤：

步骤一，建立相机和IMU测量误差模型，利用非线性优化算法求解相机-IMU参数；

步骤二，计算Fisher信息矩阵，并分析视觉惯性标定系统可观测性；

步骤三，将标定过程建模为马尔可夫决策过程；

步骤四，设计基于深度确定性策略梯度的强化学习标定算法，从惯性数据集筛选出可观测子片段进行参数标定。

作为本发明进一步改进，步骤一的具体方法如下：

S1.1：建立相机误差模型，由标准的相机针孔模型，世界坐标系下三维空间点

到相机二维像素平面点z_k，m＝(u，v)^T转换关系为：

其中，Z_c为比例因子，表示相机光心到图像平面的有效距离，在考虑图像畸变和图像白噪声后，参考点投影完整的相机针孔模型定义为

其中，f_p(·)为相机透视投影函数，t_k为IMU数据采样时间，t_d为IMU和相机之间的时间偏移，

为相机模型待标定的参数，T_IW为IMU到世界坐标系的变换矩阵，

相机到IMU的外参变换矩阵由相机到IMU的旋转变换矩阵R_CI和平移变换矩阵p_CI构成，相机内参矩阵

中f＝(f_u，f_v)为x轴和y轴上的归一化焦距，C＝(c_u，c_v)为像素平面的中心，

为零均值和标准差σ_C的高斯白噪声过程；

S1.2：建立IMU误差模型，建立陀螺仪和加速度计的误差模型为：

其中，

分别为陀螺仪和加速度计误差补偿后的旋转角速率和加速度，ω_WI(t)，a^W(t)分别为世界坐标系下实际测量的旋转角速率和加速度，S_ω，M_ω分别是陀螺仪的尺度误差和非正交误差，S_a，M_a分别是加速度计的尺度误差和非正交误差，T_g为重力敏感度即陀螺仪对加速度的敏感程度，

分别为陀螺仪和加速度计的随机游走误差，

分别为陀螺仪和加速度计的零均值高斯白噪声；

S1.3：非线性优化，参数标定估计器转化为非线性最小二乘优化问题，相机和IMU测量误差模型描述为X(t)＝f(Θ，t)+η形式，Θ是包含所有估计参数的矢量，t表示测量记录和模型评估的瞬间，η为零均值和方差σ²I的高斯白噪声过程，传感器i在[t₁，…，t_N]时刻的实际测量值为

其参数标定目标函数表述为：

IMU的偏置误差项为

偏置项的目标函数定义为

标定参数估计值由使得J最小的Θ确定，采用Levenberg-Marquardt算法进行非线性优化；

作为本发明进一步改进，步骤二的具体方法如下：

非线性优化根据初始估计值

并通过迭代优化

直到收敛，Levenberg-Marquardt算法需要误差项的雅可比矩阵之和G，迭代更新如式(7)所示

其中，T为误差协方差矩阵，

为当前估计

的误差值。G^TT^-1G可表示Fisher信息矩阵Fisher Information Matrix，FIM和估计协方差矩阵

的逆。令T^-1＝L^-1L为误差协方差矩阵的Cholesky分解，式(7)可重新定义为

采用QR分解；

LGH＝Q_nR_n (9)

其中Π为置换矩阵，Q_n是列正交的m×n矩阵，R_n是n×n上三角矩阵，式(8)转化为

在式(10)中R_n矩阵用来计算FIM和估计协方差

的逆，并进一步计算归一化协方差

视觉惯性标定参数空间的信息增益通过以下度量来评估；

使得H指标最小化的参数即为最大化信息增益，用于后续强化学习的修正反馈设计。

作为本发明进一步改进，步骤三的具体方法如下：

马尔可夫决策过程由每个时刻t的状态S_t∈S，动作A_t∈A，状态转移函数S_t+1＝f(S_t，A_t)和奖励函数R_t(S_t，A_t)定义，以视觉惯性标定系统为智能体，通过连续的动作来寻找视觉/IMU可观测的校准动作空间；

S3.1动作，为了得到视觉惯性传感器参数标定的可观测动作空间，使传感器平台进行相应的平移和旋转动作，其中，平移运动分为X轴，Y轴，Z轴运动，并根据移动的速度分为慢速和快速两种；旋转运动分为绕X轴，绕Y轴，绕Z轴运动，并根据旋转速度和旋转方向分为慢速、快速、顺时针、逆时针四种情况，定义的动作空间，一共包含20个基本动作库，停止动作是在完成所有参数的可观测校准空间后执行，强化学习框架从中选择建议的运动动作，由这些动作序列连续起来形成最终校准轨迹；

S3.2状态，视觉惯性标定过程的状态S_t定义为标定系统的各个参数Θ，并且参数会随着视觉惯性传感器随载体的运动进行更新；

S3.3状态转移函数，当智能体选择一个动作A_t时，状态转移函数S_t+1＝f(S_t，A_t)描述从当前状态S_t将转移到S_t+1的概率模型，当视觉惯性组件随载体执行正确的动作时，使得校准参数Θ被观察到；

S3.4奖励函数，奖励被视为采取行动后的反馈，在强化学习训练过程中，如果选择的动作能够将状态转移到更好的状态，则智能体将获得正的奖励；否则，将返回零奖励，奖励函数R_t(S_t，A_t)定义如下；

其中，

为待标定参数的可观测协方差，ε是使得校准参数空间可观测的隐式编码界限值，只有当标定参数协方差小于界限值，并能够生成可观测的校准轨迹时，智能体才能获得正的修正反馈。

作为本发明进一步改进，步骤四的具体方法如下：

在深度确定性策略梯度Deep Deterministic Policy Gradient，DDPG，使用卷积神经网络来模拟Q-learning函数，Q网络的参数是Θ^Q，使用目标函数J_β(μ)衡量一个策略μ的性能，定义如下。

其中，S是智能体的状态，根据智能体的行为策略，生成相应的状态路径，其概率分布函数Probability Distribution Function，PDF为p^β，Q^μ(S，μ(S))是策略μ和状态采样空间的分值函数，当前Q网络负责对当前状态S使用∈-贪婪法选择动作A，获得新状态S′和奖励R，将样本放入经验回放池，对经验回放池中采样的下一状态S″使用贪婪法选择动作A′，计算目标Q网络的Q值，当目标Q网络计算出目标Q值后，当前Q网络会进行网络参数的更新，并定期把最新网络参数复制到目标Q网络；

在基于深度确定性策略梯度的视觉惯性自校准算法中，DDPG创建两个神经网络，分别为在线网络即策略网络和目标网络即Q网络，将动作模型和奖励模型参数化为神经网络，每个模型包含编码状态和目前精简的信息，输入为动作历史序列A_0：t和校准状态序列S_0：t，全连接网络来预测当前的奖励R_t(S_0：t，A_0：t)；

Q网络和策略网络的训练过程如下；

训练一个小批量数据后，通过随机梯度下降Random Gradient Descent，SGD算法更新在线网络的参数，然后通过软更新算法更新目标网络的参数，软更新是一种运行平均算法；

其中，τ为0.001。

本发明具有的优点在于：

1、本发明提供一种基于深度确定性策略梯度模型的视觉惯性自校准算法，能够有效解决视觉惯性离线标定过程复杂、在线标定计算量大的问题。

2、本发明提供一种基于深度确定性策略梯度模型的视觉惯性自校准标定算法，分析视觉惯性标定系统的可观测性，确定不可观测的离散运动序列，采用深度确定性策略梯度智能选择可观测校准动作子序列进行参数标定。该方法能有效简化标定过程和降低计算量，无需专业的人工标定和精准的初始化参数，可以智能化选择完全可观测的动作序列进行参数标定，为视觉惯性导航系统长时间自主运行提供高精度的标定参数。

附图说明

图1是视觉惯性标定马尔可夫决策过程的动作空间示意图；

图2是视觉惯性标定马尔可夫决策过程的状态转移示意图；

图3是基于深度确定性策略梯度模型的视觉惯性自校准算法流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于深度确定性策略梯度模型的视觉惯性自校准算法，分析视觉惯性标定系统的可观测性，采用深度确定性策略梯度智能选择可观测校准动作子序列进行标定，为机器人视觉惯性导航系统长时间自主运行提供高精度的标定参数，有效解决视觉惯性离线标定过程复杂、在线标定计算量大的问题。

本申请基于深度确定性策略梯度模型的视觉惯性自校准算法流程图如图3所示，具体步骤如下：

步骤(1)所述的视觉惯性标定方法如下：

S1.1：建立相机误差模型。由标准的相机针孔模型，世界坐标系下三维空间点

到相机二维像素平面点z_k，m＝(u，v)^T转换关系为：

其中，Z_c为比例因子，表示相机光心到图像平面的有效距离。在考虑图像畸变和图像白噪声后，参考点投影完整相机针孔模型定义为

相机到IMU的外参变换矩阵由相机到IMU的旋转变换矩阵R_CI和平移变换矩阵P_CI构成。相机内参矩阵

中f＝(f_u，f_v)为x轴和y轴上的归一化焦距，C＝(c_u，c_v)为像素平面的中心。

为零均值和标准差σ_C的高斯白噪声过程。

S1.2：建立IMU误差模型。建立陀螺仪和加速度计的误差模型为：

其中，

分别为陀螺仪和加速度计误差补偿后的旋转角速率和加速度，ω_WI(t)，a^W(t)分别为世界坐标系下实际测量的旋转角速率和加速度，S_ω，M_ω分别是陀螺仪的尺度误差和非正交误差，S_a，M_a分别是加速度计的尺度误差和非正交误差。T_g为重力敏感度(陀螺仪对加速度的敏感程度)，

分别为陀螺仪和加速度计的随机游走误差，

分别为陀螺仪和加速度计的零均值高斯白噪声；

S1.3：非线性优化。参数标定估计器转化为非线性最小二乘优化问题，相机和IMU测量误差模型描述为X(t)＝f(Θ，t)+η形式，Θ是包含所有估计参数的矢量，t表示测量记录和模型评估的瞬间，η为零均值和方差σ²I的高斯白噪声过程，传感器i在[t₁，…，t_N]时刻的实际测量值为

其参数标定目标函数可以表述为：

IMU的偏置误差项为

偏置项的目标函数定义为

标定参数估计值由使得J最小的Θ确定，可采用Levenberg-Marquardt算法进行非线性优化。

步骤(2)所述的视觉惯性标定的可观测性分析，其具体方法如下：

非线性优化根据初始估计值

并通过迭代优化

直到收敛。Levenberg-Marquardt算法需要误差项的雅可比矩阵之和G，迭代更新如式(7)所示

其中，T为误差协方差矩阵，

为当前估计

的误差值。G^TT^-1G可表示Fisher信息矩阵(Fisher Information Matrix，FIM)和估计协方差矩阵

采用QR分解。

LGH＝Q_nR_n (9)

其中Π为置换矩阵，Q_n是列正交的m×n矩阵，R_n是n×n上三角矩阵，式(8)可转化为

在式(8)中R_n矩阵用来计算FIM和估计协方差

的逆，并进一步计算归一化协方差

视觉惯性标定参数空间的信息增益可以通过以下度量来评估。

使得H指标最小化的参数即为最大化信息增益，可以用于接下来强化学习的奖励设计。

步骤(3)所述的马尔可夫决策过程，其具体方法如下：

马尔可夫决策过程由每个时刻t的状态S_t∈S，动作A_t∈A，状态转移函数S_t+1＝f(S_t，A_t)和奖励函数R_t(S_t，A_t)定义。以视觉惯性标定系统为智能体，通过连续的动作来寻找视觉/IMU可观测的校准动作空间。

S3.1动作。为了得到视觉惯性传感器参数标定的可观测动作空间，可以使传感器平台进行相应的平移和旋转动作。其中，平移运动为{X轴，Y轴，Z轴}，并根据移动的速度分为慢速和快速两种；旋转运动为{绕X轴，绕Y轴，绕Z轴}，并根据旋转速度和旋转方向分为慢速、快速、顺时针、逆时针四种情况。我们定义的动作空间如图1所示，一共包含20个基本动作库，停止动作是在完成所有参数的可观测校准空间后执行。强化学习框架从中选择建议的运动动作，可以是平移和旋转运动的组合(如绕X轴的右螺旋运动)，由这些动作序列连续起来形成最终校准轨迹。

S3.2状态。视觉惯性标定过程的状态S_t可定义为标定系统的各个参数Θ，并且参数会随着视觉惯性传感器随载体的运动进行更新。

S3.3状态转移函数。当智能体选择一个动作A_t时，状态转移函数S_t+1＝f(S_t，A_t)描述从当前状态S_t将转移到S_t+1的概率模型。当视觉惯性组件随载体执行正确的动作时，使得校准参数Θ可以被观察到。如图2所示，圆圈对应可能的随机动作A_t(t＝1，2，…)，+R表示对这动作转换的奖励，正方形框表示待标定的参数f_x，f_y等，P为每个动作到某个状态的转移概率。

S3.4奖励函数。奖励可以被视为采取行动后的反馈。在强化学习训练过程中，如果选择的动作能够将状态转移到更好的状态，则智能体将获得正的奖励；否则，将返回零奖励。本文奖励函数R_t(S_t，A_t)定义如下。

其中，

为待标定参数的可观测协方差，ε是使得校准参数空间可观测的隐式编码界限值，只有当标定参数协方差小于界限值，并能够生成可观测的校准轨迹时，智能体才能获得正的奖励。

步骤(4)所述的基于深度确定性策略梯度的视觉惯性自校准算法，其具体方法如下：

在深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)，使用卷积神经网络来模拟Q-learning函数。Q网络的参数是Θ^Q，使用目标函数J_β(μ)衡量一个策略μ的性能，定义如下。

其中，S是智能体的状态，根据智能体的行为策略，生成相应的状态路径，其概率分布函数(Probability Distribution Function，PDF)为p^β，Q^μ(S，μ(S))是策略μ和状态采样空间的分值函数，当前Q网络负责对当前状态S使用∈-贪婪法选择动作A，获得新状态S′和奖励R。将样本放入经验回放池，对经验回放池中采样的下一状态S″使用贪婪法选择动作A′，计算目标Q网络的Q值，当目标Q网络计算出目标Q值后，当前Q网络会进行网络参数的更新，并定期把最新网络参数复制到目标Q网络。

在基于深度确定性策略梯度模型的视觉惯性自校准算法中，DDPG创建两个神经网络，分别为在线网络(策略网络)和目标网络(Q网络)。将动作模型和奖励模型参数化为神经网络，每个模型包含编码状态和目前精简的信息，输入为动作历史序列A_0：t和校准状态序列S_0：t，全连接网络来预测当前的奖励R_t(S_0：t，A_0：t)。

Q网络和策略网络的训练过程如下。

训练一个小批量数据后，通过随机梯度下降(Random Gradient Descent，SGD)算法更新在线网络的参数，然后通过软更新算法更新目标网络的参数。

软更新是一种运行平均算法。

其中，τ为0.001。

本发明公开了一种适用于机器人、无人机等智能体的基于深度确定性策略梯度模型的视觉惯性自校准算法，分析视觉惯性标定系统的可观测性，采用深度确定性策略梯度智能选择可观测校准动作子序列进行标定，为机器人视觉惯性导航系统长时间自主运行提供高精度的标定参数。该方法能有效简化标定过程和降低计算量，无需专业的人工标定和精准的初始化参数，可以智能化选择完全可观测的动作序列进行参数标定。

以上所述，仅是本发明的较佳实施例之一，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于深度确定性策略梯度的视觉惯性自校准方法，其特征在于：包括以下步骤：

步骤一的具体方法如下：

到相机二维像素平面点z_k,m＝(u,v)^T转换关系为：

其中，Z_c为比例因子，表示相机光心到图像平面的有效距离，R_cw为相机到世界坐标系的外参旋转变换矩阵，

为相机到世界坐标系的平移变换矩阵，

为相机内参矩阵，f＝(f_u,f_v)为x轴和y轴上的归一化焦距，C＝(u₀,v₀)为像素平面的中心，在考虑图像畸变和图像白噪声后，参考点投影完整的相机针孔模型定义为

为相机到IMU的外参变换矩阵，由相机到IMU的旋转变换矩阵R_CI和平移变换矩阵p_CI构成，

为零均值和标准差σ_C的高斯白噪声过程；

其中，

分别为陀螺仪和加速度计误差补偿后的旋转角速率和加速度，ω_WI(t),a^W(t)分别为世界坐标系下实际测量的旋转角速率和加速度，S_ω,M_ω分别是陀螺仪的尺度误差和非正交误差，S_a,M_a分别是加速度计的尺度误差和非正交误差，T_g为重力敏感度即陀螺仪对加速度的敏感程度，

分别为陀螺仪和加速度计的随机游走误差，

分别为陀螺仪和加速度计的零均值高斯白噪声；

S1.3：非线性优化，参数标定估计器转化为非线性最小二乘优化问题，相机和IMU测量误差模型描述为X(t)＝f(Θ,t)+η形式，Θ是包含所有估计参数的矢量，t表示测量记录和模型评估的瞬间，η为零均值和方差σ²I的高斯白噪声过程，传感器i在[t₁,…,t_N]时刻的实际测量值为

其参数标定目标函数表述为：

IMU的偏置误差项为

偏置项的目标函数定义为

步骤二的具体方法如下：

非线性优化根据初始估计值

并通过迭代优化

其中，T为误差协方差矩阵，

为当前估计

的误差值，G^TT^-1G可表示Fisher信息矩阵Fisher Information Matrix,FIM和估计协方差矩阵

的逆，令T^-1＝L^-1L为误差协方差矩阵的Cholesky分解，式(7)可重新定义为

采用QR分解；

LGΠ＝Q_nR_n (9)

在式(10)中R_n矩阵用来计算FIM和估计协方差

的逆，并进一步计算归一化协方差

视觉惯性标定参数空间的信息增益通过以下度量来评估；

使得H指标最小化的参数即为最大化信息增益，用于后续强化学习的修正反馈设计；

步骤三，将标定过程建模为马尔可夫决策过程；

步骤三的具体方法如下：

马尔可夫决策过程由每个时刻t的状态S_t∈S,动作A_t∈A，状态转移函数S_t+1＝f(S_t,A_t)和奖励函数R_t(S_t,A_t)定义，以视觉惯性标定系统为智能体，通过连续的动作来寻找视觉/IMU可观测的校准动作空间；

S3.3状态转移函数，当智能体选择一个动作A_t时，状态转移函数S_t+1＝f(S_t,A_t)描述从当前状态S_t将转移到S_t+1的概率模型，当视觉惯性组件随载体执行正确的动作时，使得校准参数Θ被观察到；

S3.4奖励函数，奖励被视为采取行动后的反馈，在强化学习训练过程中，如果选择的动作能够将状态转移到更好的状态，则智能体将获得正的奖励；否则，将返回零奖励，奖励函数R_t(S_t,A_t)定义如下；

其中，

为待标定参数的可观测协方差，ε是使得校准参数空间可观测的隐式编码界限值，只有当标定参数协方差小于界限值，并能够生成可观测的校准轨迹时，智能体才能获得正的修正反馈；

步骤四，设计基于深度确定性策略梯度的强化学习标定算法，从惯性数据集筛选出可观测子片段进行参数标定；

在深度确定性策略梯度Deep Deterministic Policy Gradient,DDPG，使用卷积神经网络来模拟Q-learning函数，Q网络的参数是Θ^Q，使用目标函数J_β(μ)衡量一个策略μ的性能，定义如下；

其中，S是智能体的状态，根据智能体的行为策略，生成相应的状态路径，其概率分布函数Probability Distribution Function,PDF为p^β，Q^μ(S,μ(S))是策略μ和状态采样空间的分值函数，当前Q网络负责对当前状态S使用∈-贪婪法选择动作A，获得新状态S′和奖励R，将样本放入经验回放池，对经验回放池中采样的下一状态S″使用贪婪法选择动作A′，计算目标Q网络的Q值，当目标Q网络计算出目标Q值后，当前Q网络会进行网络参数的更新，并定期把最新网络参数复制到目标Q网络；

在基于深度确定性策略梯度的视觉惯性自校准算法中，DDPG创建两个神经网络，分别为在线网络即策略网络和目标网络即Q网络，将动作模型和奖励模型参数化为神经网络，每个模型包含编码状态和目前精简的信息，输入为动作历史序列A_0:t和校准状态序列S_0:t，全连接网络来预测当前的奖励R_t(S_0:t,A_0:t)；

Q网络和策略网络的训练过程如下；

其中，τ为0.001。