CN114609976A

CN114609976A - 一种基于单应性和q学习的无标定视觉伺服控制方法

Info

Publication number: CN114609976A
Application number: CN202210379777.8A
Authority: CN
Inventors: 康萌; 曹江威; 刘伟静; 魏鹏
Original assignee: Tianjin Aerospace Electromechanical Equipment Research Institute
Current assignee: Tianjin Aerospace Electromechanical Equipment Research Institute
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-06-10
Anticipated expiration: 2042-04-12
Also published as: CN114609976B

Abstract

本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法，包括如下步骤：S1、建立单目视觉伺服系统的运动学模型，用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标；S2、基于中央透视原理，建立单应性任务模型,设计相应的单应性任务函数；S3、利用Q学习算法选择最优的单应性任务模型的增益系数。本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比，在特征点较多的情况下，利用单应性任务函数设计，使雅可比矩阵的计算复杂度降低，收敛速度变快。利用Q学习方法进行增益的参数自适应调优，增快了视觉伺服任务的收敛速度。

Description

一种基于单应性和Q学习的无标定视觉伺服控制方法

技术领域

本发明涉及机器人视觉伺服领域，尤其是涉及一种基于单应性和Q学习的无标定视觉伺服控制方法。

背景技术

1.相机标定的过程不仅繁琐，而且相机标定误差会导致视觉伺服控制的精度下降。在很多情况，相机标定存在很多限制。

2.在实际工程中，图像特征的数量越多，则系统的鲁棒性越强，控制效果越准确。然而，增大图像特征点的个数会引起雅克比矩阵维数的增加，从而使计算量大大增大，增大系统的计算时间。

3.对于传统的IBVS来说，其伺服增益通常为一个固定值。然而，固定增益可能会导致系统的不稳定和收敛缓慢。与传统的固定增益相比，自适应增益可以提高系统的收敛速度。

专利CN202010151757.6提出了一种视觉伺服切换控制方法及系统。此发明公开了一种视觉伺服切换控制方法及系统。但是这种方法在特征点较多的情况下，会增大雅克比矩阵的计算负担，降低视觉伺服的速度。

发明内容

有鉴于此，本发明旨在提出一种基于单应性和Q学习的无标定视觉伺服控制方法，以解决上述至少部分技术问题中的至少之一。

为达到上述目的，本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法，包括如下步骤：

S1、建立单目视觉伺服系统的运动学模型，用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标；

S2、基于中央透视原理，建立单应性任务模型,设计相应的单应性任务函数；

S3、利用Q学习算法选择最优的单应性任务模型的增益系数。

进一步的，步骤S1的具体方法如下：

设当前相机平面坐标系为{F}、期望相机平面坐标系为{F^*}、特征点为P_i，特征点P_i在{F}和{F^*}下的欧几里得坐标分别为X_i＝[X_i,Y_i,Z_i]^T和

X_i和

的关系为：

其中，R表示{F^*}相对于{F}的旋转，t表示{F^*}相对于{F}的平移；

将P_i的坐标在{F}和{F^*}坐标系下进行归一化处理，定义

其中，m_i为{F_i ^*}坐标系下的归一化坐标，

为{F^*}坐标系下的归一化坐标；

当特征点P_i投影到当前图像平面和期望图像平面时，其像素坐标pi，

分别为:

其中，K为增益矩阵。

进一步的，步骤S2的具体方法为：

设n_*为平面π的法向量，且满足

结合中央透射投影原理，得到

归一化坐标的欧几里得单应性矩阵为：

其中，H为归一化坐标的欧几里得单应性矩阵,^cR_*表示{F^*}相对于{F}的旋转，t表示{F^*}相对于{F}的平移，n_*表示在{F^*}坐标系下的平面π的法向量；

定义深度比为：

得到，

定义投影单应性矩阵为：

G＝KHK^-1

由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F^*}重合，即R＝I且t＝0，其中，I表示单位矩阵，可得：

H＝I；

即

G＝I

因此，等价于R＝I和t＝0，令

其中，β是任意的比例系数，表示两组图像之间的映射比例关系，选择使

定义矩阵函数：

则误差任务函数为：

E＝[E₁ E₂ E₃]^T

对式E进行求导，得如下关系：

其中，

代表旋转矩阵和角速度之间的关系，即

的计算公式为：

其中，v表示相机的平移速度，w表示相机的角速度；

推导可得

对上述公式进行变换：

得到将e的导数与相机速度相关联的表达式为：

其中，L_ec是雅克比矩阵，V_c是相机的空间速度；

计算得到针对静止目标的视觉伺服控制器的控制算法为：

其中，λ为增益系数。

进一步的，步骤S3的具体方法如下：

单应性任务模型的增益系数λ＝diag{λ_vx,λ_vy,λ_vz,λ_ωx,λ_ωy,λ_ωz}∈R^6×6，包括六个维度的伺服增益的智能体A_vx,A_vy,A_vz,A_ωx,A_ωy,A_ωz；

由视觉伺服控制器的控制算法可知，伺服增益λ与图像雅可比矩阵和特征误差有关；此外，即使存在许多特征点时，

的维数是固定不变的，因此选择

作为状态空间；

六个智能体的状态空间为：

其中，S_vx S_vy S_vz S_wx S_wy S_wz为六个自由度下的状态空间集；每个维度的智能体的状态空间均采用对数划分的方法，但是上下限是不同的，上下限根据具体情况决定；

六个状态空间S_j(j＝1,…,6)的上限

和下限

通过环境获得；正区间

分为n个区间段，则每个区间段为

负区间

分为n个区间段，则每个区间段为

对数分区方法如下：

进一步的，还包括建立增益动作集，方法如下：

选取m个增益作为动作集a＝{a_i|i＝1,…,m}，利用ε-贪心算法从动作集中选择一个动作a_i，当随机概率小于ε时，从动作集合中随机选择增益a_i，如果随机概率大于ε，则选择与Q(s,a)最大值对应的动作，选择ε＝μⁿ作为探索概率，其中n是训练次数，μ是0到1之间的常数。

进一步的，步骤S3中，Q学习算法的奖励函数的设计方法如下：

确定奖励函数的值的取决条件，取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置；

(1)如果与特征点相对应的误差范数的总和小于给定的阈值，则判断已到达所需位置，并且奖励值是最大值R；

(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野，则给出最差的奖励值-R以避免选择该动作；

(3)当特征点接近期望位置时，为了减小误差，使特征越接近期望位置时其奖励值越大；奖励值随着特征接近目标的距离而改变，并且与特征点的误差有关。

奖励函数的公式如下：

其中，R是最大奖励值，是一个正常数；row是像平面的高度，col是像平面的宽度；σ是特征点的数量。

进一步的，步骤S3中，Q学习算法的更新函数为：

其中，其中，Q_t+1(s_t,a_t)为t+1时刻下，状态s_t执行动作a_t后的更新Q值，Q_t(s_t,a_t)为t时刻下，状态s_t执行动作a_t后的累积Q值，α为学习率，r为即时回报,γ为折扣率，Q_t(s_t+1,a_t+1)为t时刻下，预测下一时刻的Q值。

另一方面，本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制系统，包括：

图像采集模块，用于采集图像信息；

建模模块一，用于建立单目视觉伺服系统的运动学模型，结合采集的图像详细，得到当特征点投影到当前图像平面和期望图像平面时的像素坐标；

建模模块二，用于建立单应性任务模型，输出恒定维数的映射矩阵；

Q学习增益模块，基于Q学习算法选择最优的单应性任务模型的增益系数。

相对于现有技术，本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法具有以下优势：

本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比，在特征点较多的情况下，利用单应性任务函数设计，使雅可比矩阵的计算复杂度降低，收敛速度变快。利用Q学习方法进行增益的参数自适应调优，增快了视觉伺服任务的收敛速度。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为运动学模型建立原理图；

图2为基于单应性和Q学习的无标定视觉伺服控制方法架构图；

图3为4个点的情况，传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图；

图4为4个点的情况，单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图；

图5为9个点的情况，传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图；

图6为9个点的情况，单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图；

图7为16个点的情况，传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图；

图8为16个点的情况，单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

一种基于单应性和Q学习的无标定视觉伺服控制方法，如图2所示，具体如下：

所述运动学模型具体包括：

如图1所示，对于一个eye-in-hand类型的单目视觉伺服系统，存在当前相机平面坐标系{F}和期望相机平面坐标系{F^*}。假设目标特征点为P_i(i＝1,2,...)，则其在{F}和{F^*}下的欧几里得坐标分别为X_i＝[X_i,Y_i,Z_i]^T和

X_i和

的关系可以描述为

其中，R表示{F^*}相对于{F}的旋转，t表示{F^*}相对于{F}的平移。

将P_i的坐标在{F}和{F^*}坐标系下进行归一化处理，定义

其中，m_i为{F_i ^*}坐标系下的归一化坐标，

坐标系下的归一化坐标。

当特征点P_i投影到当前图像平面和期望图像平面时，其像素坐标p_i，

分别为

其中，K为增益矩阵。

较佳的，单应性任务函数设计步骤包括：

单应性矩阵表示空间中的一组相同特征在不同的坐标系中的对应关系。

假设n_*为平面π的法向量，且满足

结合中央透射投影原理，可得到

归一化坐标的欧几里得单应性矩阵可写成

其中，H为归一化坐标的欧几里得单应性矩阵,^cR_*表示{F^*}相对于{F}的旋转，t表示{F^*}相对于{F}的平移，n_*表示在{F^*}坐标系下的平面π的法向量。

定义深度比为

可以得到

定义投影单应性矩阵为

G＝KHK^-1

视觉伺服的任务目标是使两个坐标系{F}和{F^*}重合，即R＝I且t＝0，其中，I表示单位矩阵，可得

H＝I

即

G＝I

因此，等价于R＝I和t＝0。令

其中，β是任意的比例系数，仅表示两组图像之间的映射比例关系。为了计算方便，通常选择使

定义矩阵函数：

则误差任务函数为

E＝[E₁ E₂ E₃]^T

对式E进行求导，可得如下关系

其中，

代表旋转矩阵和角速度之间的关系，即

可由下式获得

其中，v表示相机的平移速度，w表示相机的角速度；

推导可得

上式又可写成

因此，我们可以得到一个表达式，该表达式将e的导数与相机速度相关联，即

其中，L_ec是雅克比矩阵，V_c是相机的空间速度。

得到针对静止目标的视觉伺服控制器的控制算法为：

其中，λ为增益系数。

与传统的固定增益相比，自适应增益可以提高系统的收敛速度。本发明使用Q学习来确定增益，与其他方法相比，Q学习通过对环境的学习，可以做出最优决策，达到在不同状态下自适应调整增益的效果，从而提高了收敛速度。

在本发明中，增益系数为λ＝diag{λ_vx,λ_vy,λ_vz,λ_ωx,λ_ωy,λ_ωz}∈R^6×6。六个代表伺服增益的智能体A_vx,A_vy,A_vz,A_ωx,A_ωy,A_ωz，通过Q学习从环境中学习经验。

由视觉伺服控制器的控制算法可知，伺服增益λ与图像雅可比矩阵和特征误差有关。此外，即使存在许多特征点时，

的维数是固定不变的，因此选择

作为状态空间。

Q增益状态划分设计步骤包括：

六个智能体的状态空间为

其中，S_vx S_vy S_vz S_wx S_wy S_wz为六个自由度下的状态空间集，每个维度的状态空间都采用对数划分的方法，但是上下限是不同的，上下限由具体情况决定。

六个状态空间S_j(j＝1,…,6)的上限

和下限

可以通过环境获得。正区间

可以分为n个区间段，则每个区间段为

类似地，负区间

可以分为n个区间段，则每个区间段为

对数分区方法如下：

较佳的，Q增益动作集设计步骤包括：

为了减少时间成本，给出m个增益作为动作集a＝{a_i|i＝1,…,m}。ε-贪心算法用于从动作集合中选择一个动作a_i。当随机概率小于ε时，从动作集合中随机选择增益a_i。但是，如果随机概率大于ε，则选择与Q(s,a)最大值对应的动作，选择ε＝μⁿ作为探索概率，其中n是训练次数，μ是0到1之间的常数。

本发明的Q学习算法中Q增益奖励函数设计步骤包括：

奖励函数的值主要取决于三个条件：特征点到达期望位置，特征点离开视野范围以及特征点接近期望位置。

(1)如果与这四个点相对应的误差范数的总和小于给定的阈值，则可以判断特征已到达所需位置，并且奖励值是最大值R。

(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野，则给出最差的奖励值-R以避免选择该动作。

(3)当特征接近期望位置时，为了减小误差，使特征越接近期望位置时其奖励值越大。因此，奖励值随着特征接近目标的距离而改变，并且与特征点的误差有关。

奖励函数如下所示，其中R是最大奖励值，它是一个正常数；row是像平面的高度，col是像平面的宽度；σ是特征点的数量。

较佳的，Q学习中Q函数更新步骤包括：

在本发明中，Q值的更新对于每个状态空间都是独立的，Q更新函数为

其中，Q_t+1(s_t,a_t)为t+1时刻下，状态s_t执行动作a_t后的更新Q值，Q_t(s_t,a_t)为t时刻下，状态s_t执行动作a_t后的累积Q值，α为学习率，r为即时回报,γ为折扣率，Q_t(s_t+1,a_t+1)为t时刻下，预测下一时刻的Q值。

示例：

为了验证基于投影单应性方法的有效性，本发明分别采用4个特征点、9个特征点和16个特征点的情况与传统方法进行比较。其中，二者的雅克比矩阵的估计方法主要采用卡尔曼滤波器估计以及自适应估计，且二者均为无标定视觉伺服。

4个特征点、9个特征点和16个特征点的初始位置和期望位置如下表所示：

4个特征点在图像平面的初始位置和期望位置(像素)

9个特征点在图像平面的初始位置和期望位置(像素)

16个特征点在图像平面的初始位置和期望位置(像素)

第一步：视觉伺服系统的运动学模型的搭建。

第二步：单应性任务模型建立。在进行无标定视觉伺服控制之前，无论是传统无标定视觉伺服方法还是基于单应性投影的无标定视觉伺服，均需要对图像雅克比矩阵的初值进行估计并采用正交试探法进行确定。

第三步：Q学习增益模块建立。包括Q增益状态划分设计步骤、Q增益动作集设计步骤、Q增益奖励函数设计步骤、Q函数更新率步骤对Q学习增益模块进行设计。

第四步：对6种情况进行仿真测试进行验证。如图3、图4示出，仿真测试一和仿真测试二是4个特征点无标定视觉伺服方法的对比。其中，仿真测试一和二中的图像雅克比矩阵采用自适应方法进行估计。仿真测试一采用IBVS+Q学习与单应性+Q学习进行对比，其中，IBVS+Q学习用时4.24s，单应性+Q学习用时23.52s。验证在4个点时，传统效果较好。仿真测试二采用单应性+固定增益与单应性+Q学习进行对比，其中，单应性+固定增益用时29.76s，单应性+Q学习用时23.52s。验证在4个点时，Q学习效果较好。

如图5、图6示出，仿真测试三和仿真测试四是9个特征点无标定视觉伺服方法的对比。其中，仿真测试三和四中的图像雅克比矩阵采用自适应方法进行估计。仿真测试三采用IBVS+Q学习与单应性+Q学习进行对比，其中，IBVS+Q学习用时19.32s，单应性+Q学习用时14.32s。验证在9个点时，单应性效果较好。仿真测试四采用单应性+固定增益与单应性+Q学习进行对比，其中，单应性+固定增益用时16.84s，单应性+Q学习用时14.32s。验证在9个点时，Q学习效果较好。

如图7、图8示出，仿真测试五和仿真测试六是16个特征点无标定视觉伺服方法的对比。其中，仿真测试五和六中的图像雅克比矩阵采用自适应方法进行估计。仿真测试五采用IBVS+Q学习与单应性+Q学习进行对比，其中，IBVS+Q学习用时11.92s，单应性+Q学习用时10.56s。验证在16个点时，传统效果较好。仿真测试六采用单应性+固定增益与单应性+Q学习进行对比，其中，单应性+固定增益用时10.84s，单应性+Q学习用时10.56s。验证在16个点时，Q学习效果较好。

另一方面，本发明还提供了一种基于单应性和Q学习的无标定视觉伺服控制系统，包括：

图像采集模块，用于采集图像信息；

上述模块的实现形式可以是软件也可以是硬件，或者两者的结合，本实施例中的基于单应性和Q学习的无标定视觉伺服控制系统是基于上述实施例中的基于单应性和Q学习的无标定视觉伺服控制方法实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。上述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。