CN114609976A - 一种基于单应性和q学习的无标定视觉伺服控制方法 - Google Patents

一种基于单应性和q学习的无标定视觉伺服控制方法 Download PDF

Info

Publication number
CN114609976A
CN114609976A CN202210379777.8A CN202210379777A CN114609976A CN 114609976 A CN114609976 A CN 114609976A CN 202210379777 A CN202210379777 A CN 202210379777A CN 114609976 A CN114609976 A CN 114609976A
Authority
CN
China
Prior art keywords
homography
learning
gain
matrix
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210379777.8A
Other languages
English (en)
Other versions
CN114609976B (zh
Inventor
康萌
曹江威
刘伟静
魏鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Aerospace Electromechanical Equipment Research Institute
Original Assignee
Tianjin Aerospace Electromechanical Equipment Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Aerospace Electromechanical Equipment Research Institute filed Critical Tianjin Aerospace Electromechanical Equipment Research Institute
Priority to CN202210379777.8A priority Critical patent/CN114609976B/zh
Publication of CN114609976A publication Critical patent/CN114609976A/zh
Application granted granted Critical
Publication of CN114609976B publication Critical patent/CN114609976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/414Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
    • G05B19/4142Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by the use of a microprocessor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34013Servocontroller

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法,包括如下步骤:S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;S3、利用Q学习算法选择最优的单应性任务模型的增益系数。本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比,在特征点较多的情况下,利用单应性任务函数设计,使雅可比矩阵的计算复杂度降低,收敛速度变快。利用Q学习方法进行增益的参数自适应调优,增快了视觉伺服任务的收敛速度。

Description

一种基于单应性和Q学习的无标定视觉伺服控制方法
技术领域
本发明涉及机器人视觉伺服领域,尤其是涉及一种基于单应性和Q学习的无标定视觉伺服控制方法。
背景技术
1.相机标定的过程不仅繁琐,而且相机标定误差会导致视觉伺服控制的精度下降。在很多情况,相机标定存在很多限制。
2.在实际工程中,图像特征的数量越多,则系统的鲁棒性越强,控制效果越准确。然而,增大图像特征点的个数会引起雅克比矩阵维数的增加,从而使计算量大大增大,增大系统的计算时间。
3.对于传统的IBVS来说,其伺服增益通常为一个固定值。然而,固定增益可能会导致系统的不稳定和收敛缓慢。与传统的固定增益相比,自适应增益可以提高系统的收敛速度。
专利CN202010151757.6提出了一种视觉伺服切换控制方法及系统。此发明公开了一种视觉伺服切换控制方法及系统。但是这种方法在特征点较多的情况下,会增大雅克比矩阵的计算负担,降低视觉伺服的速度。
发明内容
有鉴于此,本发明旨在提出一种基于单应性和Q学习的无标定视觉伺服控制方法,以解决上述至少部分技术问题中的至少之一。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法,包括如下步骤:
S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;
S3、利用Q学习算法选择最优的单应性任务模型的增益系数。
进一步的,步骤S1的具体方法如下:
设当前相机平面坐标系为{F}、期望相机平面坐标系为{F*}、特征点为Pi,特征点Pi在{F}和{F*}下的欧几里得坐标分别为Xi=[Xi,Yi,Zi]T
Figure BDA0003592262420000021
Xi
Figure BDA0003592262420000022
的关系为:
Figure BDA0003592262420000023
其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移;
将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义
Figure BDA0003592262420000024
Figure BDA0003592262420000025
其中,mi为{Fi *}坐标系下的归一化坐标,
Figure BDA0003592262420000026
为{F*}坐标系下的归一化坐标;
当特征点Pi投影到当前图像平面和期望图像平面时,其像素坐标pi,
Figure BDA0003592262420000027
分别为:
Figure BDA0003592262420000028
其中,K为增益矩阵。
进一步的,步骤S2的具体方法为:
设n*为平面π的法向量,且满足
Figure BDA0003592262420000031
结合中央透射投影原理,得到
Figure BDA0003592262420000032
归一化坐标的欧几里得单应性矩阵为:
Figure BDA0003592262420000035
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量;
定义深度比为:
Figure BDA0003592262420000033
得到,
Figure BDA0003592262420000034
定义投影单应性矩阵为:
G=KHK-1
由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得:
H=I;
G=I
因此,等价于R=I和t=0,令
Figure BDA0003592262420000041
其中,β是任意的比例系数,表示两组图像之间的映射比例关系,选择使
Figure BDA0003592262420000042
定义矩阵函数:
Figure BDA0003592262420000043
则误差任务函数为:
E=[E1 E2 E3]T
对式E进行求导,得如下关系:
Figure BDA0003592262420000044
其中,
Figure BDA0003592262420000045
代表旋转矩阵和角速度之间的关系,即
Figure BDA0003592262420000046
Figure BDA0003592262420000047
的计算公式为:
Figure BDA0003592262420000048
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
Figure BDA0003592262420000049
对上述公式进行变换:
Figure BDA0003592262420000051
得到将e的导数与相机速度相关联的表达式为:
Figure BDA0003592262420000052
其中,Lec是雅克比矩阵,Vc是相机的空间速度;
计算得到针对静止目标的视觉伺服控制器的控制算法为:
Figure BDA0003592262420000053
其中,λ为增益系数。
进一步的,步骤S3的具体方法如下:
单应性任务模型的增益系数λ=diag{λvxvyvzωxωyωz}∈R6×6,包括六个维度的伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz
由视觉伺服控制器的控制算法可知,伺服增益λ与图像雅可比矩阵和特征误差有关;此外,即使存在许多特征点时,
Figure BDA0003592262420000054
的维数是固定不变的,因此选择
Figure BDA0003592262420000055
作为状态空间;
六个智能体的状态空间为:
Figure BDA0003592262420000056
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集;每个维度的智能体的状态空间均采用对数划分的方法,但是上下限是不同的,上下限根据具体情况决定;
六个状态空间Sj(j=1,…,6)的上限
Figure BDA0003592262420000061
和下限
Figure BDA0003592262420000062
通过环境获得;正区间
Figure BDA0003592262420000063
分为n个区间段,则每个区间段为
Figure BDA0003592262420000064
负区间
Figure BDA0003592262420000065
分为n个区间段,则每个区间段为
Figure BDA0003592262420000066
对数分区方法如下:
Figure BDA0003592262420000067
进一步的,还包括建立增益动作集,方法如下:
选取m个增益作为动作集a={ai|i=1,…,m},利用ε-贪心算法从动作集中选择一个动作ai,当随机概率小于ε时,从动作集合中随机选择增益ai,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
进一步的,步骤S3中,Q学习算法的奖励函数的设计方法如下:
确定奖励函数的值的取决条件,取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置;
(1)如果与特征点相对应的误差范数的总和小于给定的阈值,则判断已到达所需位置,并且奖励值是最大值R;
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作;
(3)当特征点接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大;奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关。
奖励函数的公式如下:
Figure BDA0003592262420000071
其中,R是最大奖励值,是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
进一步的,步骤S3中,Q学习算法的更新函数为:
Figure BDA0003592262420000072
其中,其中,Qt+1(st,at)为t+1时刻下,状态st执行动作at后的更新Q值,Qt(st,at)为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qt(st+1,at+1)为t时刻下,预测下一时刻的Q值。
另一方面,本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制系统,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
相对于现有技术,本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法具有以下优势:
本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比,在特征点较多的情况下,利用单应性任务函数设计,使雅可比矩阵的计算复杂度降低,收敛速度变快。利用Q学习方法进行增益的参数自适应调优,增快了视觉伺服任务的收敛速度。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为运动学模型建立原理图;
图2为基于单应性和Q学习的无标定视觉伺服控制方法架构图;
图3为4个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图4为4个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图;
图5为9个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图6为9个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图;
图7为16个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图8为16个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
一种基于单应性和Q学习的无标定视觉伺服控制方法,如图2所示,具体如下:
所述运动学模型具体包括:
如图1所示,对于一个eye-in-hand类型的单目视觉伺服系统,存在当前相机平面坐标系{F}和期望相机平面坐标系{F*}。假设目标特征点为Pi(i=1,2,...),则其在{F}和{F*}下的欧几里得坐标分别为Xi=[Xi,Yi,Zi]T
Figure BDA0003592262420000091
Xi
Figure BDA0003592262420000092
的关系可以描述为
Figure BDA0003592262420000093
其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移。
将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义
Figure BDA0003592262420000094
Figure BDA0003592262420000095
其中,mi为{Fi *}坐标系下的归一化坐标,
Figure BDA0003592262420000096
坐标系下的归一化坐标。
当特征点Pi投影到当前图像平面和期望图像平面时,其像素坐标pi
Figure BDA0003592262420000098
分别为
Figure BDA0003592262420000097
其中,K为增益矩阵。
较佳的,单应性任务函数设计步骤包括:
单应性矩阵表示空间中的一组相同特征在不同的坐标系中的对应关系。
假设n*为平面π的法向量,且满足
Figure BDA0003592262420000101
结合中央透射投影原理,可得到
Figure BDA0003592262420000102
归一化坐标的欧几里得单应性矩阵可写成
Figure BDA0003592262420000105
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量。
定义深度比为
Figure BDA0003592262420000103
可以得到
Figure BDA0003592262420000104
定义投影单应性矩阵为
G=KHK-1
视觉伺服的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得
H=I
G=I
因此,等价于R=I和t=0。令
Figure BDA0003592262420000111
其中,β是任意的比例系数,仅表示两组图像之间的映射比例关系。为了计算方便,通常选择使
Figure BDA0003592262420000112
定义矩阵函数:
Figure BDA0003592262420000113
则误差任务函数为
E=[E1 E2 E3]T
对式E进行求导,可得如下关系
Figure BDA0003592262420000114
其中,
Figure BDA0003592262420000115
代表旋转矩阵和角速度之间的关系,即
Figure BDA0003592262420000116
Figure BDA0003592262420000117
可由下式获得
Figure BDA0003592262420000118
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
Figure BDA0003592262420000119
上式又可写成
Figure BDA0003592262420000121
因此,我们可以得到一个表达式,该表达式将e的导数与相机速度相关联,即
Figure BDA0003592262420000122
其中,Lec是雅克比矩阵,Vc是相机的空间速度。
得到针对静止目标的视觉伺服控制器的控制算法为:
Figure BDA0003592262420000123
其中,λ为增益系数。
与传统的固定增益相比,自适应增益可以提高系统的收敛速度。本发明使用Q学习来确定增益,与其他方法相比,Q学习通过对环境的学习,可以做出最优决策,达到在不同状态下自适应调整增益的效果,从而提高了收敛速度。
在本发明中,增益系数为λ=diag{λvxvyvzωxωyωz}∈R6×6。六个代表伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz,通过Q学习从环境中学习经验。
由视觉伺服控制器的控制算法可知,伺服增益λ与图像雅可比矩阵和特征误差有关。此外,即使存在许多特征点时,
Figure BDA0003592262420000124
的维数是固定不变的,因此选择
Figure BDA0003592262420000125
作为状态空间。
Q增益状态划分设计步骤包括:
六个智能体的状态空间为
Figure BDA0003592262420000131
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集,每个维度的状态空间都采用对数划分的方法,但是上下限是不同的,上下限由具体情况决定。
六个状态空间Sj(j=1,…,6)的上限
Figure BDA0003592262420000132
和下限
Figure BDA0003592262420000133
可以通过环境获得。正区间
Figure BDA0003592262420000134
可以分为n个区间段,则每个区间段为
Figure BDA0003592262420000135
类似地,负区间
Figure BDA0003592262420000136
可以分为n个区间段,则每个区间段为
Figure BDA0003592262420000137
对数分区方法如下:
Figure BDA0003592262420000138
Figure BDA0003592262420000139
较佳的,Q增益动作集设计步骤包括:
为了减少时间成本,给出m个增益作为动作集a={ai|i=1,…,m}。ε-贪心算法用于从动作集合中选择一个动作ai。当随机概率小于ε时,从动作集合中随机选择增益ai。但是,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
本发明的Q学习算法中Q增益奖励函数设计步骤包括:
奖励函数的值主要取决于三个条件:特征点到达期望位置,特征点离开视野范围以及特征点接近期望位置。
(1)如果与这四个点相对应的误差范数的总和小于给定的阈值,则可以判断特征已到达所需位置,并且奖励值是最大值R。
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作。
(3)当特征接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大。因此,奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关。
奖励函数如下所示,其中R是最大奖励值,它是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
Figure BDA0003592262420000141
较佳的,Q学习中Q函数更新步骤包括:
在本发明中,Q值的更新对于每个状态空间都是独立的,Q更新函数为
Figure BDA0003592262420000142
其中,Qt+1(st,at)为t+1时刻下,状态st执行动作at后的更新Q值,Qt(st,at)为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qt(st+1,at+1)为t时刻下,预测下一时刻的Q值。
示例:
为了验证基于投影单应性方法的有效性,本发明分别采用4个特征点、9个特征点和16个特征点的情况与传统方法进行比较。其中,二者的雅克比矩阵的估计方法主要采用卡尔曼滤波器估计以及自适应估计,且二者均为无标定视觉伺服。
4个特征点、9个特征点和16个特征点的初始位置和期望位置如下表所示:
4个特征点在图像平面的初始位置和期望位置(像素)
Figure BDA0003592262420000151
9个特征点在图像平面的初始位置和期望位置(像素)
Figure BDA0003592262420000152
Figure BDA0003592262420000161
16个特征点在图像平面的初始位置和期望位置(像素)
Figure BDA0003592262420000162
Figure BDA0003592262420000171
第一步:视觉伺服系统的运动学模型的搭建。
第二步:单应性任务模型建立。在进行无标定视觉伺服控制之前,无论是传统无标定视觉伺服方法还是基于单应性投影的无标定视觉伺服,均需要对图像雅克比矩阵的初值进行估计并采用正交试探法进行确定。
第三步:Q学习增益模块建立。包括Q增益状态划分设计步骤、Q增益动作集设计步骤、Q增益奖励函数设计步骤、Q函数更新率步骤对Q学习增益模块进行设计。
第四步:对6种情况进行仿真测试进行验证。如图3、图4示出,仿真测试一和仿真测试二是4个特征点无标定视觉伺服方法的对比。其中,仿真测试一和二中的图像雅克比矩阵采用自适应方法进行估计。仿真测试一采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时4.24s,单应性+Q学习用时23.52s。验证在4个点时,传统效果较好。仿真测试二采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时29.76s,单应性+Q学习用时23.52s。验证在4个点时,Q学习效果较好。
如图5、图6示出,仿真测试三和仿真测试四是9个特征点无标定视觉伺服方法的对比。其中,仿真测试三和四中的图像雅克比矩阵采用自适应方法进行估计。仿真测试三采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时19.32s,单应性+Q学习用时14.32s。验证在9个点时,单应性效果较好。仿真测试四采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时16.84s,单应性+Q学习用时14.32s。验证在9个点时,Q学习效果较好。
如图7、图8示出,仿真测试五和仿真测试六是16个特征点无标定视觉伺服方法的对比。其中,仿真测试五和六中的图像雅克比矩阵采用自适应方法进行估计。仿真测试五采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时11.92s,单应性+Q学习用时10.56s。验证在16个点时,传统效果较好。仿真测试六采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时10.84s,单应性+Q学习用时10.56s。验证在16个点时,Q学习效果较好。
另一方面,本发明还提供了一种基于单应性和Q学习的无标定视觉伺服控制系统,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
上述模块的实现形式可以是软件也可以是硬件,或者两者的结合,本实施例中的基于单应性和Q学习的无标定视觉伺服控制系统是基于上述实施例中的基于单应性和Q学习的无标定视觉伺服控制方法实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。例如,以上所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,包括如下步骤:
S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;
S3、利用Q学习算法选择最优的单应性任务模型的增益系数。
2.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S1的具体方法如下:
设当前相机平面坐标系为{F}、期望相机平面坐标系为{F*}、特征点为Pi,特征点Pi在{F}和{F*}下的欧几里得坐标分别为Xi=[Xi,Yi,Zi]T
Figure FDA0003592262410000011
Xi
Figure FDA0003592262410000012
的关系为:
Figure FDA0003592262410000013
其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移;
将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义
Figure FDA0003592262410000014
Figure FDA0003592262410000015
其中,mi为{Fi *}坐标系下的归一化坐标,
Figure FDA0003592262410000016
为{F*}坐标系下的归一化坐标;
当特征点Pi投影到当前图像平面和期望图像平面时,其像素坐标pi
Figure FDA0003592262410000017
分别为:
Figure FDA0003592262410000021
其中,K为增益矩阵。
3.根据权利要求2所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S2的具体方法为:
设n*为平面π的法向量,且满足
Figure FDA0003592262410000022
结合中央透射投影原理,得到
Figure FDA0003592262410000023
归一化坐标的欧几里得单应性矩阵为:
Figure FDA0003592262410000024
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量;
定义深度比为:
Figure FDA0003592262410000025
得到,
Figure FDA0003592262410000026
定义投影单应性矩阵为:
G=KHK-1
由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得:
H=I;
G=I
因此,等价于R=I和t=0,令
Figure FDA0003592262410000031
其中,β是任意的比例系数,表示两组图像之间的映射比例关系,选择使
Figure FDA0003592262410000032
定义矩阵函数:
Figure FDA0003592262410000033
则误差任务函数为:
E=[E1 E2 E3]T
对式E进行求导,得如下关系:
Figure FDA0003592262410000034
其中,
Figure FDA0003592262410000035
代表旋转矩阵和角速度之间的关系,即
Figure FDA0003592262410000036
Figure FDA0003592262410000037
的计算公式为:
Figure FDA0003592262410000038
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
Figure FDA0003592262410000041
对上述公式进行变换:
Figure FDA0003592262410000042
得到将e的导数与相机速度相关联的表达式为:
Figure FDA0003592262410000043
其中,Lec是雅克比矩阵,Vc是相机的空间速度;
计算得到针对静止目标的视觉伺服控制器的控制算法为:
Figure FDA0003592262410000044
其中,λ为增益系数。
4.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S3的具体方法如下:
单应性任务模型的增益系数λ=diag{λvxvyvzωxωyωz}∈R6×6,包括六个维度的伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz
由视觉伺服控制器的控制算法可知,伺服增益λ与图像雅可比矩阵和特征误差有关;此外,即使存在许多特征点时,
Figure FDA0003592262410000045
的维数是固定不变的,因此选择
Figure FDA0003592262410000046
作为状态空间;
六个智能体的状态空间为:
Figure FDA0003592262410000051
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集;每个维度的智能体的状态空间均采用对数划分的方法,但是上下限是不同的,上下限根据具体情况决定;
六个状态空间Sj(j=1,…,6)的上限
Figure FDA0003592262410000052
和下限
Figure FDA0003592262410000053
通过环境获得;正区间
Figure FDA0003592262410000054
分为n个区间段,则每个区间段为
Figure FDA0003592262410000055
负区间
Figure FDA0003592262410000056
分为n个区间段,则每个区间段为
Figure FDA0003592262410000057
对数分区方法如下:
Figure FDA0003592262410000058
Figure FDA0003592262410000059
5.根据权利要求4所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,还包括建立增益动作集,方法如下:
选取m个增益作为动作集a={ai|i=1,…,m},利用ε-贪心算法从动作集中选择一个动作ai,当随机概率小于ε时,从动作集合中随机选择增益ai,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
6.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S3中,Q学习算法的奖励函数的设计方法如下:
确定奖励函数的值的取决条件,取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置;
(1)如果与特征点相对应的误差范数的总和小于给定的阈值,则判断已到达所需位置,并且奖励值是最大值R;
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作;
(3)当特征点接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大;奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关;
奖励函数的公式如下:
Figure FDA0003592262410000061
其中,R是最大奖励值,是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
7.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S3中,Q学习算法的更新函数为:
Figure FDA0003592262410000062
其中,其中,Qt+1(st,at)为t+1时刻下,状态st执行动作at后的更新Q值,Qt(st,at)为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qt(st+1,at+1)为t时刻下,预测下一时刻的Q值。
8.一种基于单应性和Q学习的无标定视觉伺服控制系统,其特征在于,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
CN202210379777.8A 2022-04-12 2022-04-12 一种基于单应性和q学习的无标定视觉伺服控制方法 Active CN114609976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210379777.8A CN114609976B (zh) 2022-04-12 2022-04-12 一种基于单应性和q学习的无标定视觉伺服控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210379777.8A CN114609976B (zh) 2022-04-12 2022-04-12 一种基于单应性和q学习的无标定视觉伺服控制方法

Publications (2)

Publication Number Publication Date
CN114609976A true CN114609976A (zh) 2022-06-10
CN114609976B CN114609976B (zh) 2024-08-30

Family

ID=81869852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210379777.8A Active CN114609976B (zh) 2022-04-12 2022-04-12 一种基于单应性和q学习的无标定视觉伺服控制方法

Country Status (1)

Country Link
CN (1) CN114609976B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131400A (zh) * 2022-06-14 2022-09-30 西北工业大学 一种结合强化学习的混合特征视觉伺服方法
CN117733868A (zh) * 2024-01-16 2024-03-22 中山大学 基于复合学习和单应性矩阵的机器人3d视觉伺服方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227482A (zh) * 2016-12-14 2018-06-29 发那科株式会社 控制系统以及机器学习装置
US20180335758A1 (en) * 2017-05-16 2018-11-22 Fanuc Corporation Machine learning device, servo control system, and machine learning method
CN109143855A (zh) * 2018-07-31 2019-01-04 西北工业大学 一种基于模糊sarsa学习的旋翼无人机视觉伺服控制方法
CN111360827A (zh) * 2020-03-06 2020-07-03 哈尔滨工业大学 一种视觉伺服切换控制方法及系统
CN112099442A (zh) * 2020-09-11 2020-12-18 哈尔滨工程大学 一种并联机器人视觉伺服系统及控制方法
CN112256751A (zh) * 2020-10-10 2021-01-22 天津航天机电设备研究所 一种基于孪生数据的仓储物流可视化系统及其构建方法
US20210158567A1 (en) * 2018-06-05 2021-05-27 Beijing Sensetime Technology Development Co., Ltd. Visual positioning method and apparatus, electronic device, and system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227482A (zh) * 2016-12-14 2018-06-29 发那科株式会社 控制系统以及机器学习装置
US20180335758A1 (en) * 2017-05-16 2018-11-22 Fanuc Corporation Machine learning device, servo control system, and machine learning method
US20210158567A1 (en) * 2018-06-05 2021-05-27 Beijing Sensetime Technology Development Co., Ltd. Visual positioning method and apparatus, electronic device, and system
CN109143855A (zh) * 2018-07-31 2019-01-04 西北工业大学 一种基于模糊sarsa学习的旋翼无人机视觉伺服控制方法
CN111360827A (zh) * 2020-03-06 2020-07-03 哈尔滨工业大学 一种视觉伺服切换控制方法及系统
CN112099442A (zh) * 2020-09-11 2020-12-18 哈尔滨工程大学 一种并联机器人视觉伺服系统及控制方法
CN112256751A (zh) * 2020-10-10 2021-01-22 天津航天机电设备研究所 一种基于孪生数据的仓储物流可视化系统及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱海洲: "视觉伺服在机械臂动态跟踪抓取中的应用", 《人工智能与传感技术》, no. 24, 31 December 2020 (2020-12-31), pages 67 - 71 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131400A (zh) * 2022-06-14 2022-09-30 西北工业大学 一种结合强化学习的混合特征视觉伺服方法
CN117733868A (zh) * 2024-01-16 2024-03-22 中山大学 基于复合学习和单应性矩阵的机器人3d视觉伺服方法
CN117733868B (zh) * 2024-01-16 2024-09-03 中山大学 基于复合学习和单应性矩阵的机器人3d视觉伺服方法

Also Published As

Publication number Publication date
CN114609976B (zh) 2024-08-30

Similar Documents

Publication Publication Date Title
CN114609976A (zh) 一种基于单应性和q学习的无标定视觉伺服控制方法
Yokoyama et al. Autonomous mobile robot with simple navigation system based on deep reinforcement learning and a monocular camera
CN110930429B (zh) 一种目标跟踪处理方法、装置及设备、可读介质
CN107301657A (zh) 一种考虑目标运动信息的视频目标跟踪方法
JP2020119555A (ja) 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN109062040B (zh) 基于系统嵌套优化的预测pid方法
CN103218663A (zh) 信息处理装置、信息处理方法和程序
Bartashevich et al. PSO-based Search mechanism in dynamic environments: Swarms in Vector Fields
CN112101145B (zh) 基于svm分类器的移动机器人位姿估计方法
CN111950599B (zh) 一种动态环境下融合边缘信息的稠密视觉里程计方法
KR101022785B1 (ko) 신경망과 진화연산을 이용한 로봇의 환경 지도 작성 방법
CN117471919A (zh) 一种基于改进鹈鹕优化算法的机器人路径规划方法
Shen et al. Fast adaptive optimization of weighted vector median filters
CN116772835A (zh) 基于惯性导航和uwb传感器网络的室内定位方法及系统
Porta et al. Appearance-based concurrent map building and localization
CN116360437A (zh) 智能机器人路径规划方法、装置、设备及存储介质
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
CN114548497B (zh) 一种实现场景自适应的人群运动路径规划方法及系统
CN112508168B (zh) 基于预测框自动修正的边框回归神经网络构建方法
CN111462177B (zh) 一种基于多线索的在线多目标跟踪方法和系统
CN110788859B (zh) 一种控制器参数全域自适应调节系统
CN111931387A (zh) 一种面向移动柱状组合体的视觉伺服趋近方法
CN110543919A (zh) 一种机器人定位控制方法、终端设备及存储介质
Heikkonen et al. From situations to actions: Motion behavior learning by self-organization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant