CN114609976A - 一种基于单应性和q学习的无标定视觉伺服控制方法 - Google Patents
一种基于单应性和q学习的无标定视觉伺服控制方法 Download PDFInfo
- Publication number
- CN114609976A CN114609976A CN202210379777.8A CN202210379777A CN114609976A CN 114609976 A CN114609976 A CN 114609976A CN 202210379777 A CN202210379777 A CN 202210379777A CN 114609976 A CN114609976 A CN 114609976A
- Authority
- CN
- China
- Prior art keywords
- homography
- learning
- gain
- matrix
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000000007 visual effect Effects 0.000 title claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000009471 action Effects 0.000 claims description 30
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 18
- 238000012360 testing method Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 14
- 238000012795 verification Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/414—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
- G05B19/4142—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by the use of a microprocessor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34013—Servocontroller
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Human Computer Interaction (AREA)
- Manufacturing & Machinery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法,包括如下步骤:S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;S3、利用Q学习算法选择最优的单应性任务模型的增益系数。本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比,在特征点较多的情况下,利用单应性任务函数设计,使雅可比矩阵的计算复杂度降低,收敛速度变快。利用Q学习方法进行增益的参数自适应调优,增快了视觉伺服任务的收敛速度。
Description
技术领域
本发明涉及机器人视觉伺服领域,尤其是涉及一种基于单应性和Q学习的无标定视觉伺服控制方法。
背景技术
1.相机标定的过程不仅繁琐,而且相机标定误差会导致视觉伺服控制的精度下降。在很多情况,相机标定存在很多限制。
2.在实际工程中,图像特征的数量越多,则系统的鲁棒性越强,控制效果越准确。然而,增大图像特征点的个数会引起雅克比矩阵维数的增加,从而使计算量大大增大,增大系统的计算时间。
3.对于传统的IBVS来说,其伺服增益通常为一个固定值。然而,固定增益可能会导致系统的不稳定和收敛缓慢。与传统的固定增益相比,自适应增益可以提高系统的收敛速度。
专利CN202010151757.6提出了一种视觉伺服切换控制方法及系统。此发明公开了一种视觉伺服切换控制方法及系统。但是这种方法在特征点较多的情况下,会增大雅克比矩阵的计算负担,降低视觉伺服的速度。
发明内容
有鉴于此,本发明旨在提出一种基于单应性和Q学习的无标定视觉伺服控制方法,以解决上述至少部分技术问题中的至少之一。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制方法,包括如下步骤:
S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;
S3、利用Q学习算法选择最优的单应性任务模型的增益系数。
进一步的,步骤S1的具体方法如下:
其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移;
将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义
其中,K为增益矩阵。
进一步的,步骤S2的具体方法为:
归一化坐标的欧几里得单应性矩阵为:
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量;
定义深度比为:
得到,
定义投影单应性矩阵为:
G=KHK-1
由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得:
H=I;
即
G=I
因此,等价于R=I和t=0,令
定义矩阵函数:
则误差任务函数为:
E=[E1 E2 E3]T
对式E进行求导,得如下关系:
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
对上述公式进行变换:
得到将e的导数与相机速度相关联的表达式为:
其中,Lec是雅克比矩阵,Vc是相机的空间速度;
计算得到针对静止目标的视觉伺服控制器的控制算法为:
其中,λ为增益系数。
进一步的,步骤S3的具体方法如下:
单应性任务模型的增益系数λ=diag{λvx,λvy,λvz,λωx,λωy,λωz}∈R6×6,包括六个维度的伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz;
六个智能体的状态空间为:
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集;每个维度的智能体的状态空间均采用对数划分的方法,但是上下限是不同的,上下限根据具体情况决定;
对数分区方法如下:
进一步的,还包括建立增益动作集,方法如下:
选取m个增益作为动作集a={ai|i=1,…,m},利用ε-贪心算法从动作集中选择一个动作ai,当随机概率小于ε时,从动作集合中随机选择增益ai,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
进一步的,步骤S3中,Q学习算法的奖励函数的设计方法如下:
确定奖励函数的值的取决条件,取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置;
(1)如果与特征点相对应的误差范数的总和小于给定的阈值,则判断已到达所需位置,并且奖励值是最大值R;
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作;
(3)当特征点接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大;奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关。
奖励函数的公式如下:
其中,R是最大奖励值,是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
进一步的,步骤S3中,Q学习算法的更新函数为:
其中,其中,Qt+1(st,at)为t+1时刻下,状态st执行动作at后的更新Q值,Qt(st,at)为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qt(st+1,at+1)为t时刻下,预测下一时刻的Q值。
另一方面,本发明提供了一种基于单应性和Q学习的无标定视觉伺服控制系统,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
相对于现有技术,本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法具有以下优势:
本发明所述的基于单应性和Q学习的无标定视觉伺服控制方法与传统方法相比,在特征点较多的情况下,利用单应性任务函数设计,使雅可比矩阵的计算复杂度降低,收敛速度变快。利用Q学习方法进行增益的参数自适应调优,增快了视觉伺服任务的收敛速度。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为运动学模型建立原理图;
图2为基于单应性和Q学习的无标定视觉伺服控制方法架构图;
图3为4个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图4为4个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图;
图5为9个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图6为9个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图;
图7为16个点的情况,传统IBVS+Q学习与单应性+Q学习的轨迹和误差效果对比图;
图8为16个点的情况,单应性+固定增益与单应性+Q学习的轨迹和误差效果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
一种基于单应性和Q学习的无标定视觉伺服控制方法,如图2所示,具体如下:
所述运动学模型具体包括:
如图1所示,对于一个eye-in-hand类型的单目视觉伺服系统,存在当前相机平面坐标系{F}和期望相机平面坐标系{F*}。假设目标特征点为Pi(i=1,2,...),则其在{F}和{F*}下的欧几里得坐标分别为Xi=[Xi,Yi,Zi]T和Xi和的关系可以描述为
其中,R表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移。
将Pi的坐标在{F}和{F*}坐标系下进行归一化处理,定义
其中,K为增益矩阵。
较佳的,单应性任务函数设计步骤包括:
单应性矩阵表示空间中的一组相同特征在不同的坐标系中的对应关系。
归一化坐标的欧几里得单应性矩阵可写成
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量。
定义深度比为
可以得到
定义投影单应性矩阵为
G=KHK-1
视觉伺服的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得
H=I
即
G=I
因此,等价于R=I和t=0。令
定义矩阵函数:
则误差任务函数为
E=[E1 E2 E3]T
对式E进行求导,可得如下关系
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
上式又可写成
因此,我们可以得到一个表达式,该表达式将e的导数与相机速度相关联,即
其中,Lec是雅克比矩阵,Vc是相机的空间速度。
得到针对静止目标的视觉伺服控制器的控制算法为:
其中,λ为增益系数。
与传统的固定增益相比,自适应增益可以提高系统的收敛速度。本发明使用Q学习来确定增益,与其他方法相比,Q学习通过对环境的学习,可以做出最优决策,达到在不同状态下自适应调整增益的效果,从而提高了收敛速度。
在本发明中,增益系数为λ=diag{λvx,λvy,λvz,λωx,λωy,λωz}∈R6×6。六个代表伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz,通过Q学习从环境中学习经验。
Q增益状态划分设计步骤包括:
六个智能体的状态空间为
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集,每个维度的状态空间都采用对数划分的方法,但是上下限是不同的,上下限由具体情况决定。
较佳的,Q增益动作集设计步骤包括:
为了减少时间成本,给出m个增益作为动作集a={ai|i=1,…,m}。ε-贪心算法用于从动作集合中选择一个动作ai。当随机概率小于ε时,从动作集合中随机选择增益ai。但是,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
本发明的Q学习算法中Q增益奖励函数设计步骤包括:
奖励函数的值主要取决于三个条件:特征点到达期望位置,特征点离开视野范围以及特征点接近期望位置。
(1)如果与这四个点相对应的误差范数的总和小于给定的阈值,则可以判断特征已到达所需位置,并且奖励值是最大值R。
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作。
(3)当特征接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大。因此,奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关。
奖励函数如下所示,其中R是最大奖励值,它是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
较佳的,Q学习中Q函数更新步骤包括:
在本发明中,Q值的更新对于每个状态空间都是独立的,Q更新函数为
其中,Qt+1(st,at)为t+1时刻下,状态st执行动作at后的更新Q值,Qt(st,at)为t时刻下,状态st执行动作at后的累积Q值,α为学习率,r为即时回报,γ为折扣率,Qt(st+1,at+1)为t时刻下,预测下一时刻的Q值。
示例:
为了验证基于投影单应性方法的有效性,本发明分别采用4个特征点、9个特征点和16个特征点的情况与传统方法进行比较。其中,二者的雅克比矩阵的估计方法主要采用卡尔曼滤波器估计以及自适应估计,且二者均为无标定视觉伺服。
4个特征点、9个特征点和16个特征点的初始位置和期望位置如下表所示:
4个特征点在图像平面的初始位置和期望位置(像素)
9个特征点在图像平面的初始位置和期望位置(像素)
16个特征点在图像平面的初始位置和期望位置(像素)
第一步:视觉伺服系统的运动学模型的搭建。
第二步:单应性任务模型建立。在进行无标定视觉伺服控制之前,无论是传统无标定视觉伺服方法还是基于单应性投影的无标定视觉伺服,均需要对图像雅克比矩阵的初值进行估计并采用正交试探法进行确定。
第三步:Q学习增益模块建立。包括Q增益状态划分设计步骤、Q增益动作集设计步骤、Q增益奖励函数设计步骤、Q函数更新率步骤对Q学习增益模块进行设计。
第四步:对6种情况进行仿真测试进行验证。如图3、图4示出,仿真测试一和仿真测试二是4个特征点无标定视觉伺服方法的对比。其中,仿真测试一和二中的图像雅克比矩阵采用自适应方法进行估计。仿真测试一采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时4.24s,单应性+Q学习用时23.52s。验证在4个点时,传统效果较好。仿真测试二采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时29.76s,单应性+Q学习用时23.52s。验证在4个点时,Q学习效果较好。
如图5、图6示出,仿真测试三和仿真测试四是9个特征点无标定视觉伺服方法的对比。其中,仿真测试三和四中的图像雅克比矩阵采用自适应方法进行估计。仿真测试三采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时19.32s,单应性+Q学习用时14.32s。验证在9个点时,单应性效果较好。仿真测试四采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时16.84s,单应性+Q学习用时14.32s。验证在9个点时,Q学习效果较好。
如图7、图8示出,仿真测试五和仿真测试六是16个特征点无标定视觉伺服方法的对比。其中,仿真测试五和六中的图像雅克比矩阵采用自适应方法进行估计。仿真测试五采用IBVS+Q学习与单应性+Q学习进行对比,其中,IBVS+Q学习用时11.92s,单应性+Q学习用时10.56s。验证在16个点时,传统效果较好。仿真测试六采用单应性+固定增益与单应性+Q学习进行对比,其中,单应性+固定增益用时10.84s,单应性+Q学习用时10.56s。验证在16个点时,Q学习效果较好。
另一方面,本发明还提供了一种基于单应性和Q学习的无标定视觉伺服控制系统,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
上述模块的实现形式可以是软件也可以是硬件,或者两者的结合,本实施例中的基于单应性和Q学习的无标定视觉伺服控制系统是基于上述实施例中的基于单应性和Q学习的无标定视觉伺服控制方法实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。例如,以上所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,包括如下步骤:
S1、建立单目视觉伺服系统的运动学模型,用以得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
S2、基于中央透视原理,建立单应性任务模型,设计相应的单应性任务函数;
S3、利用Q学习算法选择最优的单应性任务模型的增益系数。
3.根据权利要求2所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S2的具体方法为:
归一化坐标的欧几里得单应性矩阵为:
其中,H为归一化坐标的欧几里得单应性矩阵,cR*表示{F*}相对于{F}的旋转,t表示{F*}相对于{F}的平移,n*表示在{F*}坐标系下的平面π的法向量;
定义深度比为:
得到,
定义投影单应性矩阵为:
G=KHK-1
由于单目视觉伺服系统的任务目标是使两个坐标系{F}和{F*}重合,即R=I且t=0,其中,I表示单位矩阵,可得:
H=I;
即
G=I
因此,等价于R=I和t=0,令
定义矩阵函数:
则误差任务函数为:
E=[E1 E2 E3]T
对式E进行求导,得如下关系:
其中,v表示相机的平移速度,w表示相机的角速度;
推导可得
对上述公式进行变换:
得到将e的导数与相机速度相关联的表达式为:
其中,Lec是雅克比矩阵,Vc是相机的空间速度;
计算得到针对静止目标的视觉伺服控制器的控制算法为:
其中,λ为增益系数。
4.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S3的具体方法如下:
单应性任务模型的增益系数λ=diag{λvx,λvy,λvz,λωx,λωy,λωz}∈R6×6,包括六个维度的伺服增益的智能体Avx,Avy,Avz,Aωx,Aωy,Aωz;
六个智能体的状态空间为:
其中,Svx Svy Svz Swx Swy Swz为六个自由度下的状态空间集;每个维度的智能体的状态空间均采用对数划分的方法,但是上下限是不同的,上下限根据具体情况决定;
对数分区方法如下:
5.根据权利要求4所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,还包括建立增益动作集,方法如下:
选取m个增益作为动作集a={ai|i=1,…,m},利用ε-贪心算法从动作集中选择一个动作ai,当随机概率小于ε时,从动作集合中随机选择增益ai,如果随机概率大于ε,则选择与Q(s,a)最大值对应的动作,选择ε=μn作为探索概率,其中n是训练次数,μ是0到1之间的常数。
6.根据权利要求1所述的基于单应性和Q学习的无标定视觉伺服控制方法,其特征在于,步骤S3中,Q学习算法的奖励函数的设计方法如下:
确定奖励函数的值的取决条件,取决条件包括特征点到达期望位置、特征点离开视野范围以及特征点接近期望位置;
(1)如果与特征点相对应的误差范数的总和小于给定的阈值,则判断已到达所需位置,并且奖励值是最大值R;
(2)如果特征点在选择不良动作后产生了不良轨迹并离开了视野,则给出最差的奖励值-R以避免选择该动作;
(3)当特征点接近期望位置时,为了减小误差,使特征越接近期望位置时其奖励值越大;奖励值随着特征接近目标的距离而改变,并且与特征点的误差有关;
奖励函数的公式如下:
其中,R是最大奖励值,是一个正常数;row是像平面的高度,col是像平面的宽度;σ是特征点的数量。
8.一种基于单应性和Q学习的无标定视觉伺服控制系统,其特征在于,包括:
图像采集模块,用于采集图像信息;
建模模块一,用于建立单目视觉伺服系统的运动学模型,结合采集的图像详细,得到当特征点投影到当前图像平面和期望图像平面时的像素坐标;
建模模块二,用于建立单应性任务模型,输出恒定维数的映射矩阵;
Q学习增益模块,基于Q学习算法选择最优的单应性任务模型的增益系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379777.8A CN114609976B (zh) | 2022-04-12 | 2022-04-12 | 一种基于单应性和q学习的无标定视觉伺服控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379777.8A CN114609976B (zh) | 2022-04-12 | 2022-04-12 | 一种基于单应性和q学习的无标定视觉伺服控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114609976A true CN114609976A (zh) | 2022-06-10 |
CN114609976B CN114609976B (zh) | 2024-08-30 |
Family
ID=81869852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379777.8A Active CN114609976B (zh) | 2022-04-12 | 2022-04-12 | 一种基于单应性和q学习的无标定视觉伺服控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114609976B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131400A (zh) * | 2022-06-14 | 2022-09-30 | 西北工业大学 | 一种结合强化学习的混合特征视觉伺服方法 |
CN117733868A (zh) * | 2024-01-16 | 2024-03-22 | 中山大学 | 基于复合学习和单应性矩阵的机器人3d视觉伺服方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108227482A (zh) * | 2016-12-14 | 2018-06-29 | 发那科株式会社 | 控制系统以及机器学习装置 |
US20180335758A1 (en) * | 2017-05-16 | 2018-11-22 | Fanuc Corporation | Machine learning device, servo control system, and machine learning method |
CN109143855A (zh) * | 2018-07-31 | 2019-01-04 | 西北工业大学 | 一种基于模糊sarsa学习的旋翼无人机视觉伺服控制方法 |
CN111360827A (zh) * | 2020-03-06 | 2020-07-03 | 哈尔滨工业大学 | 一种视觉伺服切换控制方法及系统 |
CN112099442A (zh) * | 2020-09-11 | 2020-12-18 | 哈尔滨工程大学 | 一种并联机器人视觉伺服系统及控制方法 |
CN112256751A (zh) * | 2020-10-10 | 2021-01-22 | 天津航天机电设备研究所 | 一种基于孪生数据的仓储物流可视化系统及其构建方法 |
US20210158567A1 (en) * | 2018-06-05 | 2021-05-27 | Beijing Sensetime Technology Development Co., Ltd. | Visual positioning method and apparatus, electronic device, and system |
-
2022
- 2022-04-12 CN CN202210379777.8A patent/CN114609976B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108227482A (zh) * | 2016-12-14 | 2018-06-29 | 发那科株式会社 | 控制系统以及机器学习装置 |
US20180335758A1 (en) * | 2017-05-16 | 2018-11-22 | Fanuc Corporation | Machine learning device, servo control system, and machine learning method |
US20210158567A1 (en) * | 2018-06-05 | 2021-05-27 | Beijing Sensetime Technology Development Co., Ltd. | Visual positioning method and apparatus, electronic device, and system |
CN109143855A (zh) * | 2018-07-31 | 2019-01-04 | 西北工业大学 | 一种基于模糊sarsa学习的旋翼无人机视觉伺服控制方法 |
CN111360827A (zh) * | 2020-03-06 | 2020-07-03 | 哈尔滨工业大学 | 一种视觉伺服切换控制方法及系统 |
CN112099442A (zh) * | 2020-09-11 | 2020-12-18 | 哈尔滨工程大学 | 一种并联机器人视觉伺服系统及控制方法 |
CN112256751A (zh) * | 2020-10-10 | 2021-01-22 | 天津航天机电设备研究所 | 一种基于孪生数据的仓储物流可视化系统及其构建方法 |
Non-Patent Citations (1)
Title |
---|
邱海洲: "视觉伺服在机械臂动态跟踪抓取中的应用", 《人工智能与传感技术》, no. 24, 31 December 2020 (2020-12-31), pages 67 - 71 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131400A (zh) * | 2022-06-14 | 2022-09-30 | 西北工业大学 | 一种结合强化学习的混合特征视觉伺服方法 |
CN117733868A (zh) * | 2024-01-16 | 2024-03-22 | 中山大学 | 基于复合学习和单应性矩阵的机器人3d视觉伺服方法 |
CN117733868B (zh) * | 2024-01-16 | 2024-09-03 | 中山大学 | 基于复合学习和单应性矩阵的机器人3d视觉伺服方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114609976B (zh) | 2024-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114609976A (zh) | 一种基于单应性和q学习的无标定视觉伺服控制方法 | |
Yokoyama et al. | Autonomous mobile robot with simple navigation system based on deep reinforcement learning and a monocular camera | |
CN110930429B (zh) | 一种目标跟踪处理方法、装置及设备、可读介质 | |
CN107301657A (zh) | 一种考虑目标运动信息的视频目标跟踪方法 | |
JP2020119555A (ja) | 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
CN112405542B (zh) | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
CN103218663A (zh) | 信息处理装置、信息处理方法和程序 | |
Bartashevich et al. | PSO-based Search mechanism in dynamic environments: Swarms in Vector Fields | |
CN112101145B (zh) | 基于svm分类器的移动机器人位姿估计方法 | |
CN111950599B (zh) | 一种动态环境下融合边缘信息的稠密视觉里程计方法 | |
KR101022785B1 (ko) | 신경망과 진화연산을 이용한 로봇의 환경 지도 작성 방법 | |
CN117471919A (zh) | 一种基于改进鹈鹕优化算法的机器人路径规划方法 | |
Shen et al. | Fast adaptive optimization of weighted vector median filters | |
CN116772835A (zh) | 基于惯性导航和uwb传感器网络的室内定位方法及系统 | |
Porta et al. | Appearance-based concurrent map building and localization | |
CN116360437A (zh) | 智能机器人路径规划方法、装置、设备及存储介质 | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN114548497B (zh) | 一种实现场景自适应的人群运动路径规划方法及系统 | |
CN112508168B (zh) | 基于预测框自动修正的边框回归神经网络构建方法 | |
CN111462177B (zh) | 一种基于多线索的在线多目标跟踪方法和系统 | |
CN110788859B (zh) | 一种控制器参数全域自适应调节系统 | |
CN111931387A (zh) | 一种面向移动柱状组合体的视觉伺服趋近方法 | |
CN110543919A (zh) | 一种机器人定位控制方法、终端设备及存储介质 | |
Heikkonen et al. | From situations to actions: Motion behavior learning by self-organization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |